问题域/PD-566

多模态路由

Multimodal Model Routing

根据输入内容自动路由到文本 LLM 或视觉 VLM

子问题

1.模态检测与模型选择

2.视频抽帧策略

3.图片压缩与尺寸控制

4.全局 token/图片数量限制

各项目的解法1 solutions

Signals

最佳实践

1.按 media 字段有无自动切换 LLM/VLM

2.视频按时间窗口分段采样避免 token 溢出