问题域/PD-472

多模态预处理

Multimodal Preprocessing Pipeline

将图片/音频/视频等多模态输入统一转换为文本,供下游管道处理

子问题

1.图像描述生成

2.音频转录

3.视频关键帧提取

4.模态路由与 prompt 定制

5.文档压缩预处理(去冗余保留关键信息)

6.对话分段与主题切割

7.预处理 Prompt 三级配置覆盖机制

8.LLM 客户端多操作类型统一封装

各项目的解法1 solutions

Signals

横向对比

维度memU
模态覆盖conversation/document/image/video/audio 五模态全覆盖
模态路由if-elif 字符串匹配分发,_dispatch_preprocessor 集中路由
视频处理ffmpeg 提取中间帧 → Vision API 单帧分析
音频处理两阶段管道:STT 转录 → 文本预处理,支持预转录 .txt 文件
Prompt 定制三级解析:用户自定义 > 配置覆盖 > 内置默认,支持 CustomPrompt 多 block 组合
输出格式统一 [{text, caption}] 列表,caption 用于 embedding 索引
LLM 抽象LLMClientWrapper 拦截器管道统一 chat/vision/transcribe/embed 四种操作
容错策略ffmpeg 不可用降级、音频转录失败返回 None、XML 解析 fallback 到原始文本

最佳实践

1.每种模态配置独立的预处理 prompt,统一输出为文本格式

2.音频采用两阶段管道:先 STT 转录再文本预处理,解耦转录与语义处理

3.视频处理前检查 ffmpeg 可用性,不可用时优雅降级而非抛异常

4.XML 标签解析带 fallback:无标签时用原始响应,无 caption 时取首句截断

5.所有 LLM 调用经统一包装器的拦截器管道,自动追踪延迟和 token 用量