多模态预处理
Multimodal Preprocessing Pipeline
将图片/音频/视频等多模态输入统一转换为文本,供下游管道处理
子问题
1.图像描述生成
2.音频转录
3.视频关键帧提取
4.模态路由与 prompt 定制
5.文档压缩预处理(去冗余保留关键信息)
6.对话分段与主题切割
7.预处理 Prompt 三级配置覆盖机制
8.LLM 客户端多操作类型统一封装
各项目的解法1 solutions
Signals
横向对比
| 维度 | memU |
|---|---|
| 模态覆盖 | conversation/document/image/video/audio 五模态全覆盖 |
| 模态路由 | if-elif 字符串匹配分发,_dispatch_preprocessor 集中路由 |
| 视频处理 | ffmpeg 提取中间帧 → Vision API 单帧分析 |
| 音频处理 | 两阶段管道:STT 转录 → 文本预处理,支持预转录 .txt 文件 |
| Prompt 定制 | 三级解析:用户自定义 > 配置覆盖 > 内置默认,支持 CustomPrompt 多 block 组合 |
| 输出格式 | 统一 [{text, caption}] 列表,caption 用于 embedding 索引 |
| LLM 抽象 | LLMClientWrapper 拦截器管道统一 chat/vision/transcribe/embed 四种操作 |
| 容错策略 | ffmpeg 不可用降级、音频转录失败返回 None、XML 解析 fallback 到原始文本 |
最佳实践
1.每种模态配置独立的预处理 prompt,统一输出为文本格式
2.音频采用两阶段管道:先 STT 转录再文本预处理,解耦转录与语义处理
3.视频处理前检查 ffmpeg 可用性,不可用时优雅降级而非抛异常
4.XML 标签解析带 fallback:无标签时用原始响应,无 caption 时取首句截断
5.所有 LLM 调用经统一包装器的拦截器管道,自动追踪延迟和 token 用量