问题域/PD-472

多模态预处理

Multimodal Preprocessing Pipeline

将图片/音频/视频等多模态输入统一转换为文本，供下游管道处理

子问题

1.图像描述生成

2.音频转录

3.视频关键帧提取

4.模态路由与 prompt 定制

5.文档压缩预处理（去冗余保留关键信息）

6.对话分段与主题切割

7.预处理 Prompt 三级配置覆盖机制

8.LLM 客户端多操作类型统一封装

各项目的解法1 solutions

Signals

横向对比

维度	memU
模态覆盖	conversation/document/image/video/audio 五模态全覆盖
模态路由	if-elif 字符串匹配分发，_dispatch_preprocessor 集中路由
视频处理	ffmpeg 提取中间帧 → Vision API 单帧分析
音频处理	两阶段管道：STT 转录 → 文本预处理，支持预转录 .txt 文件
Prompt 定制	三级解析：用户自定义 > 配置覆盖 > 内置默认，支持 CustomPrompt 多 block 组合
输出格式	统一 [{text, caption}] 列表，caption 用于 embedding 索引
LLM 抽象	LLMClientWrapper 拦截器管道统一 chat/vision/transcribe/embed 四种操作
容错策略	ffmpeg 不可用降级、音频转录失败返回 None、XML 解析 fallback 到原始文本

最佳实践

1.每种模态配置独立的预处理 prompt，统一输出为文本格式

2.音频采用两阶段管道：先 STT 转录再文本预处理，解耦转录与语义处理

3.视频处理前检查 ffmpeg 可用性，不可用时优雅降级而非抛异常

4.XML 标签解析带 fallback：无标签时用原始响应，无 caption 时取首句截断

5.所有 LLM 调用经统一包装器的拦截器管道，自动追踪延迟和 token 用量