文件解析与多模态处理

Multimodal File Parsing

支持PDF/Office/视频/音频等多格式文件的解析和内容提取

子问题

1.如何统一处理不同格式的文件

2.如何处理超大文件的token限制

3.如何集成云端文档解析服务

4.如何实现视频关键帧的智能提取（场景检测 vs 均匀采样）

5.如何将音频转录与视觉帧分析结合为统一的多模态分析结果

Signals

维度	DeepResearch
解析架构	字典分发 + IDP 云端优先 + 本地 fallback 三层架构
格式覆盖	16+ 格式：PDF/DOCX/PPTX/XLSX/CSV/HTML/XML/ZIP/MP4/MP3 等
Token 控制	count_tokens 逐段计数 + compress 均分截断 + 表格 schema 降级
缓存策略	SHA256(file_path) 作为 key，Storage 持久化缓存
多模态处理	VideoAnalysis 独立链路：场景检测关键帧 + 音频转录 + LLM 多模态分析
云端集成	阿里云 IDP 智能文档解析，异步轮询 10×10s，失败自动降级

1.按文件类型分发到专用解析器，超限时自动压缩

2.SHA256 缓存避免重复解析，同一文件多次引用零成本

3.表格文件超限时降级为 schema（列名+类型+样本）而非简单截断

4.视频处理优先场景检测提取关键帧，不足时补充均匀采样