多模态消息解析
Multimodal Message Parsing
将多模态对话消息(文本/文件/图片/音频)解析为结构化记忆条目
子问题
1.多种消息角色的差异化解析
2.文本/文件/图片/音频内容提取
3.fast/fine 两级解析精度
4.自动语言检测与标注
5.tool_schema XML 块的压缩与可读化转换
6.assistant 消息 refusal/tool_calls/audio 多字段并存处理
7.fast→fine 异步升级(process_transfer 重建消息再精炼)
各项目的解法1 solutions
Signals
横向对比
| 维度 | MemOS |
|---|---|
| 解析架构 | 双路由表(role_parsers + type_parsers)Strategy 模式 |
| 内容类型覆盖 | text/file/image_url/input_audio/refusal/tool_calls/audio 七种 |
| 精度模式 | fast 零 LLM + fine LLM 语义提取双精度 |
| 语言检测 | Unicode 中文字符占比 30% 阈值,消息级统一标注 |
| 溯源机制 | SourceMessage extra=allow 每 part 独立溯源 |
| schema 压缩 | tool_schema 三步压缩:去嵌套→去 description→可读格式 |
最佳实践
1.Strategy 模式分离不同消息类型
2.SourceMessage 统一中间表示
3.fast 模式保证低延迟
4.消息级语言检测:先聚合所有 text part 再统一标注,避免 part 间不一致
5.双路由表优先 type 再 role,兼容 MessageList 和 RawMessageList 两种输入格式
6.SourceMessage extra=allow 支持任意溯源属性扩展