问题域/PD-407

多模态消息解析

Multimodal Message Parsing

将多模态对话消息(文本/文件/图片/音频)解析为结构化记忆条目

子问题

1.多种消息角色的差异化解析

2.文本/文件/图片/音频内容提取

3.fast/fine 两级解析精度

4.自动语言检测与标注

5.tool_schema XML 块的压缩与可读化转换

6.assistant 消息 refusal/tool_calls/audio 多字段并存处理

7.fast→fine 异步升级(process_transfer 重建消息再精炼)

各项目的解法1 solutions

Signals

横向对比

维度MemOS
解析架构双路由表(role_parsers + type_parsers)Strategy 模式
内容类型覆盖text/file/image_url/input_audio/refusal/tool_calls/audio 七种
精度模式fast 零 LLM + fine LLM 语义提取双精度
语言检测Unicode 中文字符占比 30% 阈值,消息级统一标注
溯源机制SourceMessage extra=allow 每 part 独立溯源
schema 压缩tool_schema 三步压缩:去嵌套→去 description→可读格式

最佳实践

1.Strategy 模式分离不同消息类型

2.SourceMessage 统一中间表示

3.fast 模式保证低延迟

4.消息级语言检测:先聚合所有 text part 再统一标注,避免 part 间不一致

5.双路由表优先 type 再 role,兼容 MessageList 和 RawMessageList 两种输入格式

6.SourceMessage extra=allow 支持任意溯源属性扩展