多模态消息解析

Multimodal Message Parsing

将多模态对话消息（文本/文件/图片/音频）解析为结构化记忆条目

子问题

1.多种消息角色的差异化解析

2.文本/文件/图片/音频内容提取

3.fast/fine 两级解析精度

4.自动语言检测与标注

5.tool_schema XML 块的压缩与可读化转换

6.assistant 消息 refusal/tool_calls/audio 多字段并存处理

7.fast→fine 异步升级（process_transfer 重建消息再精炼）

Signals

维度	MemOS
解析架构	双路由表（role_parsers + type_parsers）Strategy 模式
内容类型覆盖	text/file/image_url/input_audio/refusal/tool_calls/audio 七种
精度模式	fast 零 LLM + fine LLM 语义提取双精度
语言检测	Unicode 中文字符占比 30% 阈值，消息级统一标注
溯源机制	SourceMessage extra=allow 每 part 独立溯源
schema 压缩	tool_schema 三步压缩：去嵌套→去 description→可读格式

1.Strategy 模式分离不同消息类型

2.SourceMessage 统一中间表示

3.fast 模式保证低延迟

4.消息级语言检测：先聚合所有 text part 再统一标注，避免 part 间不一致

5.双路由表优先 type 再 role，兼容 MessageList 和 RawMessageList 两种输入格式

6.SourceMessage extra=allow 支持任意溯源属性扩展