多模态产物评估
Multimodal Artifact Evaluation
对 Agent 生成的多格式文件产物进行视觉+文本的 LLM 多模态质量评估
子问题
1.多格式文件解析(DOCX/XLSX/PPTX/PDF/图片)
2.文件转图片管道(LibreOffice+pdf2image)
3.职业专属评分 rubric 设计
4.评分结果解析与归一化
5.评估 API 配置隔离(评估用独立 API Key/Base/Model)
6.非多模态模型的 OCR fallback 路径(Qwen VL OCR)
7.评估分数与经济系统的门控集成
各项目的解法1 solutions
Signals
横向对比
| 维度 | ClawWork |
|---|---|
| 评估方式 | GPT-4o Vision 多模态评估,文本+图片联合送入 |
| 评估维度 | 4 维加权:completeness 40% + correctness 30% + quality 20% + domain 10% |
| 评估粒度 | 46 个职业各有独立 rubric JSON,含检查清单和失败模式 |
| 迭代机制 | 无迭代,单次评估直接出分,失败直接 raise 无 fallback |
| 文件转换管道 | PPTX→LibreOffice→PDF→PNG;PDF→2×2 网格合并图节省 token |
| 经济门控 | 0.6 分阈值,低于门控零支付,线性映射到 max_payment |
| 多模态支持 | 7 格式统一读取:PNG/JPG/DOCX/XLSX/PPTX/PDF/TXT |
最佳实践
1.为每个任务类别设计专属评分 rubric 而非通用标准
2.PDF 4 页合并为 2×2 网格图可节省约 75% 的 vision API token
3.评估 API 应与 Agent 推理 API 配置隔离以避免互相影响
4.评估失败应直接抛异常而非降级到启发式评估以保证一致性