问题域/PD-289

多模态产物评估

Multimodal Artifact Evaluation

对 Agent 生成的多格式文件产物进行视觉+文本的 LLM 多模态质量评估

子问题

1.多格式文件解析(DOCX/XLSX/PPTX/PDF/图片)

2.文件转图片管道(LibreOffice+pdf2image)

3.职业专属评分 rubric 设计

4.评分结果解析与归一化

5.评估 API 配置隔离(评估用独立 API Key/Base/Model)

6.非多模态模型的 OCR fallback 路径(Qwen VL OCR)

7.评估分数与经济系统的门控集成

各项目的解法1 solutions

Signals

横向对比

维度ClawWork
评估方式GPT-4o Vision 多模态评估,文本+图片联合送入
评估维度4 维加权:completeness 40% + correctness 30% + quality 20% + domain 10%
评估粒度46 个职业各有独立 rubric JSON,含检查清单和失败模式
迭代机制无迭代,单次评估直接出分,失败直接 raise 无 fallback
文件转换管道PPTX→LibreOffice→PDF→PNG;PDF→2×2 网格合并图节省 token
经济门控0.6 分阈值,低于门控零支付,线性映射到 max_payment
多模态支持7 格式统一读取:PNG/JPG/DOCX/XLSX/PPTX/PDF/TXT

最佳实践

1.为每个任务类别设计专属评分 rubric 而非通用标准

2.PDF 4 页合并为 2×2 网格图可节省约 75% 的 vision API token

3.评估 API 应与 Agent 推理 API 配置隔离以避免互相影响

4.评估失败应直接抛异常而非降级到启发式评估以保证一致性