问题域/PD-289

多模态产物评估

Multimodal Artifact Evaluation

对 Agent 生成的多格式文件产物进行视觉+文本的 LLM 多模态质量评估

子问题

1.多格式文件解析(DOCX/XLSX/PPTX/PDF/图片)

2.文件转图片管道(LibreOffice+pdf2image)

3.职业专属评分 rubric 设计

4.评分结果解析与归一化

5.评估 API 配置隔离(评估用独立 API Key/Base/Model)

6.非多模态模型的 OCR fallback 路径(Qwen VL OCR)

7.评估分数与经济系统的门控集成

各项目的解法1 solutions

Signals

横向对比

维度	ClawWork
评估方式	GPT-4o Vision 多模态评估，文本+图片联合送入
评估维度	4 维加权：completeness 40% + correctness 30% + quality 20% + domain 10%
评估粒度	46 个职业各有独立 rubric JSON，含检查清单和失败模式
迭代机制	无迭代，单次评估直接出分，失败直接 raise 无 fallback
文件转换管道	PPTX→LibreOffice→PDF→PNG；PDF→2×2 网格合并图节省 token
经济门控	0.6 分阈值，低于门控零支付，线性映射到 max_payment
多模态支持	7 格式统一读取：PNG/JPG/DOCX/XLSX/PPTX/PDF/TXT

最佳实践

1.为每个任务类别设计专属评分 rubric 而非通用标准

2.PDF 4 页合并为 2×2 网格图可节省约 75% 的 vision API token

3.评估 API 应与 Agent 推理 API 配置隔离以避免互相影响

4.评估失败应直接抛异常而非降级到启发式评估以保证一致性