训练数据构建
Training Data Construction
利用专家模型自动构建高质量RL/SFT训练数据,包括CoT轨迹生成和格式转换
子问题
1.专家模型轨迹采样
2.坐标系归一化
3.多格式转换
4.数据质量过滤
5.多模型协作采样中的模型切换策略
6.搜索结果中参考页优先选择与去重
7.JSONL 追加式断点续传与多线程刷盘
8.RL 奖励函数按数据源路由的分发机制
各项目的解法1 solutions
Signals
横向对比
| 维度 | VRAG |
|---|---|
| 采样架构 | 三模型协作(VLM推理 + 72B grounding + LLM文本),DashScope API 驱动 |
| 坐标系处理 | smart_resize factor=28 对齐 + bbox 缩放 clamp,适配 Qwen2.5-VL ViT |
| 质量过滤 | score=5 硬过滤 + 像素范围检查 + bbox 越界检查,三重门控 |
| 格式转换 | JSONL → LLaMA-Factory JSON → HuggingFace Parquet 三阶段流水线 |
| 断点续传 | JSONL 追加写入 + uid 去重,支持多线程批量刷盘 |
| 奖励设计 | 格式奖励(search+answer 双标签)+ ANLS 内容奖励,按 data_source 路由 |
最佳实践
1.用强模型生成CoT数据再用弱模型SFT学习模式
2.采样时用原始坐标,转换时再做目标模型坐标系归一化,解耦采样与训练
3.格式奖励+内容奖励双重评分,先检查结构再评估语义
4.多源 benchmark 合并时保留 data_source 元数据,支持差异化奖励路由