问题域/PD-361

训练数据构建

Training Data Construction

利用专家模型自动构建高质量RL/SFT训练数据,包括CoT轨迹生成和格式转换

子问题

1.专家模型轨迹采样

2.坐标系归一化

3.多格式转换

4.数据质量过滤

5.多模型协作采样中的模型切换策略

6.搜索结果中参考页优先选择与去重

7.JSONL 追加式断点续传与多线程刷盘

8.RL 奖励函数按数据源路由的分发机制

各项目的解法1 solutions

Signals

横向对比

维度VRAG
采样架构三模型协作(VLM推理 + 72B grounding + LLM文本),DashScope API 驱动
坐标系处理smart_resize factor=28 对齐 + bbox 缩放 clamp,适配 Qwen2.5-VL ViT
质量过滤score=5 硬过滤 + 像素范围检查 + bbox 越界检查,三重门控
格式转换JSONL → LLaMA-Factory JSON → HuggingFace Parquet 三阶段流水线
断点续传JSONL 追加写入 + uid 去重,支持多线程批量刷盘
奖励设计格式奖励(search+answer 双标签)+ ANLS 内容奖励,按 data_source 路由

最佳实践

1.用强模型生成CoT数据再用弱模型SFT学习模式

2.采样时用原始坐标,转换时再做目标模型坐标系归一化,解耦采样与训练

3.格式奖励+内容奖励双重评分,先检查结构再评估语义

4.多源 benchmark 合并时保留 data_source 元数据,支持差异化奖励路由