问题域/PD-361

训练数据构建

Training Data Construction

利用专家模型自动构建高质量RL/SFT训练数据，包括CoT轨迹生成和格式转换

子问题

1.专家模型轨迹采样

2.坐标系归一化

3.多格式转换

4.数据质量过滤

5.多模型协作采样中的模型切换策略

6.搜索结果中参考页优先选择与去重

7.JSONL 追加式断点续传与多线程刷盘

8.RL 奖励函数按数据源路由的分发机制

各项目的解法1 solutions

Signals

横向对比

维度	VRAG
采样架构	三模型协作（VLM推理 + 72B grounding + LLM文本），DashScope API 驱动
坐标系处理	smart_resize factor=28 对齐 + bbox 缩放 clamp，适配 Qwen2.5-VL ViT
质量过滤	score=5 硬过滤 + 像素范围检查 + bbox 越界检查，三重门控
格式转换	JSONL → LLaMA-Factory JSON → HuggingFace Parquet 三阶段流水线
断点续传	JSONL 追加写入 + uid 去重，支持多线程批量刷盘
奖励设计	格式奖励（search+answer 双标签）+ ANLS 内容奖励，按 data_source 路由

最佳实践

1.用强模型生成CoT数据再用弱模型SFT学习模式

2.采样时用原始坐标，转换时再做目标模型坐标系归一化，解耦采样与训练

3.格式奖励+内容奖励双重评分，先检查结构再评估语义

4.多源 benchmark 合并时保留 data_source 元数据，支持差异化奖励路由