并行推理与Test-Time Scaling
Parallel Inference & Test-Time Scaling
通过多路径并行推理和不确定性驱动的分支采样提升Agent推理质量
子问题
1.如何识别推理路径中的高不确定性步骤
2.如何高效分配采样预算到不同分支
3.如何聚合多条推理路径的结果
4.如何将完整轨迹压缩为可聚合的结构化 report 而不丢失关键推理链
5.如何在混合采样模式下平衡 think 和 tool_call 两个维度的分支预算
各项目的解法1 solutions
Signals
横向对比
| 维度 | DeepResearch |
|---|---|
| 推理方式 | PPL 驱动部分 rollout:初始完整轨迹 + 高不确定性步骤分支重采样 |
| 分支策略 | 功能特化 PPL(think_ppl/tool_call_ppl/mixed_ppl)top-k 选择 |
| 聚合机制 | 两阶段:轨迹→Report 压缩 + 多 Report 批判性投票聚合 |
| 预算控制 | 公式化预算分配:initial + topk × rounds × times_per_pos |
| 并发模型 | asyncio.Semaphore 三级并发控制(LLM/search/visit 独立限流) |
| 成本 | 比 Best-of-N 更高效:固定预算下将计算集中在高不确定性步骤 |
最佳实践
1.基于token-level entropy/PPL识别分支点
2.分离 think 区间和 tool_call 区间分别计算 PPL,避免功能混淆
3.两阶段聚合:先压缩为 report 再投票,解决多轨迹拼接超出上下文窗口的问题
4.公式化预算分配并用 assert 校验,防止采样预算溢出或不足