问题域/PD-338

并行推理与Test-Time Scaling

Parallel Inference & Test-Time Scaling

通过多路径并行推理和不确定性驱动的分支采样提升Agent推理质量

子问题

1.如何识别推理路径中的高不确定性步骤

2.如何高效分配采样预算到不同分支

3.如何聚合多条推理路径的结果

4.如何将完整轨迹压缩为可聚合的结构化 report 而不丢失关键推理链

5.如何在混合采样模式下平衡 think 和 tool_call 两个维度的分支预算

各项目的解法1 solutions

Signals

横向对比

维度DeepResearch
推理方式PPL 驱动部分 rollout:初始完整轨迹 + 高不确定性步骤分支重采样
分支策略功能特化 PPL(think_ppl/tool_call_ppl/mixed_ppl)top-k 选择
聚合机制两阶段:轨迹→Report 压缩 + 多 Report 批判性投票聚合
预算控制公式化预算分配:initial + topk × rounds × times_per_pos
并发模型asyncio.Semaphore 三级并发控制(LLM/search/visit 独立限流)
成本比 Best-of-N 更高效:固定预算下将计算集中在高不确定性步骤

最佳实践

1.基于token-level entropy/PPL识别分支点

2.分离 think 区间和 tool_call 区间分别计算 PPL,避免功能混淆

3.两阶段聚合:先压缩为 report 再投票,解决多轨迹拼接超出上下文窗口的问题

4.公式化预算分配并用 assert 校验,防止采样预算溢出或不足