并行推理与Test-Time Scaling

Parallel Inference & Test-Time Scaling

通过多路径并行推理和不确定性驱动的分支采样提升Agent推理质量

子问题

1.如何识别推理路径中的高不确定性步骤

2.如何高效分配采样预算到不同分支

3.如何聚合多条推理路径的结果

4.如何将完整轨迹压缩为可聚合的结构化 report 而不丢失关键推理链

5.如何在混合采样模式下平衡 think 和 tool_call 两个维度的分支预算

Signals

维度	DeepResearch
推理方式	PPL 驱动部分 rollout：初始完整轨迹 + 高不确定性步骤分支重采样
分支策略	功能特化 PPL（think_ppl/tool_call_ppl/mixed_ppl）top-k 选择
聚合机制	两阶段：轨迹→Report 压缩 + 多 Report 批判性投票聚合
预算控制	公式化预算分配：initial + topk × rounds × times_per_pos
并发模型	asyncio.Semaphore 三级并发控制（LLM/search/visit 独立限流）
成本	比 Best-of-N 更高效：固定预算下将计算集中在高不确定性步骤

1.基于token-level entropy/PPL识别分支点

2.分离 think 区间和 tool_call 区间分别计算 PPL，避免功能混淆

3.两阶段聚合：先压缩为 report 再投票，解决多轨迹拼接超出上下文窗口的问题

4.公式化预算分配并用 assert 校验，防止采样预算溢出或不足