问题域/PD-538

并发与限流

Concurrency & Rate Limiting

控制AI API调用的并发数量和请求频率,防止触发供应商限流

子问题

1.RPM/RPD限制遵守

2.并发任务数控制

3.批量任务的受控并行

4.动态限流参数调整

5.input token 与 output token 的双重约束分批

6.超长上下文 Hard Cap 防护(TTFT 与 Lost in the middle)

7.场景级并发上限覆盖(如视角分析限制10并发)

各项目的解法1 solutions

Signals

横向对比

维度moyin-creator
并发模型信号量 + 错开启动(stagger)双重保护
分批策略双约束贪心分组(input token + output token)
限流机制三层体系:runStaggered / rateLimitedBatch / processBatched
容错设计单批次指数退避重试 + 部分成功返回 + TOKEN_BUDGET_EXCEEDED 不重试
配置方式用户可配 concurrency,Zustand persist 持久化,场景级上限覆盖

最佳实践

1.按供应商和端点分别配置限流参数

2.批处理应支持失败重试不影响整体进度

3.并发控制应考虑全局和per-key两个维度

4.用信号量+stagger双重保护避免瞬间并发冲击

5.token估算宁可高估多分批也不低估撞限制

6.TOKEN_BUDGET_EXCEEDED等确定性错误不重试避免无效消耗