并发与限流
Concurrency & Rate Limiting
控制AI API调用的并发数量和请求频率,防止触发供应商限流
子问题
1.RPM/RPD限制遵守
2.并发任务数控制
3.批量任务的受控并行
4.动态限流参数调整
5.input token 与 output token 的双重约束分批
6.超长上下文 Hard Cap 防护(TTFT 与 Lost in the middle)
7.场景级并发上限覆盖(如视角分析限制10并发)
各项目的解法1 solutions
Signals
横向对比
| 维度 | moyin-creator |
|---|---|
| 并发模型 | 信号量 + 错开启动(stagger)双重保护 |
| 分批策略 | 双约束贪心分组(input token + output token) |
| 限流机制 | 三层体系:runStaggered / rateLimitedBatch / processBatched |
| 容错设计 | 单批次指数退避重试 + 部分成功返回 + TOKEN_BUDGET_EXCEEDED 不重试 |
| 配置方式 | 用户可配 concurrency,Zustand persist 持久化,场景级上限覆盖 |
最佳实践
1.按供应商和端点分别配置限流参数
2.批处理应支持失败重试不影响整体进度
3.并发控制应考虑全局和per-key两个维度
4.用信号量+stagger双重保护避免瞬间并发冲击
5.token估算宁可高估多分批也不低估撞限制
6.TOKEN_BUDGET_EXCEEDED等确定性错误不重试避免无效消耗