Prompt 缓存优化
Prompt Caching Optimization
利用 LLM 提供商的 prompt 缓存能力降低重复 token 计费
子问题
1.缓存标记自动注入
2.非支持模型静默降级
3.缓存命中率优化
4.多 Agent 系统中子 Agent 缓存一致性保障
5.缓存中间件与上下文压缩中间件的执行顺序协调
各项目的解法1 solutions
Signals
横向对比
| 维度 | DeepAgents |
|---|---|
| 缓存策略 | langchain-anthropic AnthropicPromptCachingMiddleware 自动注入 cache_control 标记 |
| 多模型兼容 | unsupported_model_behavior='ignore' 静默跳过非 Anthropic 模型 |
| 集成方式 | 中间件管道模式,零配置默认开启,三层 Agent 统一部署 |
| 管道位置 | Summarization 之后、PatchToolCalls 之前,确保对最终消息形态操作 |
| 成本控制 | 系统提示和长对话前缀自动缓存,多轮对话可节省 60-90% 输入 token 费用 |
最佳实践
1.将缓存中间件放在管道末端
2.对非支持模型使用 ignore 策略而非报错
3.为所有层级 Agent(主 Agent + 子 Agent)统一注入缓存中间件
4.缓存中间件应在消息修改类中间件(如 Summarization)之后执行