问题域/PD-435

Prompt 缓存优化

Prompt Caching Optimization

利用 LLM 提供商的 prompt 缓存能力降低重复 token 计费

子问题

1.缓存标记自动注入

2.非支持模型静默降级

3.缓存命中率优化

4.多 Agent 系统中子 Agent 缓存一致性保障

5.缓存中间件与上下文压缩中间件的执行顺序协调

各项目的解法1 solutions

Signals

横向对比

维度DeepAgents
缓存策略langchain-anthropic AnthropicPromptCachingMiddleware 自动注入 cache_control 标记
多模型兼容unsupported_model_behavior='ignore' 静默跳过非 Anthropic 模型
集成方式中间件管道模式,零配置默认开启,三层 Agent 统一部署
管道位置Summarization 之后、PatchToolCalls 之前,确保对最终消息形态操作
成本控制系统提示和长对话前缀自动缓存,多轮对话可节省 60-90% 输入 token 费用

最佳实践

1.将缓存中间件放在管道末端

2.对非支持模型使用 ignore 策略而非报错

3.为所有层级 Agent(主 Agent + 子 Agent)统一注入缓存中间件

4.缓存中间件应在消息修改类中间件(如 Summarization)之后执行