Prompt 缓存优化

Prompt Caching Optimization

利用 LLM 提供商的 prompt 缓存能力降低重复 token 计费

子问题

1.缓存标记自动注入

2.非支持模型静默降级

3.缓存命中率优化

4.多 Agent 系统中子 Agent 缓存一致性保障

5.缓存中间件与上下文压缩中间件的执行顺序协调

Signals

维度	DeepAgents
缓存策略	langchain-anthropic AnthropicPromptCachingMiddleware 自动注入 cache_control 标记
多模型兼容	unsupported_model_behavior='ignore' 静默跳过非 Anthropic 模型
集成方式	中间件管道模式，零配置默认开启，三层 Agent 统一部署
管道位置	Summarization 之后、PatchToolCalls 之前，确保对最终消息形态操作
成本控制	系统提示和长对话前缀自动缓存，多轮对话可节省 60-90% 输入 token 费用

1.将缓存中间件放在管道末端

2.对非支持模型使用 ignore 策略而非报错

3.为所有层级 Agent（主 Agent + 子 Agent）统一注入缓存中间件

4.缓存中间件应在消息修改类中间件（如 Summarization）之后执行