核心理解
7 个关键教训
怎么落地
来源
Claude Code Prompt Caching 全拆解
核心不是“省钱小优化”,而是:Prompt caching 直接决定 agent 的成本、速度和产品形态。
一句话结论
- 缓存的是稳定前缀,不是回答结果
- Claude Code 的很多设计都在保护这段前缀
- 改前缀 = 同时伤害成本和延迟
- 所以 prompt caching 不是 infra 细节,而是产品约束
心智模型
缓存的是什么
- system prompt
- tool schema
- 项目级上下文
- 历史消息里的稳定前缀
真正重要的事
不是上下文越长越好,而是越多内容能重复复用越好。
为什么说 is everything
它同时决定:
- 成本
- 延迟
- 交互形态
- 工具设计
- session 状态表达
- 并行 / 串行执行方式
Claude Code 本质上是在做“稳定前缀保护工程”。
Lesson 1-3
1. 用追加消息,不要反复改 prompt
把变化放到尾部。
2. 工具有隐藏 token 税
每个工具都让常驻前缀变胖。
3. cache breakpoint 是控制面
要主动把稳定层和变化层切开。
Lesson 4-5
4. 长上下文编辑会自伤
重写 todo、重写摘要、重排旧消息,都会伤缓存。
5. 图片是缓存杀手
图片重、贵,而且很容易把稳定前缀打碎。
Lesson 6-7
6. 不要中途增删工具
工具菜单变化,等于世界规则变化。
7. 并行更容易保住缓存
共享稳定前缀的分支越多,缓存收益越高。
设计原则
- 稳定内容前置,尽量冻结
- 变化内容后置,允许追加
- 工具数受控
- 会话规则别漂移
- 能延迟展开的内容,不要常驻注入
常见误解
- 不是说 prompt 绝对不能改
- 不是说工具越少越好
- 也不只适用于 Claude Code
真正的重点是:谨慎改前缀,管理常驻上下文税。
你可以立刻用的 6 个动作
- 把缓存命中率当成一级指标
- 冻结 system prompt 与 tool schema
- 用 append-only message 记状态
- 少在会话中途改工具拓扑
- 图片和长文档按高 token 资产管理
- 做并行设计时把缓存收益一起算进去