核心理解
7 个关键教训
怎么落地
来源

Claude Code Prompt Caching 全拆解

核心不是“省钱小优化”,而是:Prompt caching 直接决定 agent 的成本、速度和产品形态。

一句话结论

  • 缓存的是稳定前缀,不是回答结果
  • Claude Code 的很多设计都在保护这段前缀
  • 改前缀 = 同时伤害成本和延迟
  • 所以 prompt caching 不是 infra 细节,而是产品约束

心智模型

缓存的是什么

  • system prompt
  • tool schema
  • 项目级上下文
  • 历史消息里的稳定前缀

真正重要的事

不是上下文越长越好,而是越多内容能重复复用越好。

为什么说 is everything

它同时决定:

  1. 成本
  2. 延迟
  3. 交互形态
  4. 工具设计
  5. session 状态表达
  6. 并行 / 串行执行方式

Claude Code 本质上是在做“稳定前缀保护工程”。

Lesson 1-3

1. 用追加消息,不要反复改 prompt

把变化放到尾部。

2. 工具有隐藏 token 税

每个工具都让常驻前缀变胖。

3. cache breakpoint 是控制面

要主动把稳定层和变化层切开。

Lesson 4-5

4. 长上下文编辑会自伤

重写 todo、重写摘要、重排旧消息,都会伤缓存。

5. 图片是缓存杀手

图片重、贵,而且很容易把稳定前缀打碎。

Lesson 6-7

6. 不要中途增删工具

工具菜单变化,等于世界规则变化。

7. 并行更容易保住缓存

共享稳定前缀的分支越多,缓存收益越高。

设计原则

  • 稳定内容前置,尽量冻结
  • 变化内容后置,允许追加
  • 工具数受控
  • 会话规则别漂移
  • 能延迟展开的内容,不要常驻注入

常见误解

  • 不是说 prompt 绝对不能改
  • 不是说工具越少越好
  • 也不只适用于 Claude Code

真正的重点是:谨慎改前缀,管理常驻上下文税。

你可以立刻用的 6 个动作

  1. 把缓存命中率当成一级指标
  2. 冻结 system prompt 与 tool schema
  3. 用 append-only message 记状态
  4. 少在会话中途改工具拓扑
  5. 图片和长文档按高 token 资产管理
  6. 做并行设计时把缓存收益一起算进去