原文入口
第一层:系统物理与约束
第二层:能力组织与上下文路由
第三层:交付流程与组织重心迁移
对这个库的直接启发

Thariq 的 Claude Code 四篇长文总览

这 4 篇不是 4 个孤立话题,而是一条连续金线:先解决 agent 怎么跑得起,再解决能力怎么组织,最后讨论组织如何被这种新交付方式改写。

怎么读这张图

  • 左到右:从系统约束到能力组织
  • 上到下:从 Claude Code 产品机制到人类团队分工
  • 中央金线:实现越来越便宜,判断、评审与上下文治理越来越贵

四篇合起来真正讲的是一件事

  1. prompt caching 让长会话 agent 在成本和延迟上可持续
  2. action spaceskills 决定能力如何扩展而不把上下文搞崩
  3. 当 prototype 变得极便宜,组织瓶颈自然从 implementation 迁移到 review、intent 与 system thinking

先别谈能力,先谈物理

Claude Code 先要解决两个硬约束:

  • 长会话太贵:必须保护稳定前缀
  • 工具菜单太重:每加一个常驻能力,都在增加 token 税与选择负担

所以它不是先问“还能不能再加功能”,而是先问“这个功能会不会破坏 cache-friendly 的前缀结构”。

Prompt Caching 给出的 5 条硬规则

  • static first, dynamic last
  • 用 message 追加,不重写前缀
  • 不在 session 中途切模型 / 换工具
  • plan mode 要做成状态转换,而不是换工具集
  • fork / compaction 必须复用父会话前缀

这篇文章真正的判断是:缓存不是 infra 小优化,而是 agent 产品的底层宪法。

两对核心张力

  • 更多工具 vs 更高缓存命中
  • 更多结构化能力 vs 更重的选择负担

Claude Code 的解法不是二选一,而是:保持少量稳定底座,把复杂能力延迟到真正需要时再展开。

Action Space 的设计法

Seeing like an Agent 给出的关键方法:

  • 工具形状要匹配模型能力,不匹配工程师想象
  • plain text 不稳时,才把能力工具化
  • 模型变强后,旧脚手架要及时拆掉
  • 能让模型自己建上下文,就别替它塞满上下文

所以 AskUserQuestionTask ToolGrep 都不是“功能更多”,而是更贴合模型能力曲线

Skills 真正是什么

Skills 不是 markdown,而是一个可探索的目录:

  • gotchas
  • references
  • examples
  • scripts
  • hooks
  • memory

它的价值不是“又多了一个说明书”,而是把知识 + 工作流 + 脚本打包成 progressive disclosure。Claude 不必一开始全读,只要在需要时递归发现。

不必什么都做成新 tool

Claude Code Guide subagent 是关键例子:

  • 不把全部 docs 塞进 system prompt
  • 不再给主 agent 增加一个常驻工具
  • 而是让主 agent 在特定问题上调用一个专职检索 / 压缩 docs 的 subagent

这说明:扩 action space,不等于膨胀主菜单。

第二层的总原则

稳定前缀保护的是成本与速度; 渐进披露保护的是上下文质量; 结构化工具与 subagent 保护的是交互稳定性; skills / scripts / hooks 保护的是可复用工作流。

四者叠加,Claude Code 才从“会写代码的模型”变成“可持续交付的工作系统”。

Skills 文章里最值得重投的,不是知识型,而是验证型

Anthropic 明示高价值 skill 类型集中在:

  • product verification
  • code quality / review
  • runbooks
  • deployment / operations

原因很简单:agent 时代真正稀缺的不是第一版代码,而是“它真的靠谱吗、能不能进入生产”。

组织瓶颈开始迁移

第四篇把后果说透了:

  • 老的 PRD -> mock -> code 瀑布死了
  • prototype abundance 成了新常态
  • 瓶颈从 implementation 迁到 review

现在最稀缺的不是“把东西做出来”,而是判断:

  • 值不值得做
  • 做得对不对
  • 能不能进生产

新分工:Builder vs Reviewer

  • Builder:能用 coding agents 把想法快速变成可运行原型
  • Reviewer:能从 engineering / product / design 三个维度审查“它是否足够好”

这和 Claude Code 自己的演化完全同构: 先让模型能做,再想办法让系统能评、能纠、能收敛。

Generalist 更值钱,Specialist 门槛更高

沟通成本没消失,只是从“跨职能协作写代码”变成“跨职能协作判断代码”。

所以:

  • 会一点 design + product + engineering 的 builder 杠杆更大
  • 只做单一专长的人仍然有价值,但必须在 review / judgment 上非常强

PRD 没死,老 PRD 流水线死了

“先写规格再交付”的老流程死了; “为 prototype 提供 intent 和 review 依据”的 companion document 反而更重要。

未来更像: idea -> prototype -> review packet

而不是: idea -> 长文档 -> 设计图 -> 开发排期

四篇合起来,真正改写的是同一件事

  1. prompt caching 让 agent 产品在成本和延迟上可持续
  2. action space / skills 决定 agent 如何在不爆 context 的前提下扩能力
  3. verification / review 技术栈决定这些原型能否进入生产
  4. 于是组织价值从“谁会写更多代码”转向“谁能更快做对判断、组织上下文、完成评审闭环”

对这个 Obsidian 库最直接的 5 个启发

  • AGENTS.md / SOUL / USER / TOOLS / memory 看成稳定前缀,而不是随手可改的提示词堆
  • 高频工作流优先沉淀成 skills + scripts + gotchas,而不是长篇说明文
  • 新增 skill / 工具前先问:plain text、搜索、现有 skill、subagent 能不能解决
  • 把“验证”当成一级能力建设对象:不仅要能生成,还要能自查、留痕、复盘
  • 以后写产品或工作流笔记时,更适合写 review companion / intent companion,而不是老式 PRD

本库已有的二次沉淀入口

如果想继续下钻,可以从这里往下:

  • prompt caching 的中文重写
  • action space 的中文拆解
  • skills 的单篇 canvas

也就是说,这张总图负责“总结构”,现有笔记负责“细展开”。

2. 9 类 Skills 地图
3. 怎么写出高质量 Skill
5. 落地到你自己的 Skill 体系
4. 分发、市场、组合、度量
1. 本质与主结论

Lessons from Building Claude Code: How We Use Skills

这篇文章的核心价值:把“Skill 只是 markdown”这个误解打掉,重新把 Skill 看成一种可组合的 agent extension point:它可以带脚本、数据、模板、hooks、记忆与分发机制。

文章在回答什么

  • 什么样的 skill 值得做
  • 好 skill 的秘密是什么
  • 什么时候该共享给别人
  • 怎么避免做出坏 skill

一个关键纠偏

Skill 不只是 markdown 文件

更准确地说,它是一个文件夹:

  • 可以带脚本
  • 可以带 assets
  • 可以带数据
  • 可以带 hooks
  • 可以让 agent 逐步探索和组合

作者的总判断

最好的 skills 通常:

  • 类型清晰
  • 目标明确
  • 能补 Claude 的短板
  • 能复用
  • 能随着失败案例持续迭代

这篇文章的底层视角

Skill 本质上是一个 context + tooling + workflow 的封装单元。

它不是把知识堆给模型,而是把:

  • 正确的上下文入口
  • 正确的脚本 / 模板 / hooks
  • 正确的触发时机 一起交给模型。

1. Library & API Reference

教 Claude 正确使用某个库、CLI、SDK。

典型内容:

  • 示例代码
  • 函数签名
  • footguns / edge cases
  • 组织内部约定

2. Product Verification

告诉 Claude 怎么验证产出真的能工作。

常与 Playwright、tmux 搭配,重点是:

  • 可执行验证脚本
  • 程序化断言
  • 录屏 / 留证据

作者明确说:这是非常值得重投入的一类。

3. Data Fetching & Analysis

连接数据仓、监控栈、仪表盘。

本质是把:

  • 凭据
  • 数据源标识
  • 常用查询模式
  • 指标解释 封装成可复用工作流

4. Business Process & Team Automation

把重复团队流程压成一个命令。

例如:

  • standup
  • 建 ticket
  • weekly recap

这类 skill 通常不复杂,但非常省时间。

5. Code Scaffolding & Templates

生成你组织里的标准脚手架。

适合处理:

  • 模板化代码
  • 自然语言需求
  • 单纯脚本难覆盖的规范

6. Code Quality & Review

把代码质量和审查策略写进 skill。

例如:

  • code style
  • testing practices
  • adversarial review

可和 hooks / GitHub Action 联动。

7. CI/CD & Deployment

帮助拉代码、发代码、部署代码。

典型是多步流程: build -> test -> smoke -> rollout -> compare -> rollback

8. Runbooks

给一个症状,按固定调查路径跑多工具诊断,再产出结构化报告。

适合:

  • oncall
  • alert triage
  • request id 追踪
  • 常见故障排查

9. Infrastructure Operations

把高风险运维流程加上 guardrails。

适合:

  • 清理孤儿资源
  • 依赖治理
  • 成本调查
  • 带确认与 soak period 的清理

9 类 Skill 的共同点

它们本质上都不是“写给人看的说明书”,而是“写给模型执行的工作单元”。

区别只在于:

  • 补知识
  • 补验证
  • 补数据入口
  • 补流程编排
  • 补安全边界

作者的隐含建议

好的 skill 最好清晰落在某一类里。

一旦一个 skill 横跨太多类型,往往会:

  • 触发条件模糊
  • 内容臃肿
  • 维护困难
  • 复用性下降

1. 不要陈述显而易见的事

Claude 本来就懂很多编码常识。

Skill 应该优先写那些会把模型拉出默认思路的信息,而不是重复基础知识。

2. Build a Gotchas Section

最高信号密度的内容往往是 gotchas。

也就是:

  • Claude 常犯什么错
  • 这类工作里最容易踩什么坑
  • 哪些边界条件必须提前说

3. 把文件系统当作 context engineering

Skill 是文件夹,不是单文件。

可以用:

  • references/
  • examples/
  • assets/
  • scripts/ 做 progressive disclosure

4. Avoid Railroading Claude

别把 skill 写成死流程。

原则是:

  • 给足信息
  • 不要过度规定每一步
  • 保留模型根据上下文自适应的空间

5. 认真设计 Setup

有些 skill 需要用户上下文,例如频道、环境、目标系统。

推荐把 setup 信息放在 skill 目录的 config.json,未配置时再问用户。

6. Description 字段是写给模型的

它不是“摘要”,而是触发描述。

Claude 会扫全部 skill 的 description 来判断: “这个请求有没有对应的 skill?”

7. Skill 也可以有记忆

可以存:

  • append-only log
  • JSON
  • SQLite

但升级 skill 时目录内数据可能被删,所以稳定数据建议放 ${CLAUDE_PLUGIN_DATA}

8. 把脚本和代码交给 Claude

给 helper functions、脚本库、模板后,Claude 的 token 就能花在“组合与决策”上,而不是重复造 boilerplate。

1. 两种分发方式

  • 跟 repo 一起放进 ./.claude/skills
  • 做成 plugin,进入 marketplace

前者简单,后者更适合规模化分发

2. Repo 分发的代价

每多一个 checked-in skill,都会给模型多一点上下文负担。

小团队问题不大,规模大了就需要更精细的安装与裁剪。

3. Marketplace 的价值

让技能变成按需安装,而不是全量塞给每个仓库。

这样团队可以:

  • 更好分发
  • 更好治理
  • 更少上下文污染

4. 不要搞中心化审批

Anthropic 的做法是先有机扩散,再在 skill 有 traction 后进入 marketplace。

5. 需要策展

坏 skill 和重复 skill 很容易出现。

所以在正式发布前,必须有某种 curation 机制。

6. Skills 可以互相组合

虽然市场和依赖管理还不完善,但可以直接在 skill 里引用其他 skill 名称,让模型在安装后自行调用。

7. 要测量 skill

Anthropic 用 PreToolUse hook 记录使用情况,以识别:

  • 哪些 skill 热门
  • 哪些 undertrigger
  • 哪些值得继续投资

A. 先别从“我想写个 skill”开始

更好的起点是:

  • Claude 在什么地方反复犯错
  • 哪个流程反复重复
  • 哪个验证步骤总被忽略
  • 哪种查询总靠老人记忆

B. 每个 Skill 的最小骨架

  1. 清晰类型
  2. 真正有用的 description
  3. gotchas
  4. references / examples / scripts
  5. 必要的 setup config
  6. 可选的记忆与 hooks

C. 优先级建议

如果资源有限,最值得先做的通常是:

  1. Product Verification
  2. Code Quality & Review
  3. Runbooks
  4. Data Fetching & Analysis

因为这些直接影响结果正确性与排障效率。

D. 团队 rollout 路线

  • 先在 repo 内试验
  • 用 usage / trigger 数据看 traction
  • 逐步清理重复 skill
  • 成熟后再进 marketplace

这是比一开始“大一统平台化”更稳的路径。

E. 这篇文章真正想让你记住的 3 件事

  1. Skill 是文件夹,不是 markdown。
  2. Gotchas、scripts、progressive disclosure 往往比长篇说明更有用。
  3. Skill 体系也需要分发、策展和度量。

9. On Demand Hooks

Skill 可以带只在调用时激活、并持续到会话结束的 hooks。

适合高 opinionated、但不该常开的约束:

  • 阻止危险命令
  • 限定编辑目录
  • 进入 prod / debug 模式时增加额外护栏
分类视角写法视角分发视角先测再推广把 gotchas 纳入骨架trigger 设计相关主题
前缀稳定性约束传导少加 tool,优先延迟展开工具之外的扩能力progressive disclosurestable prefix sets ceiling高价值类型生成之后还要能验证prototype abundanceimplementation -> reviewgeneralist leverageintent companion