👆 上下滑动阅读 · 左右滑动翻页 · 键盘方向键同理
🌐
Agentic Engineering
模式集Simon Willison 注释版
写代码的成本已经趋近于零 · TDD 成为人机协作的精确协议 · 45 分钟从零构建一个 macOS 应用
—— Django 联合创始人 Simon Willison 的 AI 工程实践全集
simonw.substack.com · 2026年2月27日
含 55 个术语注释 + 8 个原理过程解析
蓝色虚线 = 技术工具(点击查看解释)
绿色虚线 = 产品/平台/人物
橙色虚线 = 概念/方法论
紫色虚线 = AI模型
点击带虚线下划线的术语查看注释
Willison 其人与核心区分
ABOUT THE AUTHOR & KEY DISTINCTION
本页要点
Simon Willison 是 Django 框架联合创始人、datasette 作者,也是当下最活跃的独立 AI 工具实践者之一。他在 Substack 上发布了这篇系统性的 Agentic Engineering 模式合集,2026 年 2 月上线。
Willison
我一直在记录自己与 AI 协作编程时反复出现的有效做法。这些不是学术理论,是我每天真正在用的工程实践。每一个模式都在大量项目中得到了反复验证。
- Django 联合创始人,奠定了 Python Web 开发的基础
- datasette 作者,开源数据探索与发布工具
- 独立开发者中最早系统性采用 AI 编程的实践者之一
编辑注
Willison 在文中严格区分了两个概念。Agentic Engineering 是专业工程师借助编码代理来放大自身已有的专业能力——他们仍然要审查、测试、理解每一行代码。而 Vibe Coding 则是非程序员借助大模型来生成代码,往往不深究内部实现。两者面向完全不同的人群,工作流和质量标准也截然不同。
亲笔写作 & Guides 体裁
WRITTEN BY WILLISON, NOT AI · CHAPTERS & GUIDES FORMAT
本页要点
Willison 有一条铁律:绝不以自己的名义发布 AI 生成的文字。这份 Agentic Engineering 模式合集是他的个人写作,不是 AI 产物。同时,他发明了一种介于博客与书籍之间的内容形式——「Guides」。
Willison
我有一条严格的个人准则:不发布任何以我名义署名的 AI 生成文字。LLM 可以帮我校对语法、生成示例代码,但文章的正文——观点、论述、叙事——全部是我本人写的。如果读者在读我的文章,我需要确保那就是我的声音。
Willison
这份合集不是一本「书」,但它是 book-shaped 的。我发明了一种新体裁叫做「Guides」——每篇 Guide 本质上是一篇博客文章,但淡化了发布日期、强调持续更新。传统博客有时效性,Guide 没有。它会随着实践的深入不断迭代修订。
- 铁律:绝不以 Willison 署名发布 AI 生成的散文文字
- LLM 的角色:仅限校对、语法检查和生成示例代码
- Guides 体裁:介于博客和书籍之间,淡化日期、设计为持续更新
- 章节即博文:每个模式独立成篇,随时可以单独阅读或引用
编辑注
这一点值得强调:在一个所有人都在用 AI 写作的时代,Willison 对亲笔写作的坚持让他的输出具备了稀缺的可信度。他是少数既深度使用 AI 编程、又坚决拒绝 AI 代笔的技术写作者。「Guides」这种体裁也很有意思——它承认了 AI 领域知识的高速变化,通过持续修订来对抗过时。
模式全览
AGENTIC ENGINEERING PATTERNS OVERVIEW
本页要点
Willison 从日常实践中萃取出多个相互配合的工程模式。这些模式涵盖了从心态调整到具体工作流的完整链条,核心思想是:AI 时代不是让人停止编程,而是让人把精力集中在最有价值的决策上。
- Writing Code is Cheap Now —— 代码生产成本趋近于零
- Red/Green TDD —— 人写测试定义期望,agent 负责实现
- First Run the Tests —— AI 写的代码从未被执行过
- Linear Walkthroughs —— 让 agent 按执行流讲解代码结构
- Hoard Things You Know How to Do —— 系统性囤积技术知识
- Plan-then-Execute —— 先写计划后写代码
- Over-confident Junior —— 信任 AI 的速度,验证它的判断
- 案例:Present.app —— 45 分钟构建 macOS 应用
- 案例:Ladybird Browser —— 25,000 行 C++ 到 Rust 的移植
写代码已经不值钱了
WRITING CODE IS CHEAP NOW
本页要点
代码在历史上一直是昂贵的——它需要有经验的工程师花费大量时间来编写和调试。而现在 AI 编码代理能在几分钟内生成数百行功能代码,初始代码生产的成本骤降到接近零。这迫使我们重新审视项目规划和功能评估的方式。
Willison
当写代码的成本趋近于零时,你需要重新评估每一个功能。以前的问题是「这个功能开发成本值不值」,现在的问题变成了「这个功能的存在价值是什么」。你可以让 Claude Code 平行尝试三种完全不同的实现思路,然后挑出最合适的那个。写代码变便宜了,但判断写什么反而更重要了。
Paul Ford 在《纽约时报》描述了这种转变的规模——
Claude Code 从 2025 年 11 月开始变得「好得多了」,他用它完成了搁置十年以上的个人项目。他估计自己个人网站上就完成了价值约 $25,000 的工作,而过去完成同等工作可能需要 $25,000 到 $350,000——如今只需每月 $200 的 Claude 订阅。
—— Paul Ford,《纽约时报》,2025 年 11 月
编辑注
这是一种根本性的经济学转变。以前工程师的时间是瓶颈,现在 品味和判断力 成了稀缺资源。功能评估的标准从「开发成本」转向了「交付价值」。宏观上,以前因为太贵而放弃的功能现在可以重新考虑;微观上,你可以快速迭代多个原型并从中挑选。
Red/Green TDD
TEST-DRIVEN DEVELOPMENT FOR AGENTS
本页要点
Red/Green TDD 的经典循环是:先写一个注定失败的测试(红灯),然后编写代码直到测试通过(绿灯)。在 agent 时代,这个流程的分工变了——人写红灯测试定义期望,agent 写绿灯代码完成实现。TDD 过去常被跳过,因为「写测试太花时间」;现在这个借口不成立了,测试成了与 AI 沟通的最精确语言。
Willison
测试优先、实现交给 agent——这是我目前找到的最高效工作流。你写清楚期望的输入和输出,然后让 Claude Opus 4.6 或 Gemini 3.1 Pro 去填补实现代码。pytest 断言就是你的规格说明书。agent 有了明确的目标,产出代码的可靠性会显著提升。
编辑注
传统 TDD 的阻力是时间成本。但当你把测试看作「与 agent 的需求合同」时,一切都说得通了——自然语言描述需求是模糊的,一段 pytest 断言却是精确的。这让 TDD 从可选的最佳实践变成了人机协作的核心协议。Willison 说得很直白:有测试的 agent 比没测试的 agent 好用十倍。
先跑一遍测试
FIRST RUN THE TESTS
本页要点
AI 生成的代码有一个人们常常忽略的致命特征:它从来没有被实际执行过。人类程序员会边写边跑、边调边改,但 前沿模型 输出的代码只是统计学意义上「最可能正确」的文本序列。运行测试是唯一可靠的验证方式。
Willison
AI 生成的代码看起来正确、读起来合理,但它确实从未被执行过——这一点最容易被忽视。所以第一步永远是跑测试。不是「有空跑一下」,而是「拿到代码后立刻跑」。这是铁律,没有例外。
编辑注
这个模式与上一个 TDD 模式天然配套:TDD 提供了可执行的测试用例,这个模式确保它们被真正运行。测试在传统开发中常被视为成本,但在 agent 时代它已经变成了不可妥协的必需品。CI/CD 流水线的重要性前所未有——没有自动化测试管线的 agentic 工作流就像没有刹车的赛车。
线性代码走读
LINEAR WALKTHROUGHS
本页要点
Linear Walkthroughs:让 agent 按照代码的实际执行流程来讲解项目,而不是按文件目录。从入口点出发,沿着调用链逐步深入每个模块。这对理解 Vibe Coding 产出的项目尤其有用——因为你可能并不清楚 agent 究竟写了什么。
Willison
当你让 agent 生成了整个项目后,你得理解它到底写了什么。我发现最高效的办法是让 agent 按执行流走一遍——从应用的入口点开始,逐步深入每个组件。比如我对 Present.app 做走读时,发现 agent 选择了直接用原始 Socket 编程 实现 HTTP 请求解析,而不是用现成的框架——这是我通过走读才知道的。
编辑注
这个方法有三个典型应用场景:一是审查 agent 刚生成的新项目;二是入职新团队时快速理解不熟悉的代码库;三是过了很久回头看自己的老项目时刷新记忆。它本质上是把 agent 变成了一个无限耐心的同事,随时可以给你做一次完整的 code review。
囤积你的技术知识
HOARD THINGS YOU KNOW HOW TO DO
本页要点
Hoard Knowledge:系统性地积累技术知识来放大 agent 的有效产出。你不需要记住每个 API 的细节,但你需要知道:JavaScript 里有没有好用的 OCR 库?蓝牙配对有什么已知限制?怎么处理 100GB 的 JSON 文件?你对「什么可能、什么不可能」的判断,比代码编写能力更有价值。
Willison
知识分三个层次。第一层是「什么可行、什么不可行」——知道某个平台能做什么不能做什么。第二层是「大致的实现路径」——不需要记住每行代码,但知道方向。第三层是「领域特定的细节和坑」。有这些知识储备的人给 agent 指方向时,agent 能高效执行;没有这些知识的人,agent 只会在错误的方向上原地打转。
编辑注
这就是为什么 Willison 认为高级工程师在 AI 时代不会被淘汰。他们几十年积累的知识是 agent 能力的 力量乘数——不是线性叠加,而是指数放大。一个知道「Tailscale 可以做安全的设备间通信」的人,能让 agent 在 45 分钟内交付远程控制功能;不知道的人可能花几个小时让 agent 在完全错误的技术方向上浪费时间。
Present.app 案例详解
VIBE CODING A MACOS APP IN 45 MINUTES
本页要点
Present.app 是 Willison 用 Swift / SwiftUI 在大约 45 分钟内构建完成的 macOS 应用,最终体积仅 355KB(压缩后 76KB)。它是一个 URL 演示文稿管理器,支持全屏模式,并通过 Tailscale 实现手机远程遥控。
Willison
这个应用的核心功能是管理一组 URL 做演示——排列顺序、全屏展示、在不同网页间切换。关键特性是远程控制:我的手机通过 Tailscale 连接到电脑(地址类似 100.122.231.116:9123),直接控制翻页。我不精通 Swift,但我知道这些组件能做什么——这就是知识囤积的力量。
- 技术栈:Swift + SwiftUI,原生 macOS 应用
- 体积:355KB(压缩后 76KB)——得益于 SwiftUI 的轻量高效
- 核心交互:每张「幻灯片」就是一个 URL,侧边栏支持添加、删除、拖拽排序
- 演示模式:菜单 → Play 进入全屏,方向键翻页,Escape 退出
- 状态持久化:URL 列表自动保存,崩溃后可完整恢复
- HTTP 解析:agent 选择了用原始 Socket 编程 实现最小化 HTTP 解析器(无外部库依赖)
- 远程控制:端口 9123 上运行 Web 服务器,手机端显示大号左右按钮,通过 Tailscale 安全连接
- 从未打开 Xcode——全程通过 Claude Code 在终端完成
- 开源发布在 GitHub 的 simonw/present 仓库
编辑注
Present.app 是 Willison 多个模式的综合演示:知识囤积让他选对了技术方向,Vibe Coding 让他快速实现,Linear Walkthroughs 让他事后理解了 agent 的实现细节。Willison 强调这个案例的意义在于四点:一、Swift 是正确的技术选择,而他本人并不精通 Swift;二、最终代码简洁直白,没有过度工程;三、它解决了一个真实问题;四、全程无需打开 Xcode。这证明了有经验的工程师加上 agent,可以跨越语言边界快速交付可用产品。
先规划再执行
PLAN-THEN-EXECUTE & META PROGRAMS
本页要点
Plan-then-Execute:面对大型变更和复杂重构时,先让大模型生成一份详细的执行计划,人类反复审查和迭代这份计划直到它合理,然后把它保存为「元程序」,再让 agent 按计划逐步实现。
Willison
当变更涉及多个文件和复杂的依赖关系时,千万不要直接让 agent 动手。先让它写计划:要改哪些文件、改动的先后顺序、每一步的预期结果是什么。你审查这份计划,把不对的地方改掉,然后把它当作 元程序 来逐步执行。这是我处理大规模重构的标准流程。
计划本身就是一种元程序——它不是可执行的代码,但它决定了代码的产出方式。审查一份 20 行的计划比审查 2000 行代码高效得多,而且对最终质量的影响可能更大。
—— Simon Willison
编辑注
这个模式的核心洞察是:让 AI 先在「规划空间」犯错,而不是在「代码空间」犯错。修正一个计划的成本远低于修正一堆实现代码。同时每一步实现后都应该通过 Git 提交一次,确保随时可以回退到上一个正确状态。
自信但易错的初级开发者
OVER-CONFIDENT JUNIOR MODEL + LADYBIRD CASE
本页要点
Over-confident Junior 模型:最好把 AI 想象成一个自信但容易犯错的初级开发者。它写得飞快、输出看起来很专业,但在边界条件、安全处理和性能优化上会出错。正确的做法是审查每段代码、跑每个测试、质疑每个假设。
Willison
最好的心理模型是把 AI 当作一个非常自信的初级工程师——写得快、看起来专业,但犯错的时候毫不犹豫。所以你必须审查每一段输出,对每个看起来「应该没问题」的地方多打个问号。
Willison
Ladybird Browser 的移植是这个模式的极端案例。团队用 Claude Code 和 Codex 把 LibJS 从 C++ 移植到 Rust——大约 25,000 行代码,两周左右完成。但这绝不是 agent 独立完成的:它是人类持续引导、数百个小提示词、逐步验证的结果。最终通过 test262 测试套件验证了零回归,输出做到了逐字节一致。
编辑注
Ladybird 案例证明了 agent 的能力上限取决于人类审查的质量和频率,而不是模型本身的智能程度。这正是「Over-confident Junior」心态最有价值的地方——它让你既能享受 AI 的速度,又不会被它的盲点拖垮。
博客内容整合:五条 Beats
BLOG INTEGRATION — BEATS
本页要点
Willison 用 Claude Code 在一个上午内把五种不同类型的内容源整合到了他的个人博客中。他把这些内容流称为「Beats」——每条 beat 对应一个独立的内容管道,自动从不同来源拉取并格式化展示。
Willison
我用 Claude Code 在一个上午把五种内容类型接入了博客。这些是我日常创作的不同维度:代码发布、学习笔记、有趣场所、实用工具和研究项目。每一条 beat 的整合代码都是 agent 写的,我只需要告诉它数据源在哪、展示格式是什么。
- Releases:从 GitHub 自动拉取开源项目的版本发布信息
- TILs:来自 datasette 驱动的 Today I Learned 笔记库
- Museums:niche-museums.com——他记录的小众博物馆数据
- Tools:tools.simonwillison.net——他收集的实用在线工具
- Research:simonw/research 仓库中的研究笔记
Willison
有意思的是,beats 的初始概念并不是在 Claude Code 里做的。我先在普通的 Claude Artifacts 里快速原型化了整个设计——它能直接克隆公开的 GitHub 仓库来理解项目结构。等概念验证通过了,我再切到 Claude Code 做正式的集成代码。这是一种分层的工具选择策略:轻量原型用 Artifacts,正式实现用 Claude Code。
编辑注
五条 beats 在一个上午全部完成——这恰好呼应了「写代码已经不值钱了」的核心论点。以前这种多源数据整合的工作可能需要几天的后端开发,现在变成了与 agent 的几轮对话。值得注意的是 Willison 在不同阶段使用不同的 AI 工具:概念原型用 Claude Artifacts,正式编码用 Claude Code。此外他提到可以在 agent 工作的同时并行做其他事情——这意味着实际的人力投入远低于「一个上午」。技术栈包括 SQL、GitHub Actions 和 datasette 的 API——都是 Willison 已有知识储备中的工具。
2025 年 11 月:分水岭
THE NOVEMBER 2025 INFLECTION POINT
本页要点
2025 年 11 月被 Willison 和 Paul Ford 视为 AI 编程的关键转折点。编码代理的能力从「有趣但断断续续」跃升到了「可以连续工作一小时不中断」的水平。这个时间节点标志着 AI 辅助编程从实验阶段进入了生产阶段。
Paul Ford 在《纽约时报》写道:Claude Code 从「有帮助但时常卡住」变成了能进行长达一小时的连续编程会话。他重新激活了搁置十年的老项目,而过去完成这些工作可能要花费 $25,000 到 $350,000。
—— Paul Ford,《纽约时报》,2025 年 11 月
2023 年初
代码补全时代。GitHub Copilot 流行,开发者接受 AI 辅助,但主要模式仍是「人写代码、AI 补全」。
2024 年中
Vibe Coding 概念兴起。Willison 开始系统化记录 AI 编程模式。TDD + Agent 的组合初步得到验证。
2025 年 11 月
分水岭——Claude Code 等工具的能力从「玩具」级别跃升到「生产力工具」级别。Paul Ford 的体验报告引起广泛讨论。
2026 年 2 月
Willison 在 Substack 发布完整的 Agentic Engineering 模式合集。Ladybird 25,000 行移植成为标志性案例。
2026 年模型格局
MODEL LANDSCAPE & ECONOMICS 2026
本页要点
2026 年初的大模型市场正在经历价格与性能的双重剧变。Gemini 3.1 Pro 仅 $2/百万输入 token,性能接近 Claude Opus 4.6。推理速度的飞跃和开源模型的崛起使得大规模 agent 编排在经济上变得可行。
Willison
模型格局变化很快。Gemini 3.1 Pro 的定价是 $2/百万输入 token,这个价格在一年前是不可想象的,而它的代码能力已经接近 Claude Opus 4.6。GPT-5.3-Codex-Spark 的推理速度超过 1200 tokens/秒。最夸张的是 Llama 3.1 8B 在 Taalas 的定制硬件上跑出了 17,000 tokens/秒——这是本地推理的速度。
- Gemini 3.1 Pro:$2/百万输入 token,编程性能接近 Opus 级别
- GPT-5.3-Codex-Spark:1200+ tokens/秒推理速度
- Llama 3.1 8B:在定制硬件上达到 17,000 tokens/秒
- ggml.ai 加入 Hugging Face,ggml 量化成为开源推理的标准方案
编辑注
成本骤降 + 速度飞升 = 大规模 agent 编排变得经济可行。这意味着像 Willison 描述的 Plan-then-Execute 模式不再是奢侈品——你可以让多个 agent 平行工作、相互验证,而成本仍然可控。Prompt Caching 技术的成熟进一步降低了重复上下文的成本。
安全隐患:不可忽视
SECURITY CONCERNS — GOOGLE API KEY CASE
本页要点
Willison 重点讨论了 agent 系统带来的安全风险。一个典型案例是 Google API Key 的 权限提升 漏洞:Google Maps 的公开 API 密钥与 Gemini 的私密密钥可能共享同一个项目,导致本该公开的密钥被用来访问敏感服务。研究者在 Common Crawl 中发现了 2,863 个受影响的密钥。
Willison
安全问题不能事后再想。Google Maps API 密钥设计上是可以公开的——它嵌入在前端代码里。但如果这个密钥所在的 Google Cloud 项目同时启用了 Gemini API,那么拿到公开的 Maps 密钥就等于拿到了私密的 Gemini 访问权限。有人在 Common Crawl 中找到了 2,863 个这样的密钥。
编辑注
这个案例不仅仅是 Google 的问题——它揭示了 agent 系统面临的普遍安全挑战。当 agent 拥有执行权限时,权限边界的管理变得至关重要。一个 agent 可能同时访问多个服务和 API,任何一个环节的权限配置失误都可能导致连锁安全事故。CSRF 防护和最小权限原则在 agent 时代需要被重新审视和强化。
生态系统亮点
NOTABLE ECOSYSTEM ITEMS
本页要点
Willison 还关注了 AI 编程生态中的几个值得注意的动向:Chris Lattner 评审 AI 生成的 C 编译器、Claude Code 的远程控制能力、tldraw 的知识产权讨论,以及个人 AI agent 系统的兴起。
Willison
Claude 生成了一个 C 编译器——这本身不稀奇,稀奇的是 Chris Lattner(LLVM 和 Swift 的创建者)review 之后评价说「看起来像一个合格的教科书级实现」。编译器不是简单的 CRUD 应用,能达到这个水平说明 agent 的系统级编程能力在快速提升。
- Claude C 编译器(CCC):Anthropic 生成,Chris Lattner(Swift 和 LLVM 创建者)评审——「看起来像一个合格的教科书级实现」
- Claude Code 远程控制:允许 agent 在远程服务器上执行开发任务
- tldraw 测试闭源:tldraw 将测试套件转为闭源——起因是有人开玩笑说 AI 能仅凭测试套件重建整个框架
- OpenClaw / Claws:个人 AI agent 系统的开源实现,「Claws」正在成为这类系统的通用术语
- Karpathy 的 Mac Mini:专门购买用来折腾 Claws 系统的专用硬件运行节点
- NanoClaw:约 4,000 行代码的极简 agent 框架
- Raspberry Pi:因 OpenClaw 引发的个人 agent 热潮而股价上涨
- llama.cpp:2023 年 3 月让本地运行 LLM 成为可能,ggml.ai 随后加入 Hugging Face
对于那些因为热爱编程而进入科技行业的人来说,这是一种真实的失落感。
—— Kellan Elliott-McCrea
过去两个月 AI 编程的变化之大令人难以置信。
—— Andrej Karpathy
原理注释:经济学与 TDD
PRINCIPLES EXPLAINED — PART 1
编辑注以下是 Willison 模式背后的深层原理解析,帮助理解每个模式为什么有效。
1. 代码成本归零的经济学逻辑
当某种生产要素的成本降到接近零时,整个价值链会发生结构性的重新分配。历史上,印刷术让文字复制的成本趋零,结果是「写什么」比「怎么抄写」变得更重要。AI 编程正在对软件行业做同样的事情:代码的生产成本趋零,于是判断力和品味成为了真正的稀缺资源。Paul Ford 提到的 $25K-$350K 降到 $200/月的案例,不是夸张的修辞,而是正在发生的经济现实。这种成本结构的变化不是渐进式的,而是断崖式的。
2. TDD 在 Agent 时代的复活逻辑
传统 TDD 被广泛弃用的最大原因是「写测试太费时间」。但在 agent 时代,测试的角色发生了根本转变:它不再仅仅是验证工具,而变成了需求规格语言。自然语言描述需求天然模糊(「处理好边界情况」到底什么意思?),但一段 pytest 断言是精确无歧义的。当你把测试用例交给 agent,agent 就获得了明确的输入/输出期望。测试驱动的不再是开发过程本身,而是人机之间的协作协议。这让 TDD 从「理论上好但实践中太慢」变成了「与 agent 合作的最高效方式」。
原理注释:知识与元程序
PRINCIPLES EXPLAINED — PART 2
3. 知识囤积的力量乘数效应
「Hoard Knowledge」背后的深层逻辑是 力量乘数 效应。你的知识并不是线性地叠加到 agent 的能力上——它是指数级放大 agent 有效产出的关键。一个知道「Tailscale 能安全地连通设备」的开发者,能让 agent 在 45 分钟内交付远程控制功能;而不了解这个可能性的人,可能花几个小时让 agent 在完全错误的技术选型上原地打转。三类知识中,「什么可行 / 什么不可行」是最珍贵的,因为它直接决定了 agent 的搜索空间大小。
4. 元程序与分层抽象的传承
Plan-then-Execute 中「元程序」的概念与计算机科学的分层抽象一脉相承。操作系统是硬件的元程序,编译器是机器码的元程序,如今计划文档就是代码的元程序。每一层抽象都让人类能在更高的层次上思考和纠错。审查一份 20 行的执行计划比审查 2000 行代码快两个数量级,但对最终质量的影响可能更大——因为计划层的错误会被代码层放大成几何级数的问题。
5. 25,000 行移植的信任模型
Ladybird Browser 的 C++ 到 Rust 移植表面上是技术壮举,实际上是「Over-confident Junior」模式的终极验证场。25,000 行代码不是 agent 一口气吐出来的——而是人类以数百个小提示词持续引导、逐步验证的结果。最终通过 test262 标准测试套件确认了零回归。这证明了关键论点:agent 的能力上限不取决于模型的智能程度,而取决于人类审查的质量和频率。
原理注释:安全与模型经济学
PRINCIPLES EXPLAINED — PART 3
6. Agent 权限管理的安全挑战
Google API Key 的 权限提升 问题揭示了 agent 系统面临的普遍安全隐患。当一个 agent 同时操作多个 API 和服务时,任何一个环节的权限配置失误都可能创造攻击面。传统的最小权限原则在 agent 时代需要被重新解读:agent 不应该拥有比当前任务所需更多的权限,而且每次任务结束后权限应该被回收。这在技术上意味着更细粒度的权限控制、更频繁的审计和更严格的密钥隔离策略。
7. 模型经济学的三重驱动力
2026 年模型格局的变化由三股力量共同推动。第一是闭源模型的价格战:Gemini 3.1 Pro 的 $2/百万 token 迫使所有厂商降价。第二是推理速度的竞赛:GPT-5.3-Codex-Spark 的 1200+ tok/s 让实时交互式编程成为可能。第三是开源模型在自定义硬件上的爆发:Llama 3.1 8B 配合 Taalas 硅片跑出 17,000 tok/s,证明了本地部署的可行性。三者叠加意味着大规模 agent 编排不再是大公司的专利。
8. 个人 Agent 系统的兴起
OpenClaw 和 NanoClaw 代表了一种新趋势:开发者不再满足于使用别人的 agent 工具,而是开始构建属于自己的个人 AI agent 系统。Karpathy 用 Mac Mini 做专用 agent 运行节点,NanoClaw 用约 4,000 行代码实现了核心 agent 框架。这些系统的共同特点是高度可定制、完全本地可控、围绕个人工作流优化。Raspberry Pi 股价因此上涨,反映了市场对个人 agent 硬件需求的预期。
原理注释:范式与走读
PRINCIPLES EXPLAINED — PART 4
补充 A. Agentic Engineering 与 Vibe Coding 的本质区别
这两个概念经常被混淆,但它们的目标人群和质量标准完全不同。Agentic Engineering 面向有经验的专业开发者——他们用 agent 来放大已有的专业能力,但仍然对每一行代码的质量负责。Vibe Coding 面向非程序员或快速原型场景——用大模型生成代码、不深入理解实现细节。Willison 明确表示:两种方式都有价值,但不能混为一谈。专业工程师在用 agent 时仍然需要审查、测试和理解所有输出。
补充 B. Linear Walkthroughs 的三重用途
Linear Walkthroughs 不只是「让 agent 解释代码」这么简单——它有三个层次的实际价值。第一层是代码审查:agent 刚生成一个项目后,你用走读来验证它的实现选择是否合理(比如发现 Present.app 使用了原始 Socket 编程 而非 HTTP 框架)。第二层是团队入职:新成员通过 agent 引导的走读快速理解不熟悉的代码库。第三层是记忆刷新:过了几个月再回来看自己的项目时,agent 能帮你快速重建上下文。
补充 C. Beats 模式与内容管道自动化
Willison 的「Beats」不仅仅是博客功能——它代表了一种用 agent 快速搭建多源内容管道的工作模式。五条 beats 分别对接 GitHub API、datasette 数据库、独立网站和代码仓库,每条的接入代码都由 agent 生成。这种模式的可复制性极强:任何有多个内容源的创作者都可以用同样的方式,在数小时内搭建起自动化的内容聚合系统。
社区讨论与读者视角
COMMUNITY PERSPECTIVES
本页要点
Willison 的 Agentic Engineering 模式合集在开发者社区引发了广泛讨论。核心争论集中在几个方向:AI 编程是否会取代工程师?TDD 模式对非测试友好的领域是否适用?安全问题能否跟上 agent 能力的增长速度?
讨论焦点 1
「代码不值钱了」是否意味着程序员不值钱了?
Willison 的回答很明确:不是。写代码的能力在贬值,但判断「写什么代码」的能力在升值。高级工程师的知识储备成为 力量乘数,初级工程师则需要更快地积累领域知识来保持竞争力。
讨论焦点 2
TDD 模式的适用边界在哪里?
对于有明确输入/输出关系的功能(API、数据处理、业务逻辑),Red/Green TDD 极其有效。但对于 UI 交互、创意设计、探索性编程等领域,测试的编写本身就困难重重。Willison 并未声称 TDD 适用于所有场景,但他认为在适用的场景中它的效果是压倒性的。
讨论焦点 3
Agent 安全能跟上能力增长吗?
Google API Key 案例暴露的权限管理问题仅仅是冰山一角。当 agent 能够自主执行代码、访问网络、操作文件系统时,传统的安全模型面临全面挑战。社区普遍认为安全基础设施的建设严重滞后于 agent 能力的增长。
讨论焦点 4
tldraw 知识产权争议
当 AI agent 利用开源框架的代码、设计模式甚至 UI 风格来生成产品时,知识产权的边界在哪里?这个问题在 tldraw 社区的讨论中尤为尖锐,目前尚无定论,但它预示了 AI 编程时代的一系列法律挑战。
关键洞察回顾
- 写代码的成本趋近于零——判断写什么才是核心竞争力
- Red/Green TDD 是人与 agent 之间最精确的沟通协议
- AI 生成的代码从未被执行过——先跑测试是铁律
- Linear Walkthroughs 让你理解 agent 到底写了什么
- 知识囤积是 agent 能力的 力量乘数
- Plan-then-Execute 把纠错从代码层提升到规划层
- 把 AI 当作 自信但易错的初级开发者——信任但验证
- Present.app:45 分钟从零到可用产品
- Ladybird:25,000 行 C++ 到 Rust 移植,零回归
- 五条 Beats 一个上午接入——代码成本革命的活证明
- 2025 年 11 月是分水岭——agent 从玩具级跃升到生产力级
- 安全基础设施建设严重滞后于 agent 能力增长
- Willison 坚持亲笔写作——不以自己名义发布 AI 生成文字
- 「Guides」体裁:设计为持续更新的 book-shaped 内容
- 所有模式的底层逻辑:人类负责方向和判断,agent 负责执行和速度
本文涵盖 55 个术语注释及 8 个原理过程补充解析。
点击任何虚线下划线的术语了解详细解释。
原文来源:simonw.substack.com
下期再见