从“洞里写代码”到“人人可用的智能体”

风格参考:万维钢(《精英日课》作者)—— 跨学科引证,框架式拆解,加粗关键洞察,用数据和类比交叉验证每个论点。

引子:一个人在洞里写代码

OpenAI 的开发者体验负责人 Romain Huet 在公开帖子里记录了一个细节:当别人问 Peter Steinberger“能不能介绍一下你的 CEO、你的 HR、你的团队成员”时,Peter 只能回答——

“就我一个人在洞里写代码(hacking from my cave)。”

一个人,做出了 GitHub 十万 star、一周两百万访问的 OpenClaw。

更让人意外的是,Peter 不是一个刚被 AI 震撼的新人。他是从零把 PSPDFKit 做成全球化公司的老派硬核工程师。让他重新回到“每天动手造东西”的,不是创业热情的回潮,而是一个朴素的认知转折——现在的工具,终于能让你去造那些一直想要但以前造不起的东西。

这句话的意思不是“AI 帮你写了代码”,而是“你一个人可以承担的系统复杂度,突然提升了一个数量级”。

这正是 Builders Unscripted 第 1 集——OpenAI 新推出的开发者对谈节目——之所以在开发者圈子里迅速扩散的原因。它不是在介绍新概念,而是在展示一种正在发生的转变:一个经验丰富的工程师,如何在工具变化之下重塑自己的心智模型。

而“重塑心智模型”,恰好是这波 agentic 工具浪潮里大多数人最缺的部分。大家在追新产品、追提示词、追工作流,却没有花足够时间去锻造“与智能体协作”的基本功。

这篇文章要做的,就是把这期对谈中最有价值的五个洞见拆出来,用跨学科的框架去验证它们,然后把它们翻译成你可以立刻开始练习的操作系统。


一、从 WhatsApp Relay 到 OpenClaw:一个周末项目如何变成全球热潮

1.1 它最初不是“AI Agent 平台”

OpenClaw 官方博客在“Introducing OpenClaw”里写得很直白:“两个月前,我随手拼了个周末项目。最开始叫 WhatsApp Relay。”

“WhatsApp Relay”这个名字本身就是一条重要线索——它不是自上而下的产品定位,而是一个“把某种能力接进 WhatsApp”的胶水工具。TechCrunch 的报道补充了更具象的动机:Peter 一开始想做一个能跟 WhatsApp 集成的工具,发现大厂并没有做出他真正想要的东西,于是把原型推成了现在的 OpenClaw。

从“某个小入口”切入,是很多重要产品最典型的诞生方式。它不是“先修一条高速公路”,而是“先把一扇门装好”,让人先能进来。

1.2 马拉喀什周末:抽象价值变成身体记忆的瞬间

TechCrunch 提到一个细节:Peter 在马拉喀什周末旅行时网络信号很差,但 WhatsApp 能用。于是“随时可用的个人 agent”的价值在那一刻变得极其直观——我在一个低带宽环境里依然能和我的系统对话,它还能替我做事。

很多人谈 agent 会谈“未来所有人都有一个 AI 助理”,但那只是概念。真正改变人的,是那种“身体级”的瞬间体验。你一旦在一个不理想的环境里依然感受到了系统的可用性,就很难再回到原来的思维方式。

1.3 时间线背后的信号

Romain 在公开帖子里写得很明确:这次对话是在旧金山录制的,发生在 ClawCon 与 Codex hackathon 之后、Peter 入职 OpenAI 之前。

“入职前”这三个字意味着:当时 Peter 仍然是一个纯粹的开源作者和极客 builder。他在谈的是真实的工作方式与价值观,而不是企业叙事。后来 Peter 在个人博客里确认:他加入 OpenAI 的目标是“把智能体带给每个人”,OpenClaw 会迁移到基金会架构,保持开放与独立。

把这条时间线连起来——周末玩具 → 社区爆炸 → 黑客活动密集发生 → 作者加入 OpenAI → 项目走向基金会——你看到的不是“开源被收编”的老故事,更像是一种新的协作方式:个人创造 → 社区扩散 → 机构加速,但项目的开放性被结构性地保护起来。


二、核心洞见一:这是技能练习,不是魔法

Peter 给想入门 agentic 工具的开发者的建议非常接地气:用“玩”的方式开始,去做一个你一直想做的东西;不要期待第一天就很强。

他把“AI 写代码”类比成学吉他。Business Insider 的报道也引用了这个比喻——Peter 认为“vibe coding”这个说法贬低了其中的技能含量,因为“看起来轻松,但其实需要练”。

这不是随口一说。它背后有一个严肃的理论框架。

2.1 Ericsson 的刻意练习

心理学家 Anders Ericsson 花了几十年研究“专家级表现”是怎么来的。他的核心发现是:顶级表现不是天赋的产物,而是“刻意练习”(deliberate practice)的产物。 刻意练习有四个要素——明确的目标、即时的反馈、超出舒适区的挑战、持续的复盘。

现在把这个框架套到 agentic coding 上:

  • 明确的目标:不是“学会用 Codex”,而是“用 Codex 做一个 CLI 工具,能自动整理我的 markdown 文件”。
  • 即时的反馈:模型的输出就是即时反馈——它理解了你多少、误解了你多少,一目了然。
  • 超出舒适区:你不是在重复已经会做的事,而是在尝试用新方式做以前做不了的事。
  • 持续的复盘:每次交互结束后问自己——“我说的哪句话最含糊?哪个约束我忘记提?”

大多数人用 AI 工具的失败模式是这样的:找一套“万能提示词模板”,复制别人的工作流,对着工具猛敲,然后在第三次翻车时宣布“AI 写代码就是不行”。 这种路径失败的根因不是模型不够强,而是它把“协作”当成了“下命令”。

把 AI 当技能练习,意味着你接受一个事实:你不是在“让它写代码”,你是在练习“如何把问题定义得足够清楚、如何给边界、如何检查结果、如何迭代”。你越是愿意练基本功,你越能从模型的能力提升中指数受益。

2.2 “玩”不是鸡汤,是工程策略

Peter 强调“用玩开始”,不是在讲心灵鸡汤。它背后有一个冷酷的工程逻辑:

你需要大量的短周期反馈。你需要在低风险场景里积累试错经验。你需要把失败当作训练数据,而不是对工具的终审判决。

当你用一个“一直想做但不影响 KPI 的小东西”练手时,你会更愿意复盘、更愿意试不同的表达、更愿意探索工具的边界。最终你练到的不是“某个提示词”,而是一种可以迁移到任何项目的协作能力。


三、核心洞见二:从“写流程”到“给意图 + 给边界”

Peter 在自己的文章“Shipping at Inference-Speed”里写得很直接:他现在能做的软件量“主要被推理时间与硬思考限制”;而大多数软件并不需要那么多硬思考——很多应用只是把数据从一种形式搬到另一种形式。

这句话的冲击力在于:它把“写代码”从人类的主要瓶颈里拿掉了。

3.1 旧模式 vs 新模式

传统工程方式里,你要把流程拆到足够细,写成可执行的确定性逻辑。机器不理解“意图”,只执行“指令序列”。

当模型具备工具调用能力、能读代码库、能搜索资料、能自己形成计划并落地实现时,一种新的协作方式出现了:你不必把每个步骤硬编码,你更像是在给它“目标 + 约束 + 验收标准”,然后它在工具空间里自己找到路径。

3.2 Herbert Simon 的“有限理性”

诺贝尔经济学奖得主 Herbert Simon 提出过一个著名概念:有限理性(bounded rationality)。人类不是完全理性的决策者——我们的注意力、记忆力、计算能力都有上限。所以在现实中,我们不是“找到最优解”,而是“找到一个够好的解”(satisficing)。

传统编程之所以痛苦,一个重要原因就是它要求人类做大量“超出有限理性”的工作:你要同时记住系统的状态、语言的语法、框架的 API、业务的边界条件、团队的代码规范……信息负荷常常超出工作记忆的容量。

当模型接管了“探索路径”的工作,人类的有限理性得到了释放。 你不需要在脑子里同时 hold 住所有细节,你只需要在关键节点做判断:这个方向对不对?这个结果符不符合我的验收标准?

Peter 在“Just Talk To It”里对“计划模式(plan mode)”的态度体现了同一个逻辑:他认为很多“仪式感很强的工作流”是对旧模型不稳定性的补丁。当模型更能遵循对话式约束时,你只需要“讨论、给选项、确认后再 build”。关键不是流程有多复杂,而是意图有多清楚。


四、核心洞见三:名字会塑造文化

Peter 在节目里说了一句很刺耳的话:“Vibe coding is a slur(’vibe coding’是一种贬低)。”Business Insider 的报道给出了完整的语境——他认为这个词暗示“这很随意、很容易”,从而掩盖了其中的技能含量。

这不是词汇洁癖。它背后是一场关于“工程尊严”的争夺。

4.1 Sapir-Whorf 假说:语言塑造思维

语言学中有一个经典理论——Sapir-Whorf 假说——认为语言不仅仅是表达思想的工具,它还会反过来塑造思想本身。强版本(语言决定思维)虽然争议很大,但弱版本(语言影响思维)在认知科学中有大量实证支持。

当一个行业用“vibe”来命名一种生产方式时,它天然会引导出一种“轻视工程纪律”的氛围——随便搞搞、跟着感觉走、不需要太认真。而当你把它叫做“engineering”时,它天然会把测试、边界、复盘、可靠性这些概念重新拉回中心。

名称塑造文化。文化塑造行为。行为塑造结果。

4.2 两种归因,两种命运

Peter 的反对,本质上是在争夺定义权:

  • 如果大家都把 AI 编程当作“随便玩玩”,那么失败就会被归因为“AI 不行”;
  • 但如果它被承认为一种需要练习的技能,那么失败更可能被归因为“我还没练到位”。

前一种归因让人放弃,后一种归因让人进步。

Business Insider 还提到一个有意思的演变:提出“vibe coding”概念的 Andrej Karpathy 后来也在反思这个词,倾向用“agentic engineering”来描述未来方向。这个转变本身就在验证 Peter 的判断——当行业开始认真对待这件事时,它需要一个认真的名字。


五、核心洞见四:验证链替代阅读链

这是对谈里最容易被误解的一点。很多人听到“我不怎么读代码”会立刻联想到“危险”和“不负责任”。

但 Peter 讲得很清楚:他不是完全不看,而是从“逐行阅读”转向“看关键片段 + 看结构 + 看流式输出”。他知道组件在哪、系统如何设计,他只是承认“绝大多数代码我不读”。Business Insider 引用了他更直白的一句:“Most code is boring(大多数代码很无聊)。”

这里有两个被大多数人忽略的前提。

5.1 Popper 的可证伪性:阅读不是验证的唯一方式

科学哲学家 Karl Popper 提出过一个改变了整个科学方法论的观点:一个理论的价值不在于你能“证实”它,而在于你能“证伪”它。 你永远无法通过观察一万只白天鹅来证明“所有天鹅都是白的”,但你只需要找到一只黑天鹅就能推翻它。

把这个逻辑套到代码上:你永远无法通过“阅读代码”来证明代码是正确的——因为你可能漏看一行。但你可以通过设计足够好的测试来尝试“证伪”它——如果所有测试都没能让它失败,你就有合理的信心。

这正是 Peter 的工作方式的底层逻辑。他不是用“读代码”来建立信心,而是用“验证链”来建立信心:

  • 自动化测试——单测、集成测试、回归测试
  • 静态检查——lint、type check、规则扫描
  • 运行时验证——在真实或仿真环境里跑
  • 可观测性——日志、指标、追踪

Peter 在“Shipping at Inference-Speed”里有一个极具实操价值的建议:很多东西先从 CLI 开始,因为 CLI 容易让 agent 直接调用并验证输出,从而“闭环”。这句话把“可验证性”当作 agentic 开发的第一性原则——你不是先追 UI、先追交互,而是先追“让系统能自己验证自己”。

5.2 Polanyi 的默会知识:为什么他敢这样做

匈牙利裔英国哲学家 Michael Polanyi 提出过一个著名概念:默会知识(tacit knowledge)——“我们知道的比我们能说出来的多。”一个经验丰富的工程师对系统的理解,很多是结构性的、直觉性的、无法完全用语言表达的。

Peter 之所以能“少读代码也能推进”,一个关键前提是他对系统有足够深的默会知识——他知道架构是什么样的、组件之间怎么交互、哪些地方容易出问题。这种结构性理解不需要逐行阅读来维护,它是在反复与系统交互的过程中积累的。

他自己也承认:管理经验帮助很大。带团队就意味着你必须接受“别人写的代码不完全符合你的风格”,而现在模型写的代码本质上也是“别人写的代码”。

从“自己写”到“带团队”,你要升级的能力是“定义标准、做 code review、做架构决策、做验收”。从“带团队”到“带智能体”,你要再升级一次:把标准写成可执行的约束,把验收写成可自动化的测试,把 review 的注意力放在高杠杆处。


六、核心洞见五:一个人的公司级产能——Brooks 定律的逆转

Romain 引用了 Peter 的话:别人以为你背后有一整家公司,但其实“就我一个人在洞里写”。Peter 补充说:“即使一年前,这也不可能做到。”

这句话的震撼感,来自它精准击中了当下的结构性变化。

6.1 Brooks 定律:为什么大团队反而更慢

1975 年,IBM 的传奇工程师 Frederick Brooks 出版了《人月神话》(The Mythical Man-Month)。他提出了一条至今仍然成立的定律:向一个已经延期的软件项目增加人手,只会让它更加延期。

原因很简单:沟通成本。n 个人之间的沟通通道数量是 n(n-1)/2。3 个人有 3 条通道,10 个人有 45 条,50 个人有 1225 条。当团队规模增长时,花在“对齐信息”上的时间会吞噬掉增加人手带来的产出提升。

这就是为什么很多大公司的效率远不如小团队——不是人不努力,是沟通成本太高。

6.2 当 AI 替代的是“沟通通道”而不是“人”

Peter 的故事揭示了一种新的可能:AI 工具真正替代的不是“程序员”,而是“程序员之间的沟通通道”。

当一个人加上 AI 工具就能完成过去需要一个团队的工作时,Brooks 定律中的 n 被压缩到了 1。一个人和 AI 工具之间只有一条沟通通道——而且这条通道的带宽远高于人与人之间的沟通:没有情绪,没有政治,没有时区差,没有会议。

以前,一个“复杂系统”需要大量分工——前端、后端、测试、运维、产品、设计。现在,很多分工开始被工具自动化压缩,个人的能力边界被显著扩展。

但 Peter 自己也说得很清楚:OpenClaw 当然可能变成一家大公司,但那对他并不兴奋;他更想“改变世界”,加入 OpenAI 是把它带给更多人的最快方式。

“High agency”(高能动性)在这个语境下的真正含义不是“你一个人可以干所有事”,而是三件事:

  1. 你可以用更少的人完成过去需要更多人的事。
  2. 于是“主动性、驱动力、试错能力、复盘能力”会变得更值钱——因为这些能力不能被规模化,只能被个人修炼。
  3. 你对“我是谁”的定义会决定你能不能抓住这波浪潮。

如果你的身份认同是“创造与解决问题”,这个时代对你更友好;如果你的身份认同是“按照既定流程写代码”,你会感到被挤压。


七、三层工作模型:把心态落地成操作

为了把上述洞见从“方法论”落地成“可操作”,我把 Peter 和 Romain 所表达的趋势抽象成三层工作模型。

第一层:意图与边界(Intent & Constraints)

你必须清晰回答四个问题:我到底要解决什么问题?什么算成功?什么算失败?约束是什么——安全、性能、成本、隐私、合规、时间?

这层工作不会消失,只会更重要。因为当“执行”变得便宜时,“错误执行”会变得更致命。

第二层:协作与引导(Steering)

过去你通过写代码引导系统。现在你通过三种方式引导:

  • 对话——讨论方案、让它列选项、让它解释 trade-off。
  • 结构化约束——文件结构、文档、规则、测试。
  • 工具链——CLI 可验证闭环、web search、skills。

Peter 在“Just Talk To It”里反复强调:很多花哨的编排是 charade(表演),关键是“对话、玩、形成直觉”

第三层:验证与治理(Verification & Governance)

当你减少逐行阅读,你就必须在别处补回来——测试覆盖、可观测性、代码与依赖治理、权限与密钥管理、安全隔离。

三层之间有一个微妙的平衡。 第一层越清晰,第二层越高效;第二层越成熟,第三层越可靠。反过来,第三层越薄弱,你就越不敢放手让第二层运转——你会陷入“不信任工具,于是不用工具,于是永远学不会用工具”的恶性循环。


八、现实的天花板:能行动的系统天然比只说话的系统危险

OpenClaw 是一个“可达性极强、主权感极强”的个人 agent 平台。但越是这种平台,越会把风险放大——它不是只生成文本的聊天机器人,而是一个拿着钥匙、能运行命令、能装技能、能长期记忆的系统。

Peter 自己在 OpenClaw 官方博客里把安全放在最优先位置,提到“安全相关提交”和“提示注入仍是行业未解难题”。但外部世界的反应更激烈也更现实。

8.1 三类核心风险

Microsoft 安全博客在“Running OpenClaw safely”里把风险说得非常工程化:

  1. 凭据与数据泄露——agent 能访问你的密钥和文件,如果配置不当或被注入恶意指令,敏感信息可能被发到不该去的地方。
  2. 持久状态被篡改——agent 的记忆是 Markdown 文件,一旦被篡改,它可能在后续所有交互中执行攻击者的指令。
  3. 主机环境被攻陷——agent 能执行命令,如果被诱导运行恶意代码,你的整台机器都可能失控。

8.2 供应链风险

“技能(Skills)生态”引入了新时代特征的风险。Trend Micro 报道过“恶意技能”如何成为投递载荷的渠道,The Verge 也报道过 OpenClaw 技能扩展在供应链层面带来的安全隐患。NVD 中的 CVE-2026-25253 涉及特定版本中 WebSocket 连接可能导致令牌泄露的问题。

这一切在提醒我们:当你说“个人 agent 平台”时,你其实在说“一个新的操作系统层”。而操作系统层的风险治理,从来都不是靠一句“请小心使用”就能解决的。 它需要隔离环境、凭据轮换、权限最小化、供应链审计——这些不是可选项,是必选项。


九、30 天训练路线与 6 条工作准则

把 Peter 在节目与公开文章里强调的方法论,转化为一套可执行的练习系统。

第 1–7 天:练“把问题说清楚”的肌肉

选一个你一直想做但不影响 KPI 的小项目——CLI 工具、Telegram 机器人、自动化脚本,任选其一。

每天固定四个动作:

  1. 用 5 句话写清楚“我要什么、不要什么、验收标准是什么”。
  2. 让模型先给 2–3 个实现方案和 trade-off,你只做选择。
  3. 让它实现最小可用版本。
  4. 写下“它哪里误解了我”。

每天复盘 10 分钟,只问三个问题:我说的哪句话最含糊?哪个约束我忘了提?哪个验收标准我没定义?

第 8–14 天:练“验证链”

目标是把安全感从“读代码”迁移到“可验证”。

  • 给项目加最基本的测试(哪怕只有 3 个)。
  • 加 lint 和 type check,能自动化就自动化。
  • 每天让模型做一次“自我 review”:列出潜在 bug 与边界条件。
  • 重要改动要求它写到 docs 里,让知识沉淀为可复用上下文。

这个阶段你会理解 Peter 为什么强调 CLI——因为 CLI 的输出最容易被自动化检查,从而形成闭环。

第 15–21 天:练“二次迭代”

用“两次考试”的思路降低失败成本:

  • 第一次迭代:只追“跑起来”,允许粗糙。
  • 冷却 12–24 小时后回来,让模型回答三个问题:这个实现的核心不变量是什么?最可能出 bug 的边界在哪里?如果要让新人或另一个 agent 接手,应该补哪些文档和测试?
  • 根据答案列出二次迭代清单,再让模型执行。

这套方法的本质是:把一次高成本的大翻车,拆成两次低成本的小失败。

第 22–30 天:练“产品化直觉”

开始思考“稳定性、权限、数据、可观测性”:

  • 加入配置与密钥管理(别把 token 写死)。
  • 加入日志与错误处理(让问题可定位)。
  • 加入最小权限设计(尤其是“能行动的 agent”)。
  • 参考 Microsoft 的三类风险分类,确保你至少有隔离环境、凭据轮换、监控与审计意识。

6 条工作准则

把以上一切收敛成可以贴在桌面上的 6 条:

  1. 先玩,再上强度。 用小项目练手感,建立正反馈。
  2. 先意图,后代码。 让模型给选项,你负责选择与约束。
  3. 用验证链替代阅读链。 测试、检查、运行验证必须提前建。
  4. 把上下文工程化。 docs、结构、规则,是 agent 的“道路”。
  5. 把“vibe”换成“craft”。 承认这是技能,练习才会变强。
  6. 对可行动系统保持敬畏。 能执行命令、装技能、持久记忆的 agent,要按高风险运行时治理。

结语:活着的好时代——但你要配得上它

Romain 在帖子里引用了 Peter 的一句话:

“If you’re a builder, what a time to be alive.”

这句感叹之所以打动人,是因为它既乐观也残酷。

乐观在于——个人第一次拥有了接近“公司级产能”的杠杆。一个人在洞里写代码,可以做出十万 star 的产品。

残酷在于——当杠杆变大,错误的代价也随之放大。你不再能用“我只是个工程师”来逃避系统性责任。

Peter 的故事——从 WhatsApp Relay 的周末玩具到 OpenClaw 的全球热潮,再到加入 OpenAI 同时坚持项目走向基金会——最值得学习的不是某个工具技巧,而是一种姿态:先做出东西,再把它迭代成能长期使用、能被更多人安全使用的形态。

用 Ericsson 的话说:这不是天赋,这是刻意练习。

用 Popper 的话说:这不是验证真理,这是不断尝试证伪。

用 Brooks 的话说:这不是加人手,这是压缩沟通通道。

而用 Peter 自己的话说——它比所有理论都朴素:

去玩。去做一个你一直想做的东西。然后练。