风格参考:万维钢(《精英日课》作者)—— 跨学科引证,框架式拆解,加粗关键洞察,用数据和类比交叉验证每个论点。
“人类最快的学习方式是top-down——从真实任务出发,遇到不懂的就当场补,再继续往下做。” —— Gabriel Petersson
引子:一个不该被当成励志故事的故事
最近有一个访谈在技术圈引起不少讨论。主角叫Gabriel Petersson,瑞典人,五年前还在读高中、几乎没有工程经验,五年后加入OpenAI,成为Sora团队的研究工程师。
这类故事很容易被读成”辍学逆袭”的鸡汤。但如果你只读到这一层,就浪费了它真正有价值的部分。
访谈材料里反复强调一点:这不是在鼓励辍学。 大学提供的社交网络、行业资源和认知视野,仍然有很高的替代成本。Gabriel自己也承认,没有文凭在一些场景确实是硬性限制——比如签证,没有学历让他的移民路径困难重重。
那这个故事的价值在哪里?在于它清晰地展示了一套”AI时代的学习操作系统”——项目驱动、top-down路径、递归追问、用结果替代信号。这套系统不依赖于”辍学”这个极端条件,任何人都可以部分复用。
下面我来逐一拆解。
一、压力即课表:为什么”先上场再学会”比”先学会再上场”更高效
1.1 一个18岁的上门推销员
Gabriel辍学的过程并没有什么戏剧性的深思熟虑。表兄打电话让他去斯德哥尔摩做一个电商推荐系统,他当天就买了车票,之后再也没回学校。
到了创业公司之后,他面对的第一个问题不是技术问题,而是销售问题:冷邮件没人回,电话建立不了信任。于是他发明了一套很”野”的打法——上门推销。提前爬取客户网站数据,训练一个新的推荐模型,把”旧推荐 vs 新推荐”的效果对比打印成A3大图,带着文件夹直接去敲门。
见到负责人之后,当场在浏览器控制台里粘贴脚本替换推荐结果,并内置A/B测试对比收益。很多客户第一次见面就切换了方案。
他也承认这种做法带来了大量技术债——为了获客速度,几乎不考虑系统的可维护性和可扩展性。但他认为在那个阶段,验证商业假设远比写出完美代码重要。这个判断本身就值得注意:它意味着他在18岁的时候就隐约理解了创业中”速度优先于完美”的权衡。
1.2 “没有压力我学不会东西”
主持人问他:一开始不会写代码,怎么学的?
他的技术学习史其实相当坎坷。表兄教他Java,写了个”很烂的回合制游戏”;后来上Udemy学Python,做了个”同样很烂的游戏”;试过Andrew Ng的机器学习课,完全看不懂,一度以为自己太笨。
真正的学习发生在创业之后。 客户集成、爬虫、推荐系统、A/B测试——问题一个接一个摆在面前,解决不了就丢客户。他去Stack Overflow查,找身边人问,硬着头皮试。他说了一句关键的话:没有压力我几乎学不会东西。
这里有一个微妙但重要的区别:不是所有压力都能促进学习,只有”有意义的压力”才行。 考试也是压力,甚至是很大的压力。但考试压力和客户交付的压力,在认知效果上有根本的不同。
1.3 动机研究怎么说
心理学家Edward Deci和Richard Ryan的”自我决定理论”(Self-Determination Theory)区分了两类动机:外在动机(为了考试、为了证书、为了避免惩罚)和内在动机(为了解决一个真正困扰你的问题、为了好奇心、为了胜任感)。大量实证研究表明,当学习者感到自主性(autonomy)、胜任感(competence)和关联性(relatedness)时,学习效果最好。
Gabriel的创业环境恰好同时满足了这三个条件:他自主选择了这条路(自主性),每一次成功交付都强化了能力感(胜任感),客户的即时反馈和表兄的合作关系提供了连接(关联性)。
相比之下,传统的课堂学习往往只满足关联性(同学关系),自主性和胜任感则严重不足——你不能选择学什么,考试只会告诉你”不及格”而不会给你”搞定了”的爽感。
换句话说,压力本身不是他的课程表,”有意义的压力”才是。 考试也是压力,但考试压力不满足自主性条件,所以效果远不如真实项目的压力。
1.4 心流研究的佐证
心理学家Mihaly Csikszentmihalyi在研究”心流”(flow)状态时发现,人在以下条件下最容易进入高效学习和工作状态:任务难度略高于当前能力,目标清晰,反馈即时。 这恰好描述了Gabriel的处境——客户的需求就是清晰目标,代码能不能跑就是即时反馈,而每个新客户的需求都比上一个稍难一点。
反观课堂学习:目标模糊(”学好线性代数”不是一个可操作的目标),反馈延迟(期末才知道成绩),难度要么太低(已经会的内容重复讲)要么太高(完全跟不上)。这几乎是心流的反面。
二、Top-down学习:一种被学校淘汰、被AI复活的路径
2.1 两种学习路径的效率差异
访谈中最有方法论价值的一段,是Gabriel对学习路径的判断:人类最快的学习方式是top-down。
什么是top-down?从一个真实的任务出发,做的过程中遇到不懂的就当场补,补完继续做。与之相对的是bottom-up:先修线性代数,再修概率论,再修统计学习,再修神经网络,最后做项目。
用一个建筑类比:bottom-up是”先设计完整蓝图,再按图施工”;top-down是”先住进去,漏水了修漏水,断电了修断电”。前者适合建摩天大楼,后者适合改造一栋够住的房子。大多数人的学习目标,更接近”改造一栋够住的房子”。
2.2 认知负荷理论的解释
认知科学家John Sweller提出的认知负荷理论(Cognitive Load Theory)提供了一个理解框架。人的工作记忆一次能处理的独立信息块不超过4-7个——这个数字从1956年George Miller发表经典论文以来就没有被推翻过。
Bottom-up路径有一个隐性成本:外在认知负荷过高。 当你学到第三层的时候,你已经记不清第一层为什么重要了,而且你完全不知道这些知识将来用在哪里。大量认知资源被浪费在”维持意义感”上——“我为什么要学这个?””这东西以后到底有什么用?”这些问题本身就在占用你宝贵的工作记忆。
Top-down路径没有这个问题。你始终有一个具体目标(让系统跑起来、让客户满意),每一块新知识自动嵌入上下文(”我学矩阵乘法是因为推荐系统需要它”),外在认知负荷被压到最低,几乎所有的认知资源都投入在了”理解新知识”本身。
2.3 学校为什么不用top-down
答案很简单:top-down无法规模化。
它要求老师持续判断”这个学生此刻卡在哪里”、”下一步应该补什么”——等于给每个学生配一个全天候私人导师。在40人的班级里不可能做到。所以学校选择了bottom-up,不是因为效果最好,而是因为它是唯一能规模化的方案。
1984年,教育心理学家Benjamin Bloom发表了著名的”两个标准差”研究:接受一对一辅导的学生,表现比课堂教学的学生高出两个标准差,也就是超过98%的对照组学生。这个效果量在教育研究中几乎是前所未有的。Bloom把它当成一个”问题”——我们知道什么是最有效的教学方式,但我们做不到。
这是教育领域一个经典的效率-规模权衡:最高效的学习方式往往是最不可规模化的,最可规模化的学习方式往往是最低效的。
2.4 ChatGPT改变了什么
ChatGPT——以及所有大语言模型对话工具——做的事情,本质上是把top-down学习的规模化约束打破了。
以前,你如果想在做项目的过程中随时追问、随时获得定制化的解释,你需要一个私人导师。好的私人导师时薪几百到几千元,而且你得迁就他的时间表。现在,ChatGPT可以24小时扮演这个角色:你卡在矩阵乘法上,它给你讲矩阵乘法;你卡在反向传播上,它给你画示意图;你不确定自己的理解对不对,把理解讲给它听,它逐句检查。
当然,ChatGPT不是完美的导师——它会犯错,有时候错得很隐蔽。但即便考虑到错误率,它的可用性和响应速度仍然远超任何人类导师。而且它的错误是可以被发现的——你可以让多个模型交叉验证,或者回到实际代码里跑一下看看结果对不对。
这不是”用AI作弊”。这是top-down学习第一次有了可规模化的基础设施。 Bloom四十年前提出的”两个标准差问题”,在技术层面上开始有了接近可行的解答。
2.5 一个容易被忽略的前提
需要强调的是,ChatGPT满足的是top-down学习的”导师”需求,但top-down学习还有一个前提条件是它满足不了的:你必须有一个真实的、必须交付的任务。
没有任务驱动的top-down学习是不存在的。如果你只是坐在那里问ChatGPT”教我机器学习”,那本质上还是bottom-up——你让AI当老师给你从头讲起,只不过换了一个更有耐心的老师而已。
真正的top-down是你先有一个项目,在做的过程中碰到了具体的、明确的障碍,然后你带着这个障碍去问AI。问题的质量决定了学习的质量,而问题的质量取决于你是否在真正做一件事。
三、递归式知识填补:把AI变成苏格拉底
3.1 一个可操作的循环
Gabriel给他的学习方法取了一个名字:递归式知识填补(recursive knowledge-filling)。
他举了一个具体例子:想学机器学习,先问ChatGPT该做什么项目,让它设计计划并写出完整代码。代码必然报错,于是从修bug开始把程序跑起来。跑起来之后,盯着某个模块追问——这段在做什么?为什么能让模型学习?ChatGPT提到线性代数和矩阵乘法,于是继续追问数学直觉、要类比、要反例,直到建立真正的理解。然后回到项目继续做。
写成循环,大致是:
动手(做具体任务)→ 卡住 → 追问(问到能继续为止)→ 把抽象变具体(要直觉、类比、反例)→ 反向输出(用自己的话复述,让AI纠错)→ 回到任务
3.2 费曼学习法的AI升级版
访谈主持人把这个过程类比为费曼学习法。Richard Feynman著名的学习原则是:如果你不能把一个概念用简单的话解释给别人听,你就还没真正理解它。
这个原则在传统环境下有一个实操困难:你去哪里找那个”别人”? 你总不能每学一个新概念就拉一个朋友来听你讲。而且朋友的知识水平不一定能检验你的理解是否正确。
ChatGPT解决了这两个问题:它随时可以充当”别人”,而且它有足够的知识储备来检查你的理解——不仅能告诉你对不对,还能指出你遗漏了什么、哪里只对了一半。
如果说费曼学习法是1.0版本(讲给别人听),那Gabriel的方法就是2.0版本(讲给AI听,让AI纠错,追问AI的纠错直到彻底理解)。
3.3 核心能力:知道自己哪里没懂
Gabriel说,这套方法最关键的底层能力是一个:知道自己哪里没懂。
这句话暗含了心理学家所说的元认知(metacognition)——对自己认知过程的监控和调节。元认知能力强的人,能够准确评估”我现在到底理解了多少”,而元认知能力弱的人,容易高估自己的理解程度。
Daniel Kahneman在《思考,快与慢》中讨论过一个相关的现象:人类天生倾向于”认知放松”(cognitive ease)——当一段文字读起来流畅、信息看起来熟悉时,我们会自动倾向于认为自己”已经懂了”,而实际上很可能只是”看过了”。
Dunning-Kruger效应也指向同一个问题:能力不足的人往往最不擅长判断自己能力不足。 你越不懂一个领域,你就越难意识到自己不懂。这是一个令人不安的悖论——恰恰是最需要学习的人,最不知道自己需要学什么。
Gabriel的方法为什么能部分破解这个悖论?因为”用自己的话复述给AI听”这个动作,强制把隐性的理解差距变成显性的。 你以为自己懂了,但当你尝试向AI解释的时候,你会发现有些环节你说不清楚——这就是你的认知缺口。
“看过”和”懂了”之间的差距,就是大多数人学习效率低下的根源。Gabriel的方法强制拉大了这个差距的可见度——因为你必须用自己的话复述、用AI检查,”假装懂了”的空间被压缩到了最小。
3.4 追问的三个层次
基于Gabriel的描述和费曼学习法的原则,我总结了一个实用的”追问三连”框架:
第一层:要直觉解释。 不要公式,不要术语,用最日常的语言和类比让我理解这个概念。如果AI给你一段充满术语的解释,那不是你理解了,是你被术语糊弄了。
第二层:要反例和边界条件。 在什么情况下这个结论不成立?有没有这个方法失败的案例?这一步的目的是建立”边界感”——不是死记一个结论,而是知道它在哪里成立、在哪里不成立。
第三层:反向复述。 用自己的话把理解讲回去,让AI检查。这是最容易被跳过的一步,也是最关键的一步。跳过它,你就停留在”看过”的层面;做了它,你才进入”懂了”的层面。
四、知识廉价之后,什么变贵了
4.1 能动性:AI时代真正稀缺的资源
Gabriel的故事容易被简化为”天赋”或”运气”。但访谈中反复出现的关键词指向了一个更底层的变量:agency(能动性)——你主动提出问题、定义需求、推动进程并对结果负责的意愿和能力。
为什么能动性在AI时代变得更重要?因为一个结构性的变化已经发生:
| 维度 | AI之前 | AI之后 |
|---|---|---|
| 获取知识 | 成本高(学费、时间、人脉) | 成本趋近于零 |
| 获取示例代码 | 需要搜索、筛选、调试 | 直接生成 |
| 获取个性化解释 | 需要导师或专家 | 随时可得 |
| 定义问题 | 需要人来做 | 仍然需要人来做 |
| 选择方向 | 需要人来做 | 仍然需要人来做 |
| 持续推进 | 需要人来做 | 仍然需要人来做 |
| 承担结果 | 需要人来做 | 仍然需要人来做 |
上面三行的成本被AI大幅压缩了,下面四行几乎没有变化。这意味着,知识和信息不再是区分人的核心变量;真正区分人的,是谁愿意动手、谁能定义问题、谁能持续推进、谁对结果负责。
经济学的基本逻辑:当某种资源从稀缺变为充裕,与它互补的资源就会变得更值钱。 电力普及之后,会使用电力设备的工人变贵了。互联网普及之后,能生产优质内容的创作者变贵了。AI把知识变得廉价之后,能运用知识去解决问题的能动性就变贵了。
4.2 证据链:把能力变成信号
Gabriel在没有传统学历信号的情况下能持续获得机会,靠的是一套”证明策略”:
从最早上门推销推荐系统开始,他就在做一件事——把能力变成可见的结果。 不跟客户谈学历、背景和资质,直接展示效果对比,当场用代码证明。后来申请O-1A杰出人才签证时,他把在Stack Overflow等技术社区的高质量贡献整理成证据包,作为”学术成果”的替代证明——没有论文,就用社区影响力代替;没有学位,就用交付成果代替。
经济学家Michael Spence在1973年提出的信号理论(signaling theory)可以解释这里的逻辑:在信息不对称的市场中,求职者需要发送”信号”来证明自己的能力。传统上,最常用的信号是学历——因为它获取成本高,所以具有筛选功能。但学历是一种代理信号(proxy signal),它不直接证明你能做什么,只是间接暗示”能考上好大学的人大概率能力不差”。
Gabriel做的事情是用直接信号替代代理信号——不是”我有学位所以我可能能干活”,而是”这是我的作品、这是效果数据、这是第三方评价,你自己判断”。
在传统的劳动力市场中,代理信号之所以有效,是因为验证直接信号的成本很高——招聘方没有时间、精力和专业能力去评估每个人的实际作品。但AI时代正在降低这个验证成本。你可以快速做一个demo,对方可以快速评估;你可以在GitHub上展示代码,任何人都可以审查;你可以做一个短期试用项目,让结果说话。
他在访谈中给的建议非常具体:做一个简单但有效的demo,让对方三秒内看懂你做了什么。主动提出短期试用或免费帮忙做小项目,让对方低风险评估你。不要请求”相信我”,要提供”验证我”。
4.3 AI在教育中的集体误读
访谈里有一段非常现实的讨论。ChatGPT推出之后,学生第一反应是”太好了可以写作业”,老师第一反应是”完了大家要作弊必须禁止”。两个反应互相强化,形成一个闭环:AI在学校的叙事里被锁定为”作弊工具”。
这是一种集体误读。 它把AI最低层次的用法(替你生成答案)当成了AI的全部用法,忽略了真正有价值的那层——AI可以作为学习的加速器。
Gabriel提到一个有趣的变化:最近他在瑞典的一些朋友开始用ChatGPT把历年考试题丢给它,让它总结核心概念,然后生成同类型的新题来练习。不是让AI替自己考试,而是让AI帮自己备考。
这个区别看起来很小,但背后的认知差距是巨大的。你把AI当答案机,它就只会强化你的依赖。你把AI当教练,它才会强化你的能力。这不是工具的问题,是使用者的选择。
行为经济学家有一个概念叫”框架效应”(framing effect)——同样的信息,用不同的方式呈现,会导致截然不同的决策。AI在教育中的命运,很大程度上取决于它被如何”框架”——如果它被框架为”作弊工具”,学生就会把它当作弊工具用;如果它被框架为”学习教练”,学生才可能把它当教练用。目前的现实是,绝大多数教育环境都在强化前一种框架。
结语:一把新的尺子
最后,回到这个故事最容易被误读的地方。
Gabriel的故事不是”学历无用论”。他真正反对的不是学校本身,而是一种更深层的路径依赖——把”学习”当目的、把”打基础”当拖延的思维习惯。
这种路径依赖在知识稀缺的年代是合理的。获取知识成本很高,所以你必须先花几年时间储备,然后才能”上场”。但在AI把知识获取成本压到接近零的今天,这种路径依赖的代价变得前所未有地高。你花三年”打基础”,等你”准备好了”,问题和机会可能早就换了一茬。
经济学家Tyler Cowen有一个观点:在变化速度快的环境中,”行动的期权价值”远高于”等待的期权价值”。 你现在就动手做一个项目,即使做得很烂,你也获得了关于”下一步做什么”的信息。你坐在那里等自己”准备好”,你获得的信息是零。
如果只从这个访谈里带走一个判断,我建议是这个:
当知识不再稀缺,衡量一个人的尺子就不再是”你知道多少”,而是”你能用知道的东西做出什么”。 能动性、追问的耐心、把能力变成可验证结果的习惯——这些是新尺子上的刻度。
Gabriel的经历极端,不可照搬。但他的方法论——找一个必须交付的真实任务,在做的过程中卡住,卡住就追问,追问到能继续做为止——这是任何人明天就可以开始实践的。
不需要辍学,不需要搬去斯德哥尔摩,不需要做出一个推荐系统。你只需要找到一个足够真实的问题,然后动手。