Karpathy：20年的编程生涯几周之内被颠覆，80%由AI来写，Claude和Codex跨过某种一致性门槛

OpenAI创始成员、特斯拉前AI总监Andrej Karpathy,刚刚分享了他使用Claude进行数周高强度编程后的心得体会。

AK直言,自己的工作流在几周内就发生了巨变:从80%手动编码,转变为80%由AI来写,这“有点伤自尊”,但这种转变带来的巨大效用难以抗拒。他详细阐述了当前AI编程的优缺点、对个人能力的影响,并对行业的未来提出了疑问

以下是Karpathy的核心观点:

编码工作流的颠覆

和许多人一样,随着大语言模型编码能力的提升,AK的工作流也迅速改变。

去年11月,大约是80%手动+自动补全编码,20%使用智能体。到了12月,这个比例颠倒了过来,变成了80%由智能体编码,AK只做20%的编辑和修补工作。

也就是说,现在基本上AK是在用英语编程,有点不好意思地用语言告诉大模型要写什么代码。这确实有点伤自尊,但通过大型“代码动作”来操作软件的力量实在太有用了,尤其是当你适应、配置、学会使用它,并理解了它的能力边界之后。

这是AK编程近20年来,基础编码工作流发生的最大变化,而且仅仅在几周之内就完成了。AK预计,在工程师群体中,有两位数百分比的人正在经历类似转变,而普通大众对此的认知度可能还停留在低个位数百分比。

IDE、智能体群和易错性

目前,“不再需要IDE”和“智能体集群”这两种炒作都为时过早。

模型肯定还是会犯错,如果你有任何真正在意的代码,AK建议你在旁边开一个大大的IDE,像鹰一样盯着它们。

模型的错误类型已经变了很多——不再是简单的语法错误,而是那些有点草率、急躁的初级开发人员可能会犯的、细微的概念性错误。最常见的错误是,模型会为你做出错误的假设,并且不加核实就继续执行。

它们也无法处理自身的困惑,不会寻求澄清,不会揭示不一致之处,不会展示权衡利弊,不会在应该反驳的时候提出异议,而且仍然有点过于谄媚。在规划模式(plan mode)下情况会有所好转,但我们还需要一种轻量级的内联规划模式。

此外,它们还非常喜欢把代码和API搞得过于复杂,滥用抽象,也不会清理自己留下的无用代码。它们会用1000行代码实现一个低效、臃肿、脆弱的结构,而你得提醒它:“嗯……你难道不能这样做吗?”然后它们会说:“当然可以!”并立刻把代码缩减到100行。它们有时还会更改或删除自己不喜欢或理解不够充分的注释和代码,即使这与当前任务无关。

尽AK尝试通过在CLAUDE.md中给出一些简单的指令来修复这些问题,但它们依然存在。

然而,尽管有这些问题,这仍然是一个巨大的净提升,很难想象再回到手动编码的时代。长话短说,AK目前的流程是:左边开几个ghostty窗口/标签页跑几个小型的CC会话(与Claude交互),右边开一个IDE用于查看代码和手动编辑。

坚韧性

观察一个智能体不懈地工作是件非常有趣的事。它们从不疲倦,从不泄气,只是不断地尝试,在人类可能早就放弃、改日再战的地方继续坚持。

看着它为一个问题苦苦挣扎很长时间,最终在30分钟后取得胜利,那一刻有一种“感受到AGI”的瞬间。你意识到,耐力是工作的核心瓶颈之一,而有了大语言模型,这个瓶颈被极大地拓宽了。

效率提升

很难衡量大语言模型辅助带来的“效率提升”到底有多大。当然,对于原本计划要做的事情,AK感觉速度快了很多。但主要影响在于,做了远比原计划更多的事情,因为:

1. 能编写出各种以前觉得不值得花时间去写的东西。

2. 能处理以前因为知识或技能问题而无法着手的代码。

所以,这当然是效率提升,但更多的是一种“能力扩张”。

杠杆作用

大语言模型异常擅长循环执行任务直到满足特定目标,这正是大部分“感受到AGI”魔力的来源。

不要告诉它具体怎么做,而是给它成功的标准,然后看它表演。让它先写测试,然后再通过这些测试。把它放进一个带有浏览器MCP(模型控制程序)的循环里。先写一个很可能正确的朴素算法,然后要求它在保持正确性的前提下进行优化。

将你的方法从“命令式”转变为“声明式”,可以让智能体循环更长时间,从而获得更大的杠杆作用。

乐趣

AK没预料到,在智能体的帮助下,编程变得更有趣了。因为大量“填空式”的苦差事被消除了,剩下的就是创造性的部分。

AK也感觉更少被卡住(这很不愉快),并且体验到了更多的勇气,因为几乎总有办法能与它携手取得一些积极进展。

AK也看到了其他人的相反观点;大语言模型编码将根据工程师主要是喜欢“编码”还是喜欢“构建”而将他们区分开来。

能力萎缩

AK已经注意到,手动编写代码的能力正开始慢慢萎缩。

生成(写代码)和辨别(读代码)是大脑中的两种不同能力。很大程度上因为编程中涉及的各种细微的、主要是语法上的细节,即使你很难写出代码,你也可以很好地审查代码。

垃圾末日(Slopacolypse)

AK正准备迎接2026年,那将是GitHub、Substack、arXiv、X/Instagram以及所有数字媒体的“垃圾末日”之年。除了实际的、真正的进步之外,我们还会看到更多AI炒作下的“生产力表演”(这还有可能更多吗?)。

几个问题

AK脑海中有几个问题:

“10倍工程师”会怎样——顶尖工程师与平均水平工程师之间的生产力差距会如何变化?这个比例很有可能大幅增长

有了大语言模型,通才是否会越来越胜过专才?大语言模型在“填空”(微观)方面远比在“宏大战略”(宏观)方面更出色

未来的大语言模型编程会是什么感觉?像玩《星际争霸》?玩《异星工厂》?还是演奏音乐?

整个社会在多大程度上受限于数字知识工作?

总结

这一切将我们引向何方?

大语言模型智能体(尤其是Claude和Codex)的能力似乎在2025年12月前后跨越了某种“一致性”的门槛,引发了软件工程及相关领域的相变。

“智能”部分突然感觉遥遥领先于其他所有部分——包括集成(工具、知识)、对新组织工作流程和流程的需求,以及更广泛的技术扩散。

随着整个行业消化这一新能力,2026年将是充满能量的一年

source:

https://x.com/karpathy/status/2015883857489522876