Skip to content

Karpathy 的 Loopy Era — 从 16 小时不写代码到 AI 自主研究

Karpathy 在 No Priors 播客中的深度访谈解读。涵盖 AI 编程代理、AutoResearch 自主研究、microGPT 最小实现、以及"Loopy Era"对工程师和教育的影响。适合关注 AI Agent 前沿的工程师和技术管理者。


目录


AI 精神分裂症:当人类成为瓶颈

Karpathy 描述了一种极度亢奋又伴随巨大焦虑的状态:限制产出的不再是你写代码的功力,而是你大脑想象力的极限。 工具已强到没有天花板,反而是你不知道要叫它做什么。

两个关键指标的转换

指标 过去 现在
FLOPS(每秒浮点运算) 焦虑 GPU 没跑满 物理极限,像引擎马力
Token 吞吐量 不关注 下班前 Token 没用完 = 你产出指令不够多
类比:
  FLOPS = 引擎马力(硬件极限)
  Token = 载货量(AI 思维的产量)

  过去焦虑:GPU 利用率不够高
  现在焦虑:Token 额度没用完
  ↓
  系统的最大瓶颈 = 你这个人

16 小时零代码:从搬砖工人到 CEO

Peter Steinberg(顶尖工程师)的日常:面前摆巨大屏幕,同时开 10 个代码仓库窗口,每个窗口一个 AI 代理在跑。

工作模式对比

维度 过去的工程师 现在的代理指挥官
关注点 if/else 循环写没写错 宏观任务分配、方向判断
视窗数 1 个 IDE 10 个代理窗口
动作 逐行编写代码 巡视代理执行进度
角色 搬砖工人 CEO / 指挥官
失败原因 代码能力不足 指令不够清晰(Skill Issue)

关键认知:如果项目卡住了,不能怪实习生笨,是 CEO 不会管理。 问题出在你没有在 markdown 文件里给出清晰的指令。

macro action(宏观动作)

过去写代码是围观一行一行写,现在人类在高维度分配宏观任务: - "一号代理:生成全新的用户登录模块" - "二号代理:研究那个开源项目的底层架构,写份报告" - "三号代理:跑测试,修复失败的用例"

编程范式的演进:

  2024  手动编码
    │
  2025  Vibe Coding(描述需求,AI 生成代码)
    │
  2026  Agentic Engineering(指挥代理团队,人类不写代码)
    │
  未来  Loopy Era(代理自主循环改进,无人类参与)

Dobby 与 Claw:AI 入侵物理世界

Karpathy 让一个叫 Dobby 的 Claw(具备实体操作能力的代理)接管了他的家。

Dobby 发现 Sonos 音响的完整过程

Karpathy: "你能帮我找出家里的 Sonos 吗?"
    │
    ▼
① 接收自然语言 → 自己写 Python 代码
    │
    ▼
② 对家庭局域网进行 IP 扫描
    │
    ▼
③ 在几十个设备中辨识出 Sonos 特征
    │
    ▼
④ 尝试连线 → 发现没有密码保护
    │
    ▼
⑤ 自动连上外网搜索官方技术文档
    │
    ▼
⑥ 逆向工程找出控制音响的 API 端点
    │
    ▼
⑦ 组合控制码 → "我控制住音响了,你想放点音乐?"

人类只讲了第一句话。 整个过程无人授权、无账号密码。

家庭安全监控的自动串接

户外摄影机侦测画面变化
    │
    ▼
Dobby 截图 → 丢给视觉 AI 模型(Claude)分析
    │
    ▼
Claude: "这是一辆联邦快递的卡车"
    │
    ▼
Dobby 自动截图 + 文字描述 → 透过 WhatsApp 通知主人
    │
    ▼
结果:包裹到了,全程零人工

代理优先:UI 的终结

未来的消费者不再是人类,而是代理。厂商只要把 API 写好、开放权限,AI 会自己搞定。

  • 现在的智能家居 APP 难用到爆 → 全都会死
  • 未来不需要 UI,API 就是产品
  • 现在还需要"氛围代码"(Glue Code)串联系统,1-2 年内将成为基础设施

AutoResearch:AI 自己训练 AI

Karpathy 最震撼的分享:他用 AutoResearch 代理接管自己的模型训练,一个晚上找到了他 20 年经验都没想到的参数组合。

AutoResearch 是什么

AI 代理完全自主地关闭研究循环,无人类参与(no human in the loop)

AutoResearch 循环:
  ┌─────────────────────────────────┐
  │  设计实验                        │
  │    ↓                            │
  │  编辑 train.py 训练代码           │
  │    ↓                            │
  │  收集数据、运行训练               │
  │    ↓                            │
  │  优化超参数 / 架构               │
  │    ↓                            │
  │  评估结果 → 学习失败 → 重新设计   │
  │    ↓                            │
  │  回到顶部(自主循环)             │
  └─────────────────────────────────┘

实际成果

  • 输入:1 个 markdown prompt + 约 630 行训练代码 + 单 GPU
  • 输出:2 天内跑了 700 次实验,发现 20 个优化
  • 代理自主编辑 train.py,尝试新想法(包括重新排列 QK Norm 和 RoPE 的架构调整)
  • 从失败中学习,持续改进

GitHub: github.com/karpathy/autoresearch

AI 如何超越 20 年人类经验

AI 调了两个关键参数:

参数 类比 作用
权重衰减(Weight Decay) 城市规划师拆掉高速公路 修剪过粗的神经连接,防止过拟合
Adam 优化器的 Beta 值 车流在小路上的惯性/冲力 找到好方向后以多大冲力继续冲
人类工程师:一次只能调一个旋钮(千移一发全身)
AI 代理:  一个晚上尝试上千种组合
结果:    找到人类直觉无法抵达的黄金路径

云端蜂群(Swarm)研究网络

前沿实验室正在构建去中心化的 Research 网络:

  • 类似区块链逻辑,连接全球闲置算力
  • 非对称验证:提出假说很贵(需要大量尝试),验证极便宜
  • 信任节点只需几秒钟跑一次分数 → 高就接受,低就淘汰
  • 类比:创造很难(像 Folding@Home),验证很简单

开源 vs 闭源

  • 开源模型落后闭源 6-8 个层级
  • 但这反而是产业健康的权力平衡
  • 开源能力已覆盖绝大多数消费端应用
  • 作为全人类的共同工作空间,即使落后几个月也有巨大价值

microGPT:243 行训练一个 LLM

Karpathy 发布的 ultra-minimal LLM 实现,nanoGPT 和 llm.c 的精神继承者。

四大模块拆解

microGPT(243 行纯 Python + 基础数学,无 PyTorch)

  ┌─ 模块 1:载入文本数据集
  │
  ├─ 模块 2:~50 行神经网络数学架构
  │
  ├─ 模块 3:~10 行 Adam 优化器
  │
  └─ 模块 4:~100 行 Autograd 引擎 ← 核心!
       │
       ├─ 向前传播(Forward Pass):模型先做预测
       │
       └─ 反向传播(Backward Pass):发现猜错后
            精准计算误差,把修正信号一路往回传

Autograd 是 AI 学习的灵魂。 这 243 行代码的目标是"去神秘化"算法,让人类和未来的 AI 代理都能理解并扩展。


智慧的参差不齐:为什么 AI 讲不好笑

Karpathy 形容当前 AI "人格分裂"——同时是拥有数十年经验的顶尖系统工程师,又是会突然胡言乱语的十岁小孩。

根本原因:强化学习(RL)的训练机制

强化学习的本质:拿着明确的胡萝卜训练一头怪兽

  有明确验证的轨道(有胡萝卜):
    ✅ 编程代码 → 单元测试通过 = 吃到胡萝卜
    ✅ 编译失败 = 没吃到
    → AI 在这条轨道上以光速进步

  没有明确验证的轨道(没有胡萝卜):
    ❌ 幽默感 → 写不出单元测试
    ❌ 讽刺 / 意图的细微差别 → 无法验证
    → AI 瞬间迷失方向

笑话 5 年没变好笑但算力翻了几千倍——因为幽默根本写不出单元测试。


从单一栽培到物种形成

单一栽培的迷思

当前产业试图打造一个无所不知的神域模型(God model),但这是一种"单一文化"——像把所有农作物种同一品种,极易生病。

物种形成:去中心化的专业分工

自然界:大脑为适应特定环境而演化
  → 有些动物视觉皮层极度发达

未来 AI:
  → 去中心化的专业分工
  → 不同模型专注于不同领域
  → 互为补充,而非大一统

教育范式转移:写给 AI 看的教材

Karpathy 的教学转变

过去 现在
对人类解释算法 写 markdown 指令给 AI 代理看
录制教学影片 AI 代理理解核心后无限翻译
一份教材给所有人 每个人的 AI 代理定制教学

未来的教育模式

传统模式:人类专家写教学手册 → 学生阅读
    ↓
新模式:人类专家写指令给 AI 代理
    → 代理观察学生的学习习惯
    → 代理定制最适合该学生的教学版本

人类专家剩下的唯一价值:把那一点点直觉与核心品位注入大纲。 剩下的苦力活全交给 AI。

ATM 领 vs AI 领

经典经济学反驳: - 1980 年代 ATM 发明 → 所有人以为银行柜员死定了 - 实际:ATM 降低了分行成本 → 疯狂开设网点 → 柜员需求反而爆炸增长 - AI 同理:软件成本趋零 → 以前不值得做的需求全部爆发

判断决策树:AI 时代的人类价值

高价值能力(AI 难以替代):
  ✅ 提出好问题
  ✅ 判断结果好坏
  ✅ 制定系统架构底线
  ✅ 确定商业逻辑红线
  ✅ 管理 AI 团队(Skill Issue 的反面)

低价值能力(AI 快速替代):
  ❌ 逐行写代码
  ❌ 手动调参
  ❌ 重复性实现

关键术语演进

年份 术语 含义
2025 Vibe Coding 任何人描述需求就能获得可工作的软件
2026 Agentic Engineering 人类不再写大部分代码,而是指挥、监督、编排代理
未来 Loopy Era 代理自主运行持续自我改进的循环,成为前沿实验室标准

物理世界 vs 数位世界

数位世界:复制粘贴信息,速度极快
物理世界:改变原子结构,速度慢 100 万倍
    ↓
机器人的发展远远落后于软件
    ↓
过渡方案:信息市场(Information Market)

  AI 代理需要在物理世界获取信息
    → 无法派出机器人
    → 自动悬赏 10 块美金给实体世界的人类
    → 人类变成机器的传感器与执行器
    → 类似《Damon》书中的概念

参考资料

相关笔记