👆 上下滑动阅读 · 左右滑动翻页 · 键盘方向键同理
🌱
罗福莉 3H 访谈(下)
组织、范式演进与 AGI 时间表 📖 注释版
"应该让这个模型结合一套框架本身去完成这些事情和任务,而不是去追求另外一个虚拟上的事情。"
—— 罗福莉 谈巨变下的组织、人才与 AGI
来源:张小珺商业访谈录 · 2026 年 4 月 24 日
3 小时 35 分钟原始访谈 · 三篇完结
📖 含 32 个术语注释
🔵 蓝色虚线 = 技术工具/术语
🟢 绿色虚线 = 产品/人物/平台
🟠 橙色虚线 = 概念/方法论
🟣 紫色虚线 = AI 模型
点击任何虚线术语查看详细解释 👇
2026 年模型公司的胜负手
WHAT KEEPS YOU AT THE TABLE
张小珺
所以你觉得 2026 年什么会成为模型公司竞争的胜负手?做对了什么才能留在牌桌上?
罗福莉
首先不能做错的事是:你的预训练基座不能错。如果这个事都没有上,那基本上就完全没有机会了。
假设我们都有一个 1T 量级的模型,基座的潜能都在,尤其是在 code 上的潜能都是相当的,这样的 base 上,那么大家比拼的就是怎么快速地去:
1. 怎么让 Agent 框架 跟模型互相自迭代提升。
2. 怎么让这个 Agent 架构去更多地耦合你现在所具备的资源,或说生态位 —— 比如操作系统、硬件、流量、社交,这些都算。
3. 怎么让这个 Agent 架构去理解和调度这些战略资源,最后合力起来整合好。
敢不敢用新方式
非常考验一个公司愿不愿意用一套新的方式来做这个事情 —— 得思考原来所有做的东西都是错的。是不是真的需要这么多人?这群人会不会都被砍掉?怎么让这群人去利用 Agent 来发挥更大的生产力价值?
为什么 MiMo 团队这么迅速
THREE KEYS — STRATEGIC BELIEF, AGILITY, PASSION
张小珺
我看到你发推说,好几个人都问过你为什么 MiMo 团队非常迅速。你给了几个关键结论 —— 核心架构与基础设施研究周期漫长所以需要看到回报的一年前就具备战略信念;训练后的敏捷性是另外一种能力;好奇心、热爱是你一以贯之地说的。能不能解释一下?
预训练 = 战略信念:太前置了,必须提前半年/一年想清楚下一代模型 for 什么准备的
后训练 = 敏捷性:跟 Agent 范式耦合迭代,无法前置规划,靠 infra/算法快速 debug 配合
好奇心/热爱:很多优秀 researcher 的特质,但管理这种特质比设计 Agent 系统还难
"为什么我说半年或一年?因为以前我认为是一年,现在我认为是半年 —— 因为 Agent 实在会加速这个事情。"
—— 罗福莉
预训练:战略前置半年
PRETRAIN AS A STRATEGIC BET
罗福莉
预训练因为它太前置了,所以更关键的事情是你需要有一种预测能力,或说战略定性 —— 你训这一代模型到底是 for 什么准备的,这个事儿一定要提前一年(现在我认为是半年)就想清楚。
否则它就不具备一个优势,可能就是一个很平庸的模型结构。一个很平庸的模型结构并不会带来非常平庸的模型效果,但是它一定会带来非常平庸的成本和效率的劣势。
战略层面的工作
预训练或 infra 应该前置去做了非常多的事情 —— 不仅是技术决策,更是对未来 6-12 个月行业方向的预判。
后训练:敏捷应对范式漂移
POST-TRAIN — AGILITY OVER PLAN
罗福莉
后训练因为它现在是在跟 Agent 去耦合迭代的,所以很多事情你没有办法前置规划得很清楚。这个时候就更考验我们怎么基于当下这个模型能力跟这套 Agent 范式产生的化学反应,你怎么去快速地设计新的 infra 架构。
CHAT 时代 INFRA
以推理引擎为核心
模型推很长、思考很久、给出一个答案 —— 这是 chat reasoning 时代 infra 架构的核心。
AGENT 时代 INFRA
以 Agent 为核心
不只关注模型推理本身,还要关注模型跟 Agent 的耦合 —— 一个更复杂的黑盒系统。
罗福莉
这套 infra 系统要有足够好的兼容性去兼容快速变化的框架。甚至如果它真的要涉及到自适应或迭代,这套 infra 系统得多困难。它是不是要具备足够好的容错特性?以及涉及到推理训练,还涉及到 GPU 跟 CPU 的综合管理。
这一块团队的敏捷性以及 infra 跟研究的配合是非常关键的事情。如果做得很好,那么就会体现在你会感觉到研究的速度会很快。
22 年 · ChatGPT:4K context 的智能涌现
THE GENESIS OF MODERN LLM ERA
张小珺
从 22 年底 ChatGPT 打响了大模型的战争,每一年的关键变化是什么?我们是怎么走到今天的?
罗福莉
我觉得 ChatGPT 是第一个。它发挥模型在一个我猜测应该就是一个 4K 的预训练场景里的模型的智能水平。其实预训练的长度,或者说最终这个 context 的长度确实很关键。
ChatGPT 只是让大家感受到 OK,我在一个 4K 的 context 里边预训练,训练完过后通过简单跟它对话 —— 这个对话轮数是一轮、两轮甚至多轮的情况下 —— 它在一个其实跟你的对话轮次高度相关的 context 里。一轮、两轮,你可以在后续去纠正前序的很多问题,模型也可以在后续去澄清自己前面犯的那些错误。
智能涌现的真正意义
ChatGPT 当时给人的冲击:你感觉它在对话上达到一个类人的智能水平。这些所有东西发生可能就是在一个很短的上下文里发生的。它只是在这个很短的上下文去把模型在超大规模预训练上训的那种 loss 降到最低的智能水平给激发出来了。
23 年 · 开源界追赶 ChatGPT
LLAMA OPENED THE DOOR
罗福莉
23 年的话,当有一个顶尖的 pretrain 模型做到了的时候,下一年就是 OK,开源界怎么去追上这个顶尖 pretrain 模型?所以 23 年你看就是 LLaMA、Qwen、DeepSeek,这些开源团队在准备首先借助 LLaMA 披露的怎么去做好大规模预训练的范式 —— 其实就是怎么去做好数据。
那会儿结构都是未知的。比如你哪怕训一个 7B 的结构,那么这个 transformer 结构的细节是怎么样的、参数多大,这些操盘那会儿完全是不透明的。但 LLaMA 告诉你 OK,你这么训能训成功,给你开了个头。
罗福莉
借助这个头,所以 Qwen OK,借助 LLaMA 的架构,做更好的预训练数据,做更大规模的预训练的 compute scaling,OK,Qwen 系列就起来了。
Qwen 做得很好的是,它 for 开发者生态做了全尺寸的模型训练,也训了一些多模态模型,也做得非常顶尖。这对社区是非常有利于激发,后面社区去做一些微调、还有像微调的框架,诞生了一些必要的先决条件。
Qwen vs DeepSeek:两条路径
SCALING vs INNOVATION
Qwen · 生态价值
纯 scaling
borrow LLaMA 架构 + 更好预训练数据 + 更大 compute scaling,for 开发者生态做全尺寸模型。
DeepSeek · 研究高度
创新基础上 scaling
看出 LLaMA 架构的问题(如 GQA 在大模型 + 受限 GPU 上的局限),提出 MoE for 高效训练、MLA for 更低推理成本。
罗福莉
没有什么我觉得正确或错误。它们两个一个是为了拿到最强的模型 —— 在有限算力资源下拿到最强的模型(毕竟 DeepSeek 的算力可能只有 Qwen 的非常少几分之一)。Qwen 想的是怎么去促进整个生态更好的发展。
所以两个都是对的。一个开源势力是在做研究上做到绝对的高度,一个开源势力是在真的生态和生态价值上做到一个高度。生态价值本身也是一个价值。如果没有这么多好的开源模型,那么非常多好的研究工作 —— 就像 DeepSeek R1 前续的很多研究 —— 其实都是在 Qwen 模型上去做的。它们彼此促进。
24 年 · o1 / R1 的奇袭
THE REASONING BREAKTHROUGH
罗福莉
24 年可能唯一发生的、在所有人意料之外的是 o1 跟 R1。其实 o1 跟 R1,我觉得它在 DeepSeek 内部也算是一次奇袭。它诞生得也非常的偶然。
它其实就是说,当预训练范式变到后训练的时候,对于组织和团队以及创新的要求是不一样的,那么整个团队应该怎么再去重组织的一个问题。我是在这个事情上得到的最大感知。
张小珺
是团队?按照传统的管理方式说:我现在要对后训练加大投入,好,算力我投了,那投人,我从外面挖一个人来,或者新组建一个团队 —— 这个是错误的方式吗?
罗福莉
就得看这个团队本身。他可能会觉得"后训练的人就做后训练"。我是觉得这样不是很有利于创新。最主要就是你能想到很多点上它会做得不好。
比如刚刚说的后训练的数据的多样性上,如果只是做后训练人天然就缺乏这个视野。还有就是其实最主要原因是这个很多团队对做预训练和后训练人的人物画像很刻板。反正我们不是按照这种很刻板的方式来招人组织的。这种刻板就天然导致做预训练人做不了后训练。
我也没太去了解这里边的深层原因。我只是当我去了解的时候,我就觉得:哎?怎么这么奇怪?哪有这种疑惑呢?我也不管为什么这么奇怪了,反正我就觉得那样不太对,然后我就不这么做就行了。
R1 没预料到的事:泛化能力
A LESSON THAT SHAPED FUTURE THINKING
罗福莉
我在 R1 的过程中是有非常大的体验的。但最终的那个结果我能预知到 —— 我走的时候,R1 已经做到一个 lite 的水平,然后 Code with Math 已经做到了非常接近于 o1 小的那一版的水平。
我已经预示到的是:Code with Math 上这个 reasoning 肯定能走通,而且即将可能 AIME 会从那会儿只有三四十分刷到我认为七八十分都非常有可能(但后边现在已经刷到一百分了)。
但我没有预设到的事情是:它其实是一个范式转变 —— reasoning 是可以通过 Code with Math 这个高泛化场景能放到通用以外。这个其实 o1 也没有走通,这个是我没有预料到的事情。
"也是因为这样的背景因素,导致我后面在看一些新东西的时候,哪怕它是 for 一个很垂的场景去做,像 Code,与其说是 Code 这种场景去做,我会先思考它是不是真的能泛化,是不是我把它想小了。这是我自己沉淀下来的一套 skill。"
—— 罗福莉
25 年 · 范式交错的关键年
DEEPER OR PIVOT — A CHOICE WITH CONSEQUENCES
罗福莉
25 年我觉得很有意思的一个事情是它处在一个很交错的一年。这个交错就是你可以选择:
路径 A · 在 Chat 范式下深耕 reasoning:继续把 SWE Bench、Live Code Bench 这些偏 code 的 benchmark —— 思考很久给出一个答案 —— 把 AIME 这些都刷到极致。
路径 B · 忽略这套范式,去想下一代:我可能在这套范式上能够做到六七十分就 OK 了。其实 AIME 做到 60 分就六七十分,就表示这个链路你已经走通了。
25 年中是分水岭
比较聪明的团队,25 年年中就会全面拥抱、去 for 新一代的架构去做事情。哪些跟上了、哪些没跟上,从模型的发布速度上就能看出来。
罗福莉
有些公司就没有跟上,还是在原来 Chat 的方式下继续深耕 —— 哪怕去做了一些 BrowseComp、SWE Bench、Terminal Bench 这些带所谓 Agent 的 benchmark,并且在这些 benchmark 提升得很深,但它并不代表这个模型真的能实际可用。
谁转得快 · 入场券是什么
MINIMAX FAST, BUT NEEDS 1T BASE
张小珺
你觉得 MiniMax 是在这个转变是比较快的?
罗福莉
我觉得它是比较快的,因为他们用一个 SBE 模型做到目前的这样的 Agent 能力,蛮惊艳的 —— 他们的后训练的敏捷程度是非常惊艳的。
张小珺
但是你说 Agent 这个第二幕,所谓的入场券是 1T 的基础模型,那 MiniMax 没有这么大的模型呀。
罗福莉
对,所以我觉得它并没有真正意义上已经对标 Claude Opus 4.6 了。我把入场定义为你要做到对标到 Claude Opus 4.6 的水平。
它需要 1T 的基座,与此同时需要敏捷性。MiniMax 已经具备后者了。所以现在中国公司还没有同时具备两者。看一看 DeepSeek 吧。
误解 Claude 的设计
甚至一度我认为 Claude 在过去很长一段时间做的很多 context engineering,我们都误以为它是因为模型结构不是很先进,然后为了成本而做的一些妥协的设计。但现在回过头来看,可能想得太局限了 —— Claude 的 context 管理 + scaffold 是为了配合模型发挥更强大的整体任务完成度。
RL Scaling 与 Code 泛化
PROGRAMMING AS THE ULTIMATE PARADIGM
张小珺
你什么时候意识到 coding 可以泛化?coding 泛化性那么强?
罗福莉
我觉得一开始就会,不管是在 pretraining 范式还是 post-training 范式。23 年,哪怕最开始我从量化回到大模型 side 的时候,就会对 coding 的泛化性抱有非常高的期待。
Code 戳中了每个范式的那个点:
• 适合 pretrain(数据量充足且密集)
• 适合 reasoning(编程问题需要思考)
• 适合 Agent(软件开发是长程任务)
你都可以在 code 上至少在研究上是自闭环的。并且在这个自闭环的路径上做出来的东西,很容易 scale 到其他更广领域的通用数据上。Code 本身就已经挺通用了,因为它本身就是自然语言。
张小珺
RL Scaling 现在探索到哪一步了?
罗福莉
暂时还不是很方便分享。我觉得等我们在 RL Scaling 上的算力跟预训练的算力达到同一个水位的时候,我觉得我们会给大家分享。
multi-agent:还节省成本,没放大上限
CURRENT MULTI-AGENT IS "A BIT FAKE"
罗福莉
我现在觉得现在市场上已经看到的 multi-agent 的工作都有点伪。我说这个伪是说,真的依赖于 multi-agent 能够实现更好的最终任务的完成率,在这个维度上我觉得是有点伪的。
但是它能提升效率、速度(这个任务完成之中的速度),以及它最终能够节省成本 —— 这个是确定的。但我没有看到说 multi-agent 一定最终能够实现一个更高上限的东西。但它会发生差距的部分,只是我目前还没看到。
张小珺
那会不会 multi-agent 协同的 RL 训练会做到这个事情?
2026 主旋律
2026 年的主要旋律是生产力的变化、高生产力场景的持续突破。所以我们要做更长程的任务、更强调多 Agent 之间的协作 —— 因为更复杂任务,不可能是单一 Agent 去做的。
模型即产品 · 创业公司机会
A 1-PERSON COMPANY ERA
张小珺
那你觉得模型公司边界在哪里?现在模型公司好像没有边界。
罗福莉
对,模型即产品,借助 Agent 它的产品力反而更强了。然后其他所有东西都很简单。模型借助这个 Agent 架构本身就变成一套新的产品了。
张小珺
站在 2026 年,你觉得对创业公司机会变多了吗?
罗福莉
我能看到的是,它对创业公司的团队规模要求会越来越小。可能不需要有一个非常大的公司,几个人甚至一个人都可以成为一个公司。大概只要你学会充分借助 Agent 来让它变成你的 —— 我之前老看到有人说"我一个人养很多个员工"。
我自己也去做过这种 multi-agent 的尝试。虽然当下来看是不那么现实的,或者说我觉得有点噱头,但是我觉得它很快会变成一个现实。
multi-agent 还差在哪
1. 模型不够便宜:你最终算的是它是不是比招一个人更便宜。烧 Claude Opus 一天花一千多 token,员工创造价值才 1000,不划算。
2. 架构不够成熟:multi-agent 各自怎么自进化、自迭代、互相沟通,都还有空间。已经有雏形,但还没看到放大上限。
为什么开源 · 芯片倒推
OPEN SOURCE AS AI ACCELERANT
张小珺
现在在你看来,一个公司为什么要选择开源、为什么要选择闭源?这是一个技术选择还是一个市场选择?
罗福莉
还是一个加速 AI的事情,我还是认为是这个目的。
我们假设 AI 会爆发、假设它会替代绝大部分的生产力,那么我们可以从这个上去倒推:你需要多少多少的芯片?这些芯片难道会被一家公司生产吗?难道会被一家公司购买吗?好像不是,它会分散。
如果它是分散的情况下,那么这些芯片的推理有可能是芯片的厂商,有可能是大模型的厂商,那么它用的模型难道是同一个吗?还是用的不一样的模型?我认为一定是不一样的。
所以从中倒推的话,开源一定是有利于推进这个事情的。因为它最终要大规模产生经济价值,必须要依赖于算力才能产生。所以开源至少对于很多环节 —— 框架、芯片、能源 —— 其实都是有促进作用。
开源 = 公益还是市场?
取决于每个公司在开源是结合自己的生态位。你有没有别人不可以短期内拿下的战略生态位?如果有,你就敢开源;如果没有,你认为模型就是你的生态位,你就不开源。
团队架构:无组无职级
A FLAT, INSTRUMENT-LIKE STRUCTURE
张小珺
你们现在是 100 人。这一百人里有不同组的划分吗?
罗福莉
没有。
因为很多人对两个方向都感兴趣。如果你组划分得非常清晰和固定的话,那么其实是在扼杀一部分人的创造力,或说扼杀他未来的成长空间。
第二个就是,做后训练现在一个很重要的范式变化是它需要具备 diversity 这个视野。很多做后训练的人是对着一个场景去做,他没有这种多样性的视野。但是做预训练的人,第一应该关注的事情是多样性 —— 因为他不能往这个模型里塞一小部分数据,他要塞多样性更好的数据。
所以做预训练的人去做后训练有非常大的优势 —— 他会天然在乎多样性。它就是一个很好的补充。
张小珺
没有组,也就没有 leader?没有职级?
罗福莉
有推动实际项目往前运作的人。但它是很模糊的 —— 比如我们要训 MiMo V2 Pro 的预训练或后训练,可能有实际推动的人,但这个人他并不对参与这个项目的人有绝对的控制权。
小米本身是有职级的,但本来我们这个团队的整个组织结构就是完全解耦的。
"
平权本身是有价值的,是有利于所有人去平等地贡献自己的创造力和智慧。任何层级一定从上都是在规范和约束 —— 而规范和约束本身我自己认为是压制创造力的。"
—— 罗福莉
招本科大二大三的人
UNDERGRADUATES NOT YET POLLUTED
罗福莉
看成博士的比例是 55%。包含在读博士。那些数字我觉得有点刻板。其实更多是代表一个人对做研究的热爱程度。如果他对做研究有热爱,他可能会选择至少读一个研究、读一个硕士或博士。
当然我们也招了非常多的本科生。本科生在对这种 Agent 这种新的范式的理解上,反而她的想象力会更高。所以我现在反而招人会慢慢倾斜到去招更多的前置的本科生 —— 我们会去招大二、大三的人。
罗福莉
因为他们的灵活性和适应程度都没有被污染,天然更接纳这个事情会产生巨大的价值。因为他的思想还没有被禁锢的感觉,所以他敢放心大胆地把自己那些想法交给这套家伙去验证,然后自己不断去探索这个边界。
什么叫 "checkpoint 上限"
我只在乎他的初始化 checkpoint 的上限高不高,不太在乎他目前已经被 supervised learning 过后那个点的状态高不高。这就像看一个模型 —— 重要的是基座潜力,而不是当前 fine-tune 的状态。
怎么创造环境:群体智能 + 多样性
ENVIRONMENT > EXPERIENCE
罗福莉
首先是构建这个环境的人,他要有同样的特质。比如说强调热爱、强调使命感,要有这些基础的特质。
其次因为这些特质都比较虚,所以另外一个就是把这些特质给真的放大的一个前提,是它的基础要好 —— 当他想做什么事情的时候、他有这个热爱的时候,他要能做成。基础是构建成它最后做不做得成的关键要素。
所以我们会选技术好的、好奇心强的、热爱去做事情的。当然还有一些可能越来越会有对多样性的更高要求 —— 因为如果招得太同质化,那么大家很容易去 miss 掉一些看起来是噪音、但实际上对研究非常有价值的信息。
沟通环境
我们上班那个每个群叽叽喳喳聊挺多的,大家都会疯狂地把自己的想法或关注到的信息分享出来。或者就在座位上 —— 反正吵得不行一天到晚。这样的沟通环境是非常好的。
罗福莉
外部的因素,比如激励的方式、组织 —— 不能太唯着某些非常确定和清晰的目标来做。激励方式上,钱是一个很重要的 baseline,但它不是唯一的 baseline。钱要给够,但是除了钱之外的其他东西也非常关键 —— 价值感、意义感,其实我觉得很多人远远更在乎这些东西。
1T 训练失败 · 沮丧瞬间
LOSS WENT BLACK IN MY DREAMS
张小珺
你们 1T 模型的训练有失败吗?还是一次就成功了?
罗福莉
就看怎么定义失败。比如训到 loss 直接飘了 —— 这种中途还是发生过那么几次。我现在都不叫几次了,反正两三次总是有的。loss 直接飞了,然后它训了几百步又回来了。
那你说这种情况你是应该停下来解决,还是应该继续往前训呢?我们认为应该要停下来解决这个问题。它这样跷上去,几百步以后又回,然后又这样下来 —— 我们认为应该停下解决。
"我经常晚上做梦说为什么 loss 又是 black,我乱点击乱点击。虽然我们没有明确的时间节点,但是你还是会崩溃嘛 —— 所以还是有很多很沮丧的瞬间。"
—— 罗福莉
张小珺
你会觉得你可能浪费了算力资源在做一些无用的实验?
post-train 团队的两类人
WHO ADAPTS WELL TO THE NEW PARADIGM
罗福莉
通常我们在后训练上看到的人就两类,会适应得非常好:
第一类 · 玩家
跟模型玩的人
不停测试不同模型边界,维护私有测试库的人。能 sense 到模型边界 → 找到可 scale 的方式补回来。
第二类 · RL infra
能容错的工程师
愿意接受"模糊"和"找不到原因的断"的工程师。pretrain infra 不容错,RL infra 必须容错。
罗福莉
特别是那些维护了自己很多私有的测试库的人,疯狂去测不同模型的边界、突然发现某个模型强了、然后分享出来自己这种独特体验的人 —— 我认为还是蛮适合进入这个方式的。
pretrain infra vs RL infra:哲学差异
PRECISION vs FAULT TOLERANCE
pretrain infra
不容错
出现 loss spike 就不允许,要解决到底。追求清晰答案和精确度。适合"有清晰解法"的工程师。
RL infra
必须容错
Agent 框架超时、莫名 bug、训推不一致 —— 必须容忍。GPU/CPU/存储综合调度,灵活敏捷。
罗福莉
做 RL infra 跟做 pretrain infra 有一个非常大的不同是,RL infra 会更在乎"模糊程度"。pretrain infra 你不能容错;但做 RL infra 你需要允许它容错。
容错就是你允许这个模型跟 Agent 在框架边训到一半断了 —— 但它断的原因有很多种,你根本找不到它是哪一种。有可能是 Agent 框架写了某个超时死的逻辑,有可能是这个任务需要很长的验证流程……你不知道因为什么原因这个就断掉了。
还有就是你的训练跟推理是不是在同一集群上训的 —— 训练和推理的不一致性,在原来 Code with Math 的 reasoning 范式里是不能容忍的,但现在你必须要容忍这个事情。
为什么不能交融
我们那边可能看起来还是 pretrain infra 跟 RL infra 是分开的,不太能够交融 —— 因为它们对复杂性和精确度要求差异很大。
11 点起 · 凌晨 4 点睡
WORK RHYTHM & MIND-SET
罗福莉
早上 11 点,晚上一二三四点。但这是我的状态,不代表我们团队其他人的状态。
是我自己本身的睡眠确实不需要特别多的睡眠。可能六个小时就完全足够了,五个小时也可以,四个小时也行 —— 四到六个小时是我一个 OK 的区间。所以我不需要那么多的睡眠。
然后现在做(事情)有点兴奋,所以也确实感觉睡太多有点浪费时间,有这种感觉。
罗福莉
我的脑子就是一个 standing winter 天性 —— 我忘得非常快。哪怕有压力,当下立马 —— 快的话一两个小时就过了,慢的话一天就过了,我睡一觉第二天一定就过了。
这也基于一个前提:你第二天会有一些新的有想象力、有上限的事情给它冲掉,立马就忘掉。如果它还是在那个 context,应该就忘不了。
发 paper 越少越好
A SHIFT IN HOW RESEARCH GETS PUBLISHED
罗福莉
我就希望不要发,那么我们团队里边有些人,我说不要发。
核心原因是我现在也不看学术会议的 paper。主要原因之一是,我觉得大部分的实验确实应该自己做,相信自己的实验结果比相信论文的实验结果会更好。但是我会看一下它的原始关注的问题和动机是什么,这个我会偶尔看一下。
总之我觉得在有没有在这种大规模的算力团队边做过研究的人,跟没做研究的人,他关注的问题我发现重叠度也差得蛮多的。所以我现在就越来越少看这些论文。
信息来源:自迭代
SOLITUDE AS A STRATEGY
罗福莉
来源自迭代,真真来源自迭代。我最近一年跟人沟通都很少,很少。
所以我都不知道我今天讲了这么多个小时的这些东西,它会不会过一段时间发现我应该会过一段时间会发现它是错的。但是我不知道当下会有多少人会觉得它是错的,或者说是不是有帮助或价值的。
罗福莉
没有交流过。要说有交流,就是自己跟自己交流,然后看跟团队别的其他人在做同样实验的人交流。
"现在只要拥有一个非常 efficient 的模型架构的厂商,并且它在做预训练阶段把 code 的能力做得非常好的,他有这样一个 model,参数上至少 1T 以上 —— 只要有这样一个入场券的人,基本上都处于同一水平线去做这个事情。当然我自己肯定走在前面了,我只说,
上一个时代的成功并不意味着下一个时代的领先。"
—— 罗福莉
心法:从量化到大模型的价值观
A PERSONAL COMPASS
罗福莉
以前我在做量化的时候,学到一个非常让我能够克服挑战的很重要的一句话是:总有方式去建模价格。当时这是给我力量支撑的一句话。做量化的时候,价格就是你的 reward —— 你要去预测准价格,你才能做好量化投资。
然后回到做大模型 side 的时候,你会发现那个 reward 是不那么清晰的,是变化的。这个时候,对我来说,我的心法就是:我应该做当下符合我价值观的事情。
"如果我们创造大模型的这一批人,没有这样一个内驱力,而是说我要做一个破坏的东西,那么我估计最后会非常危险。所以我现在的想法就是:
我每天做的事情是不是让这个世界变得更美好一点,或是让某部分人这个很 boring 的事情得到了被替代,然后他有更多时间去做更有价值的事情。"
—— 罗福莉
如果实现 AGI 之后
AGI 实现后比拼谁做研究速度更快 —— AI 也在做,人也在做。会不会人跟 AI 一块儿引导它做得更快?我始终觉得加速做科学研究这个事儿,是哪怕最终实现 AGI 了也有很多要做的事情。为什么一定要去跟它竞争,就让它做好了。
写在最后 · 下篇关键洞察
10 KEY TAKEAWAYS
- 胜负手 = 1T 基座 + Agent × 模型自迭代 + 调度战略生态位,三层缺一不可
- 预训练 = 战略前置半年(以前一年),Agent 加速了行业演变
- 后训练 = 敏捷 + 容错:模糊地带多,infra 必须为不确定性而设计
- 23-25 年三幕:LLaMA 开门 → o1/R1 奇袭 → Chat 与 Agent 范式交错
- 1T 入场券:MiniMax 敏捷快但缺基座;Kimi/MiMo/DeepSeek 才是同一水平线
- 团队 100 人 · 无组无职级:平权激发创造力,做预训练的人天然适合做后训练(多样性视野)
- 招大二大三:基础好 + 没被污染 = 想象力最高
- RL infra 必须容错:和 pretrain infra 哲学相反,所以两类工程师不能融合
- 不发 paper、不看 paper:自己做实验比看论文实验更可靠;信息来源 = 自迭代
- 心法:做当下符合价值观的事。reward 不清晰时,让世界更美好就是 reward
来源
张小珺商业访谈录 · 2026 年 4 月 24 日
"对罗福莉的 3.5 小时访谈:AI 范式已然巨变!OpenClaw、智能体框架、Agent 范式很吃 Post-train、卡的分配比例、巨变下的组织"
视频链接:
bilibili.com/BV1iVoVBgERD
本文涵盖 32 个术语注释。点击任何虚线术语查看详细解释。
全篇完结,谢谢观看 🌱