👆 上下滑动阅读 · 左右滑动翻页 · 键盘方向键同理
⚙️
罗福莉 3H 访谈(中)
MiMo V2 全家族与 1T 模型工程 📖 注释版
"我们其实悄无声息地完成了一次伏击"
—— 罗福莉 谈 MiMo V2 三连发:Pro / Omni / TTS
7:1
sliding window:full 比例
1:1
pretrain:posttrain 算力比
来源:张小珺商业访谈录 · 2026 年 4 月 24 日
3 小时 35 分钟原始访谈 · 分上中下三篇
📖 含 38 个术语注释
🔵 蓝色虚线 = 技术工具/术语
🟢 绿色虚线 = 产品/人物/平台
🟠 橙色虚线 = 概念/方法论
🟣 紫色虚线 = AI 模型
点击任何虚线术语查看详细解释 👇
国内 Agent 产品 vs Claude Code
A SOBER VIEW ON COPYCATS
张小珺
在 Claude Code 发了之后,国内很多团队都推出了类似的产品。你觉得他们有不同吗?比如说 Qwen 团队,你们团队,Kimi,MiniMax,他们有什么不一样?
罗福莉
我大概只试了一半。我觉得大同小异 —— 就是让 Claude Code 变成一个类 Chat 的形态,让你去感受到。
我还没有看到一个我自己觉得至少在改 Agent 框架本身 —— 我觉得做这种产品你是要去迭代框架本身的 —— 还没有看到一个比 Claude Code 开源社区进步更快的。因为 Claude Code 开源社区进步太快了。
所以我宁愿用最新的 Claude Code。
门槛
贴一层 Chat 皮肤是产品工作;真正的 Agent 框架进步是要敢去改 Claude Code / OpenClaw 内核的人才能做的事。罗福莉至今没看到一个国内项目跨过这道门槛。
Claude Code 被收购 · 但火种保留
DEEP COUPLING IS INEVITABLE
张小珺
Claude Code 不久之后就卖给了 OpenAI。你觉得是为什么?为什么这种非常不错的产品公司,最后还是并给了模型公司?这是不是说明没有模型做产品还是比较难呢?
罗福莉
我觉得这两个应该是一定要深度耦合的事情。
但很好的是 Claude Code 它开源的这个事儿没变,所以你还是可以在这个框架的基础上,大家一块儿去设计更好的 Agent 架构。这个事儿本身没变,只是说做这个事儿的一部分人的立场变了而已。
这个立场变了,maybe 是好事,有可能是坏事,但总之它不影响 Claude Code 本身开源的属性。我觉得至少那种群体演变的可能性和基因火种是保留了,那就挺好的。
为什么模型 + 产品必须深度耦合
Agent 不是被动调 API 的应用,而是要根据模型的长板短板做调度(用谁的视频理解?什么情况下用 Sonnet 节省成本?)。这种调度逻辑必须知道模型内部的边界 —— 这是模型公司比纯产品公司更适合做 Agent 的根本原因。
反过来 Claude Code 卖给 OpenAI 后,OpenAI 也
必须保持其开源属性,因为开源带来的群体智能改进速度是它最大的护城河,关闭等于自废。
悄无声息的伏击
PRO + OMNI + TTS — A SILENT AMBUSH
MiMo V2 PRO
认知与调度
1T 旗舰,做更复杂的理解和调度。Agent 框架的"大脑"。
MiMo V2 OMNI
感知
全模态:视频、音频、图像、文本。让 Agent 拥有"感官"。
MiMo V2 FLASH
高速 Chat
中量级 Agent 模型,TPS 100-150,成本极致。
MiMo V2 TTS
表达
声音输出:风格化、富情感的语音生成。
张小珺
这次发了三个新模型,Pro、Omni 和 TTS,并且你把它称之为一次悄无声息的伏击。为什么?
罗福莉
首先这三个模型在 Agent 场景下表现提升、能力提升这么快,或者说我们能这么快去追上,在复杂的 Agent 架构里边它表现这么稳定,是超我们预期的。不是我们计划得非常好的,而是我们一下大家觉醒了,然后就爆发了。
第二个就是,我们其实在年前去做这么多模态的时候,更多的角度是说如果真正产生智能,应该这个智能是全方位的。所以去做了对多模态的理解,以及最终你智能要产生价值,一定是要有交互的,所以要去做语音的生成。
但一年前做这些东西的时候,它还不是很明朗,你还是觉得在做一个单一的模型 —— 你在做一个动态理解模型,你在做一个语音生成模型,你没有觉得这些东西能够很好地被组织和编排到一起。
然后当我看到 Claude Code 的时候,我自己一下就想到了这样的画面:这些模型在各自什么样的环节发挥什么样的作用,能够怎么被有效编排,会产生一个什么样大的生态价值。一下我觉得就在我的脑子里全部给打通了。
为什么不合到一个模型?
COST × LATENCY × PRICE TRADE-OFFS
张小珺
那为什么后面有这三个模型,不是合到一个模型里去?
罗福莉
我觉得更多是出于对成本、速度和价格的考量。比如说语音生成,你没有必要去用一个 1T 的模型,它的延迟你也接受不了。比如说动态理解,它是不是值得一个更大的模型?这事儿都是要打个问号的。
我觉得 Agent 的革命本质上真的是生产力 —— 必须要足够去在意最终它端到端的完成率,以及成本效率。这是现在三个模型同步出现的原因。
编排逻辑
绝大部分任务类型其实可以只用语言模型来做。但因为现在完成整个任务的环节太长了,在某些环境下,如果意识到需要调用其他像人一样感官能力时,就去用另外一个更精巧的模型,才做得更好。
罗福莉
因为这三个模型是同一个生态训的,所以你能知道它们的 background。你能知道我知道的知识,它也是知道的。所以你能放心地把你觉得它能完成的任务交给它做,你不会担心它不知道你有的背景知识 —— 这个背景知识来自于预训练共享。
V2 Flash:for non-context 效率
DESIGNED FOR LONG-CONTEXT EFFICIENCY
张小珺
当时做 MiMo V2 Flash 的时候,你们的核心定位是什么?
罗福莉
其实 Flash 跟 Pro 基本上是同期训练的,模型结构非常近似。我们在设计 V2 系列的时候,模型架构本身有一个非常关键的目标:for long-context(长上下文)的效率来设计模型结构。
当时是有隐隐约约预感到 Agent 的时代,context 是非常重要的,或者说有预感到 context 会产生智能。但是我们没有预想到后边是 Claude Code 这种形式。但已经预感到 context 一定是非常重要的问题。
永恒命题
long-context 效果 + 推理效率(成本要够低、速度要够快)—— 这是这一代模型结构必须永恒追求的命题。因为成本够低、速度够快,你有可能可以把 1M 做到 10M,甚至几百 M。
罗福莉
其实现在所有的模型结构都能训到 1M,但它为啥不提供 1M 的推理?除了效果一般以外,更多是出于对成本的考量。1M 太贵了 —— 你可能到 100M 这个范围内,它非常贵,贵到你根本就不想用它。
所以我们当时围绕着这样的核心目标去设计的这个 hybrid 的结构。
为什么不选 MLA
MLA WAS DESIGNED FOR THE CHAT ERA
罗福莉
当时其实另外一个更主流的选择是用 MLA,包括同期跟我们开始训练的 GLM 跟 Kimi(K2 更早一些),他们都选择了 MLA,就是 DeepSeek 那一套。
MLA 对于 Chat 时代来说确实是一个非常优秀的模型结构,甚至对于长文来说也算是一个还不错的模型结构 —— 因为它大量减少了 KV cache,对长文来说你的 KV cache 很宝贵。
但是它有一个我认为是不那么适合 Agent 范式的最根本性的几个要点。
MLA 的根本性局限
MLA 在设计之初是为了在
当时的 H 系列芯片上达到很好的"访存与计算的比例"——既不浪费算力,又把访存的瓶颈打破。在这样的临界点设计出来的架构没有任何可发挥空间。
如果想加
MTP(推测编码加速),它会立刻被计算 bound 卡住,反而变慢。所以 GLM 和 Kimi 这一代 MLA 模型大概率
都没上 MTP,模型推理速度自然慢一些。
"你会觉得大家用 MiMo Flash、Pro 的感觉是'哇好快' —— 这就是这个结构,尤其是针对 long-context 的结构带来的优势。"
—— 罗福莉
hybrid attention:留有富余度
SIMPLICITY ENABLES POST-TRAINING SPACE
MLA · 极致优化
为 Chat 时代设计
访存计算极致平衡 / 短 post-train 期假设 / 单一推理卡假设 / 几乎没空间加 MTP
hybrid · 简洁结构
为 Agent 时代留空间
sliding window 减 KV cache / MTP 填回算力 / 长 post-train 期适应性 / 多卡多场景兼容
罗福莉
基本上是在这一代结构上实现了:通过
sliding window 去减少 KV cache,让它在长文上效果更好;同时通过 MTP 把 sliding window 节省的那个算力填上 —— 这样它在实际推理的时候能达到访存跟计算的很好平衡,同时又兼顾了 long-context 的成本以及推理速度。
所以虽然我们设计模型时没想那么多,但
基本上就完美得非常适合做 Agent:
- 对 Agent 来说长上下文非常关键
- 很小的 KV cache 也很关键,因为可以做更多的 prefix 缓存 —— 缓存命中非常有利于节省推理成本
- 速度是关键命题:一旦体验到更快的模型,就回不到慢的
MTP:意外发现的算力富余
A POST-HOC DISCOVERY THAT FIT PERFECTLY
罗福莉
MTP 的选择真的是蛮后延的。是我们这个模型已经快训到中后期了,我们开始为它去设计推理方案了。然后在自己那一代的推理卡上去实际设计推理的并行方案的时候,发现它的计算剩余实在太多太多了。
我们没有想到它会剩余这么多。那你就想,怎么把这些剩余的计算给它有效利用起来 —— 那么 MTP 太适合了。
但是我们在预训练阶段加上 MTP的原因是它确实能提升基座的能力,这个我们跟 DeepSeek 是一样的。推理时只有我们用 MTP 的原因是,我们的模型结构天然在计算上留有大量的富余 —— 你可以用推测编码把这些剩余的算力利用起来,恰好我们又训了 MTP,那个恰好用起来。其实是很自然的探索的延伸。
罗福莉
不会。MTP 是会被 verify 的 —— 只有你预测得准,我才会采纳你当前 token 的结果,所以它没有任何幻觉。
成本下降的本质
MTP 命中率高时,模型在更短时间内吐出更多 token,把 GPU 利用率打得更高 —— 它本质上是在降低单 token 的生成成本。
模型结构设计的两种范式
TWO PHILOSOPHIES IN POST-AGENT WORLD
罗福莉
大家太相信 MLA 了。它确实太巧妙了,把它能做到的全做到极致了。在 25 年上半年训基座模型,MLA 确实是不错选择 —— 尤其是当没看到 long-context 价值和 Agent 范式的时候。
现在模型结构设计大概有两个趋势:
范式 A · 预先想清楚
极致定制
在预训练阶段就想明白后边推理的场景:什么卡上推、多长上下文、并行方式 —— 然后设计针对这个场景的完美结构(MLA 是典型)。
范式 B · 留富余度
简洁兼容
结构更简洁,留更多富余度,给后训练在不同场景的适应留空间(hybrid attention + MTP)。
为什么"预先想清楚"在 Agent 时代失效
范式 A 建立在两个前提之上:
① post-train 不重要(一个月就做完);
② 推理卡永远是那一两个。但 Agent 时代 post-train 周期在拉长 —— 顶尖团队 pretrain:posttrain 已经 1:1 —— 你前半年定的那些假设,半年后可能全部失效("以前 128K 就够了,现在要 1M")。
所以"留富余度"反而成为更稳的选择。
1T 模型训练的 loss spike
SPIKE-DRIVEN DEBUGGING
罗福莉
全方位的挑战。数据上反而不是最大的挑战 —— 更大模型对脏数据容忍程度更高(不确定,但我们是同一批数据训的)。
更主要的挑战是:你在训练中遇到问题的时候,第一步是发现问题。很多团队会把 loss spike 当作正常事,但我们会尽量让它没有 loss spike。我们认为有 loss spike 肯定会导致某一步的更新特别不稳定 —— 某些数值异常值很大,就直接把某些参数或某些 expert 给打死。
什么叫 expert 被打死
参数更新过后,后面再也不会有 token 送到那个 expert 上。MoE 专家负载会失衡 —— 一会儿一批头打到这个 expert,一会儿又一批头打到另一个,非常危险。
罗福莉
中间需要很严密的监控系统,洞察模型参数内部到底发生了什么变化:
• 看 expert 的负载怎么样
• 看每一层参数的输入和输出
• 激活值有没有变得很异常
这些是 loss spike 发生过后应该看的事情,但不是所有团队都会看这么细。可能好多人就不把它当问题。
解决问题的多层路径
FROM SURFACE SYMPTOM TO ROOT CAUSE
罗福莉
发现问题过后,再去想是什么样的原因引起的:
1. 结构原因:系数比太高了,导致 full 层输出和 sliding window 层的输出在数值上差异太大,这种很大的差异就会导致数值不稳定。
2. infra bug:哪个通信的某个算子写错了。
3. norm 问题:最后发现某个 norm 上有点问题。
实在无奈的解决方案是发现某层数值太大,要么 clip 掉,要么通过 norm 给它压下去。比如借鉴当 logit 太大时直接 clip,让训练更好进行下去 —— 进行到稳态时再放开。
太多这种临时的事 —— 你要发现问题、解决问题、倒推可能导致问题的分析路径。
"甚至有时候你怀疑到是不是哪个卡有问题。最后如果发现所有卡都排查了没有问题,你会怀疑是不是今天的太阳黑子爆发了。你会始终怀疑到一些很玄学的问题上,你要从很表层查到很底层的因素。"
—— 罗福莉
没有 deadline 的奢侈
STOPPING TWO WEEKS TO INVESTIGATE
罗福莉
我们没有 deadline。模型训好了我们再发。
罗福莉
我们认为应该停下来解决这个问题。我们有时候 loss 直接飘了 —— 跷上去几百步以后又回来,又这样下来,我们认为应该停下来解决,所以会停下来去解决它,让它 loss 更平稳地渡过。
张小珺
一般会停下来几天?最长的时候有两周?停两周焦虑吗?
罗福莉
不焦虑,因为我们又没有什么目标。当然了,你那么多卡,你天天做一堆实验。今天我想着这么去排查都感觉是这个原因,那快改,改了跑,跑起来第二天看,又这样子。从晚上 —— 反正晚上都睡不好。
我经常晚上做梦说为什么 loss 又是 black,我乱点击乱点击。虽然我们没有明确的时间节点,但是你还是会崩溃嘛,所以还是有很多很沮丧的瞬间。
为什么没有 deadline 是个奢侈
几千张卡停一天就是一两百万、两三百万的事。如果是目标驱动的团队,停个两三周去排一个还不知道是不是问题的问题,几乎不可能被接受。
但
小米 MiMo 是以"创业方式运作的大公司项目":没有明确发布日期、雷军支持、团队同意 —— 所以可以为了"我们认为这是个问题"而停。这是结构性优势,也是基因火种。
几千卡训练 + 3-5 倍研究卡
CARDS ARE THE NEW BOTTLENECK
罗福莉
几千卡,反正训这个模型是几千卡。但实际上我们要投入大量的卡去做研究,所以实际上的研究的卡会是实际训练卡的几倍。
训练 MiMo Pro 或 Flash,其实各自训练可能几千卡就够了。但实际上你去投入做模型研究的卡会是这个卡的很多倍 —— 我觉得 3 到 5 倍是更好的区间。不管是前期的结构研究,还是中后期 post-train 的算法研究。
瓶颈在卡
卡的数量反而变成非常重要的瓶颈。因为 idea 的诞生和动手 —— 你把它代码写出来太快了。然后你现在卡在什么呢?卡在卡上。GPU 的效率就在那儿,所以你为了去训这个 idea 去跑实验,要并行起很多实验。
罗福莉
这只是 for 训练。for 推理的话,卡更是更为关键的因素 —— 推理卡的需求量远比训练高很多。
1M 上下文:训练数据从哪来?
DENSE LONG-CONTEXT DATA IS RARE
张小珺
关于 1M 的上下文窗口,在做的时候是否有失意的情况?
罗福莉
1M 是要训的,长场景还是要训练的。问题的关键是:你从哪真的去搞到在 1M 上下文窗口里边有那么多很稠密的监督信号?很难找到这样的数据,或者说这样数据的构造成本非常高。
站到终局思维来看:只要你有比如 1T 的 token 量,而且都是 1M 的真正的长上下文,那么模型 1M 你肯定能训上去 —— loss 一直在降低,它就是在压缩,那么它就一定能训上去。
但问题的关键是你很难去构造出来真正 1T·1M 的 context,要么成本太高,要么很难找到这样的场景。所以这个 long-context 的效果是缓慢在提升的。
为什么真实训练不会塞满 1M
TPS 哪怕做到 80-100,跑完 1M 的 trajectory 也要 1-2 分钟。RL 训练每步要等推理 rollout 完成 —— 1M 任务的训练效率太低。
现实做法是:
预训练阶段在 1M 数据上让基座具备长上下文建模的"底子",后训练阶段用相对短的任务激活它,长上下文能力自然就稳。
V2 Pro 三个关键决策
THREE PILLARS OF MIMO V2 PRO
hybrid attention 7:1 · 比 Flash 的 5:1 更极致;同样 full 层数下,更多 sliding window,更省 KV cache
1M 长上下文 · 预训练就训了 1M,后续任务激活;这是 Agent 时代的硬要求
MTP 推理加速 · 预训练阶段加 MTP 提升基座;推理时用 MTP 把富余算力变成速度
罗福莉
我们追求一个更极致的系数比。最主要的原因还是希望在更大的架构里边去做更高效的 long-context。因为更大架构,如果你的 full attention 的层数变多了 —— 你的总参变多,full attention 的层数也随之变多 —— 那么其实在常规情况下,它同样会变得非常崩溃。
但如果你扩大参数量的时候,full attention 的层数没有变,那么有可能 Pro 跟 Flash 两代模型效率是差不多的,但是 Pro 的智能水平是提升了的。所以我们希望在常规效率相当的情况下,希望模型在 scaling 它的水平上限 —— 我们是比较去控制住这个效率本身的。
实验结论
更大模型可以做更高的稀疏比例(attention sparsity)。可能层数比系数比更重要 —— 在更大的模型上,保证 full attention 总数不变,增加 sliding window 层就可以了。小模型太稀疏会 drop 严重,大模型反而能吃。
多模态统一:NLP 人的执念
DISCRETE EVERYTHING — THE NTP DREAM
罗福莉
我们还是想尽量把它统一到 NTP 范式下,所以至少在音频的建模上,我们想要把它离散化,变成跟文本一样的离散的 token ID。
所以我们在音频上是在这个事情上投入了比较多的研究算力,说怎么去进行离散的音频建模。而且我们希望这个离散音频的建模尽量做到无损的离散化。
因为大家不太相信,说你怎么把一些连续的输入变成离散,最后还能重建出来。这个事儿其实需要非常多对 encoder 更精细的处理 —— 比如我们需要一些多层的 RVQ 来保证它的离散表征是一个非常大的、像 dense 一样的高维空间。然后我们需要更多的预训练来去让它开始涌现。
如果你基于连续的特征做,可能很快就涌现了;但基于离散特征做,你会更难去建模,它涌现出现的时间段会更晚。
罗福莉
我们还蛮另类的。我们的技术架构应该是非常另类的。
我知道国外的御三家也好、国内像豆包也做得蛮好,那都是跟我们完全不一样的架构。
罗福莉
就是做 NLP 的人执念吧。我们做音频的人全是做 NLP 的人,所以有这个执念,就觉得相信它,然后就去做了。
最近的反思 · infra 重写不再昂贵
A NEW PERSPECTIVE FROM AGENT ERA
罗福莉
我最开始是认为,如果我们把它统一都离散化,那么我们可以用一套基础架构去解决这个问题 —— 同一套预训练基础架构、同一套做 RL 的基础架构,很优雅地把所有范式都统一了。它太简洁了。
但是我现在发现一个问题:当我们有 Claude Code 和顶尖模型过后,这些架构 —— 比如重新写一套 RL infra、重新写一套推理 infra —— 我们最近就已经完全在从头去写一套新的架构。
"我原来以为写这些架构很耗费人力、耗费时间,但是现在看起来在 Agent 的支持下,写这些架构的时间被大量缩短。那其实就没有必要为了架构的优雅性去做很多为了统一而统一的研究。这就是最近的变化。"
—— 罗福莉
执念松动
现在重新捏一套 RL 框架"几个人两三周"就能做。那好,为什么要因为后训练 infra 架构的统一性,去牺牲让前面模型结构牺牲这么大?
Omni · 全模态:hybrid sliding window ViT
FIRST AGENT MODEL WITH AUDIO-VIDEO JOINT UNDERSTANDING
罗福莉
就是因为它确实支持视频、音频、图片、文本所有模态。也有一些 Agent 模型是不支持音视频联合理解的。MiMo V2 Omni 应该是第一个支持音视频联合理解,并且 Agent 能力做到跟 language model 水平差不多的模型。
罗福莉
我们 Omni 整个 ViT 上只是做了一个 —— 它还是一个 ViT,只是我们把它变得更高效了,它变成了一个 hybrid 的 sliding window 的 ViT。但是表征本身并没有做太多变化,它还是一个连续的表征。
张小珺
为什么没有披露 Omni 的总参数量和激活参数量?
罗福莉
留点想象空间。我们相信这个参数量可能能做到更接近于 Pro 的智能水平。虽然大家知道它比 Pro 小一些。但是我们相信它们俩能够互相迭代 —— 你提升我,我提升你,我们希望这么做。
多模态能否产生智能?
THE QUESTION I'M LESS SURE ABOUT NOW
张小珺
是不是有迹象能表明这种全模态/多模态的理解力能够产生智能?
罗福莉
两个月前我很相信。最近呢,在训 Omni 的整个过程当中,稍微有点被质疑这个事情。
但是我们后面还是发现了一些很好的迹象 —— 比如 MiMo V2 Omni 比 Pro 小,但大家实际去用时会发现,Omni 对世界的感知和领悟力上、最终反映出来它的情商以及知识储备上,会比更大的模型更强。因为它是原生多模态训练的。
猜测可能是因为我们在两个方向上的 scale —— 纯语言上 scale 的算力和原生多模态上 scale 的算力还不那么多。可能导致我们没有看到原生多模态有那么强的智能上的提升。但你能感受到,比如很多世界知识因为它训过视频所以知道得更多;它对很多很细微东西的感知力会更强。
benchmark 看不到
但这些都是很虚的,我们自己实际去测体感。在任何 benchmark 上是没有任何 —— 纹丝不动,可以这么说。
罗福莉
当然有可能。所以现在也不完全说"OK,你要去理解多模态能力是最终实现 AGI 路径的必要路径之一",我是不想去下这样的结论的 —— 因为每个人对 AGI 的定义不一样。
尤其在 Agent 这样一个可以把多个模型的能力非常优雅地编排到一起的场景下,我觉得我们根本没必要去强调多模态是不是促进智能这个事情。这个问题本身不关键。
TTS · 优雅架构 + 大规模训练 = 强泛化
DOING THE EASY THING THE HARD WAY
罗福莉
我觉得 TTS 我们做的动机是想用我们自己认为一套优雅的架构,去做一个大家都用一个传统的架构做起来很容易的事情。
但是我们做完过后发现:把它追求一个离散化、统一化,在上千小时数据集上进行训练后,发现这个模型的泛化力非常好。
大家能看到它在给它输入很多风格化、多样的风格化标签时,它会更智能 —— 它会通过推测你字表面的含义,赋予它的情感和音律。
惊艳的泛化
我们只是简单做了几个特定场景的风格数据 SFT 和 RL(很刻板的几个:让它快、慢、高兴、悲伤)—— 但发现你把那个 style 标签换成非常复杂的自然语言描述,它也能遵循。这是它纯泛化出去的。
罗福莉
这个 TTS 模型上限非常高,但下限我们现在在慢慢弥补 —— 它有时候会不太稳定。所以现在只是限时免费 —— 开放出 API 大家玩一玩,但不确保它真的能投入生产即可用。但很快我们会让它变得生产即可用。
AGI 之路:人 vs AI 的演化
DIFFERENT ENVIRONMENTS, DIFFERENT EVOLUTION
张小珺
你之前在一个发布会上画过一个通往 AGI 之路的图。你对比了人类的智能 —— 它是一个生物演化的路径,是一个正三角;现在 AI 的发展是一个倒三角。你觉得怎么能拼接出这条 AGI 之路?
罗福莉
我觉得现在大模型的演变逻辑确实不能跟人完全一样。原因是环境不一样 —— 人演变的环境跟模型演变的环境是不一样的。
人演变的时候,是随着自然界的变化、为了生存来进行演变的。但是大模型,它好像一开始上来不是为了生存。
罗福莉
我不知道现在大模型有没有自己的价值观。但我们要硬给它赋予价值观,就是让它替代一部分的人。但它好像不替代它也不会死掉吧。它没有这种生存的危机。
所以大模型当没有生存危机的时候,它反而会进化得更自由,更散漫,更有创造力,更不那么受约束。以及它现在的基础条件太好了:那么多算力可以用、有人类宝贵的知识起点作为基础起点、还有那么多人帮它提升。所以两个环境完全不一样,进化路径就不太一样。
AGI 时间表:两年内
TIMELINE REVISED — DOWN FROM 2+ YEARS
张小珺
你之前说 Flash 是通往 AGI 第一步,现在到第几步了?
两年内
我感觉两年应该能实现 AGI。两年实现过后,大部分人确实会失去掉自己 —— 会抛弃掉自己原来的工作模式。然后生活模式被颠覆是更之后的,因为生活并不产生生产力价值。
罗福莉
我觉得至少两年以上 —— 那会儿我确实这么认为的。
"你要真感受到生活被颠覆掉,可能就需要更多是机器人。但机器人本身的演变瓶颈,大概率可能是在硬件 —— 在电池本身上,在灵巧手的灵活程度上。这些都会比 AGI 本身在语言空间的进化要慢。"
—— 罗福莉
AGI 的真正标志 · AI 训另一个 AI
THE MOMENT OF SELF-IMPROVEMENT
张小珺
你不喜欢 AGI 这个词,也没有一个明确的定义,但是我觉得这里它的时间线被提前 —— 这里面很关键的变量就是能 AI 训 AI 了对不对?
罗福莉
这确实是一个标志节点 —— 因为它可以自提升。它可以达到最巅峰那一群人的智能,因为它可以自己训练自己,它就能去创造新的研究 —— 它有做新的研究的能力。这确实是它自迭代的一个巅峰、自学习自迭代的一个巅峰。
"我之前认为我们自己做的工作已经是足够有创造力,足够不会被 scale 化、不会被 workflow 化的。但我现在发现它竟然也能。也就是说,可能过一段时间,它真的能训出一个跟我们能训出来的一样的模型。那它可不可以训出更强的模型呢?然后它就自己左脚踩右脚提升能力。"
—— 罗福莉
罗福莉
它先吸收所有人的智能,然后再靠自己产生更强的智能。我觉得这个事肯定是就在这一两年发生的事情。
中美代差 · 两三个月
THE GAP HAS NARROWED FROM 3 YEARS TO MONTHS
张小珺
你觉得你们新一代的这个模型,尤其是 Pro,和中国的这一代模型,与美国差代差还有多久?
罗福莉
我觉得在国内其实目前已经具备 1T 以上基座的公司有好几家。Kimi、MiMo,还有一些。
这些模型厂商基本上是在当下距离国外顶尖现在打 Claude Opus 4.6 来说,我认为如果反应速度足够快的话,应该只有两三个月的代差 —— 不是说两三个月过后能追上两三个月过后的 Claude,而是说能追上当代的 Claude。我认为这个概率是蛮高的。
那么在这个情况下,这两三个月大家怎么去发生变化,其实是考验这个团队的整体研究水平、技术的敏捷程度,以及怎么去拥抱新范式来做研究。
三层会同步加速
① Agent 框架(OpenClaw 改进 + 自学习自迭代框架的产生)
② 模型能力(基座飞升 + 范式适应)
③ 推理需求(Agent 框架越强、模型进步越快、成本极致 → 推理需求几倍到十倍空间)—— 推理芯片需求爆发
写在最后 · 中篇关键洞察
8 KEY TAKEAWAYS
- 三模型协作 = 认知 × 感知 × 表达:Pro 调度 / Omni 感知 / TTS 输出 / Flash 高速 Chat —— 同生态预训练,背景知识互通
- hybrid attention 比 MLA 更适合 Agent 时代:MLA 是 Chat 时代的访存计算极致;hybrid 留富余度让 MTP 填回算力
- MTP 是意外礼物:训完 Pro 才发现计算富余太多;推测编码无幻觉(必 verify),是降低单 token 成本的关键
- 1T 训练 = 排查艺术:监控 expert 负载、激活值、norm 一切异常;从结构、infra、太阳黑子查到底
- 没有 deadline 的奢侈:可以停两周排查 loss spike,而不是带 spike 训过去 —— 这是组织结构性的优势
- 卡是新瓶颈:训练几千卡 + 研究 3-5 倍卡;推理卡需求远比训练高很多
- 多模态统一 → 反思:执念是离散化所有模态;现在意识到 infra 重写不再昂贵,无需牺牲模型结构换取统一性
- AGI 时间表两年内:触发器是 AI 训 AI;中美代差从 3 年缩到 两三个月,比拼敏捷性
来源
张小珺商业访谈录 · 2026 年 4 月 24 日
"对罗福莉的 3.5 小时访谈:AI 范式已然巨变!OpenClaw、智能体框架、Agent 范式很吃 Post-train、卡的分配比例、巨变下的组织"
视频链接:
bilibili.com/BV1iVoVBgERD
本文涵盖 38 个术语注释。点击任何虚线术语查看详细解释。
下篇见 👋