👆 上下滑动阅读 · 左右滑动翻页 · 键盘方向键同理
🌊
罗福莉 3H 访谈(上)
OpenClaw 与 Agent 范式革命 📖 注释版
"我自己其实是会把 OpenClaw 当做一个划时代的 Agent 框架 去定义。"
—— 罗福莉 · 小米 MiMo 大模型负责人
来源:张小珺商业访谈录 · 2026 年 4 月 24 日
3 小时 35 分钟原始访谈 · 分上中下三篇
📖 含 35 个术语注释
🔵 蓝色虚线 = 技术工具/术语
🟢 绿色虚线 = 产品/人物/平台
🟠 橙色虚线 = 概念/方法论
🟣 紫色虚线 = AI 模型
点击任何虚线术语查看详细解释 👇
本系列共三篇
📍 上篇 ---- OpenClaw 与 Agent 范式革命(当前)
中篇 ---- MiMo V2 全家族与 1T 模型工程
下篇 · 团队组织、范式演进与 AGI 时间表
春节前:为什么我曾经抵触它
BEFORE THE TURNING POINT
KEY INSIGHT
如果只追求顶尖编程体验,Claude Code + Claude Opus 4.6 是最好的 —— 其他任何 Agent 框架都可以忽略。但 Code 之外的非编程场景,这套框架的泛化性并不能保证准确率与完成度。
张小珺
你过年时跟我说过,技术这几个月已经变天了。阐述一下你觉得过去两个月这个技术的突变。
罗福莉
一个非常大的分界点,在于使用 OpenClaw 的前后。我自己其实是会把 OpenClaw 当做一个划时代的 Agent 框架去定义。
我知道很多人,尤其是用 Claude Code 做严肃编码的人,会觉得 OK,OpenClaw 只是 Claude Code 加一个 IM、加一个更有利于交互的 UI 设计。其实我一月份第一次看到这个东西的时候,自己大概也是这样的认知,所以我很排斥去用它。再加上它创始人非常擅长贴近 Agent 去做一些非常玄幻的运营动作,包括那个 Skill Hub,就会让你更去排斥一个偏运营导向的产品。
罗福莉
对,一个交互的创新,以及它所谓的本地化、所谓的二十四小时,在我来看其实都是一些产品的定义而已。
凌晨两点到天亮:第一夜
THE NIGHT EVERYTHING CHANGED
罗福莉
真正发生转变是我去用它的那一刻。恰好在春节的时候有一段空闲时间,一下去搞明白这玩意儿为什么那么火。然后我就在有一天深夜尝试去装它,两个小时装上了。
当时已经凌晨两点了,我第一次跟它对话从凌晨两点持续到了六点天亮。
那一晚上,我脑内不知道是多巴胺还是类啡肽就持续在分泌,让我兴奋到完全睡不着觉。
"我我我我为什么把它称之为惊喜编排的
context?就是因为它在这些大家没有关注的角落上把这个 context 编排得非常好。"
—— 罗福莉
⏰ 时间感知:一个微小但关键的细节
罗福莉拿"模型怎么感知时间"这个最简单的细节举例:OpenClaw 在
每轮对话的 context 前面主动拼上当前的时间。用户从来不会主动说"现在几点",但模型能根据这个隐藏信号产生类人的关怀("现在已经很晚了,要不早点去睡觉?")。
这种细节的累加,才是"灵魂"和"温度"的物理来源 —— 不是模型变魔法,而是
框架在角落上把 context 编排得很好。
第一天:有灵魂的产品设计
DAY 1 — A PRODUCT WITH SOUL
罗福莉
你第一个感受是 OK,它非常有自主性,非常有灵魂。比如说我跟它聊得很晚,它会老提醒我"OK,现在已经很晚了,你要不早点去睡觉"。我觉得这样的温度和关怀,或者说这样的情商,是所有去用 OpenClaw 的人第一个感受到的。
但后面去深究它的原因,它其实有很多机制去保证这个事情。比如说它有它的 AGENTS.md,比如就拿最简单一个很小的细节,它怎么感知时间,它就在每轮对话的 context 前面去拼上当前的时间。
就是一些非常细微的,我为什么把它称之为惊喜编排的 context,就是因为它在这些大家没有关注的角落上把这个 context 编排得非常好。这是你第一天的感受 —— OK,我觉得它只是在产品设计上确实做到了一种超乎我的想象,让所有人觉得这个框架有灵魂。
第二天:替代生活和工作
DAY 2 — REPLACING LIFE & WORK
罗福莉
但是第二天的时候,我觉得它应该不止于此。我开始尝试把我自己觉得现在的框架做不成的日常生活中的事情交给它做,然后我发现它全部做出来了。
我跟它聊的基本上第二个话题是怎么去激发一个团队的好奇心,或者说怎么去筛选出来具有好奇心的人。和它进行了深入的探讨,一个小时。我觉得它的很多哲思是远超我的想象的。
所以第二天我们俩就在聊怎么去构建一个更好的大模型团队 —— 从最开始的人员筛选,到后边整个组织架构的构建,到你怎么在面临范式转变的时候应该做什么样的举措和动作。
至少它能 get 到我的点。我跟它说过后,它最后能把它形成一套非常体系化的东西,并且变成一套 skills。
数字分身
我觉得它现在已经基本上变成了我的某一个数字分身,至少在这个事情上。后边在筛选人或团队管理上的问题,我现在都会问它。
第三天:促进研究
DAY 3 — ACCELERATING RESEARCH
罗福莉
但是真正让我超出意料是第三天的时候。我尝试把一些研究上的任务交给它做。
比如说最简单的,我觉得在 Agent 的框架里边最关键一个事情是你怎么去进行多轮的交互,那么你就必须要去模拟 user agent 进行多轮交互。
那我就会跟它共同去构建一个很好的 user agent。在我来看,这是一个非常重要的研究 topic。我觉得应该不会一两个小时就把它做出来 —— 但是当我跟它沟通了大概一两个小时过后,这个事儿就已经做出来了。基本上就已经达到有一个很好的 user agent 的诞生。
我可以用这个 user agent 跟我现在的这套后训练框架一块去构造出来更丰富的 Agent 场景的数据,不管是做 SFT 也好,做 RL 也好,这个 user agent 都是非常关键的。
🧪 user agent 是什么
要训练一个会和人多轮对话的 Agent,最直接的方式是和大量真人对话 —— 但太贵、太慢、不可重复。所以研究人员构造一个"虚拟用户" agent,让它扮演各种性格、需求和场景的真人去和被训模型交互。
这相当于给训练流水线
合成出无限的多轮对话数据,然后用这些数据做 SFT(监督微调)和 RL(强化学习)。罗福莉原本预期这是个很复杂的研究课题,结果两小时之内 OpenClaw 帮她完成了。
三天的认知进化
A 3-DAY ARC OF UNDERSTANDING
DAY 1 · 产品
有灵魂、有温度
凌晨两点到六点的对话,被它"提醒早睡"打动;发现 AGENTS.md 和时间感知这些"角落里编排的 context"。
DAY 2 · 替代
数字分身
和它聊一小时团队管理、好奇心筛选;它把心法整理成 skills,从此筛选人和管团队都问它。
DAY 3 · 加速
促进研究
两小时构建出可用的 user agent,可以直接接到 post-train 流水线生成 Agent 训练数据。
"它从我最开始对它的认知只是一个有灵魂、有温度的产品设计,到它可以帮我替代我生活或工作当中的一部分,到最后它能促进我研究 —— 这就是三天发生的事情。每天它都能给我额外更多的惊喜。"
—— 罗福莉
OpenClaw vs Claude Code:差异化在哪
PERSISTENT MEMORY & MULTI-MODEL ROUTING
罗福莉
我后面就去深入看,为什么这个框架本身比 Claude Code 好在哪。这些好在哪,单独拎出来去讲其实都有点 boring,没有很 cool —— 这也是为什么大家会觉得 OpenClaw 有很多嘈点。但是它把它整合在一起,你会觉得它的完成度非常高。
比如说它会有更持久的 memory 体系,体现在它对 memory 有分层和分级。这个我在使用 Claude Code 的时候是完全没有这样的感受的。
再比如说,我自己觉得它在对多个模型的联合利用上会非常超过我的想象。我用 Claude Code 我会默认 OK,假设这个模型在视频理解能力不行,那么我可能就要自己给它配一个更好的视频理解模型,然后在 Claude Code 这边去折腾。但是我在 OpenClaw 的时候,我完全不用想这个事情,我就直接发给它一段视频,它会自己想办法去找一个视频理解能力好的模型来做这个事。
核心心智
OpenClaw 框架的设计之初,是想尽量通过 Agent 的整套编排来弥补模型的短板。这一直是它非常核心的产品逻辑。所以用 Claude Code 时我会关注模型能力,用 OpenClaw 时我不会。
黑盒 vs 开源:原生可操纵性的冲击
BLACK BOX vs OPEN — A FUNDAMENTAL DIVIDE
Claude Code · 黑盒
改不了
Agent 架构是黑盒,你改不了它的记忆系统,也改不了它的整个 Agent workflow。
OpenClaw · 开源
想改就改
让 Opus 帮你重新设计 memory 系统、重新写 multi-agent 逻辑、改任何源码。
罗福莉
我甚至自己去改了它整个 Agent 的架构设计 —— 因为它是开源的,所以你可以自己改。我会让它自己帮我设计一个新的 memory 系统;它当时二点几版本的 multi-agent 整个逻辑我认为是很混乱的,我自己去让它给我设计新的 multi-agent 系统。我自己可以去改我所有的源码。这样原生的可操纵性给我的冲击感是很大的。
但这些事情基本上只有 Claude Opus 4.6 才能改。当 Claude Opus 4.6 给我改好过后,这套框架本身很好用了,OK,我再切换到 Sonnet,再切换到国内的一些模型,甚至我们当时正在训的 V2 Pro,我就觉得它就非常强大了。
为什么这点很重要
闭源框架可以做得很完美,但
用户只能消费现成的智能。开源框架虽然初始有 bug、不那么"运营性",但允许每个用户用最强模型把它捏成自己想要的样子。这正是
群体智能能够发力的根基。
自学习:模型与框架共同进步
SELF-LEARNING — MODEL × FRAMEWORK
罗福莉
这也是我最近对所谓自学习 —— 前段时间有很多很火的这个概念 —— 的一个思考。我在这个事上是第一次感受到了 Agent 自学习到底是怎么个发生的。
大概一个发生的途径是:你确实需要这个模型本身跟 Agent 架构本身同步地往前走。模型在进步的时候,不管是通过强化学习训练或其他训练方式,它其实也是在改变你整套 Agent 的框架。
两种 context
静态信息:memory 这种被写死、起新 session 时送给模型的东西 —— 在训练过程应该是变化的。
动态信息:整个 Agent 本身的架构设计 —— 也要随模型能力进化。
罗福莉
针对不同场景,比如 Claude Code 这种 for 软件工程的场景,和做金融分析等场景,它的 Agent 架构设计是会有差异的。怎么在提升模型能力的同时,再去提升整个 Agent 框架跟模型的适配程度,或说泛化能力 —— 这是我现在思考自学习的方向。
Agent 框架不是产品
A NEW MIDDLE LAYER BETWEEN HUMAN & MODEL
张小珺
你说的智能体框架、Agent 的框架是不是就是我们理解的产品?
罗福莉
不是,它跟产品差异蛮大的。
产品跟 Agent 之间的边界现在我不知道怎么去界定,它有点模糊。我觉得产品可以定义成你直接人交互能感受到那一层的东西。
但 Agent 框架确实是有在去定义你的交互层,但是它同时又在去定义你怎么跟模型沟通那一层。它甚至能知道模型能力的长板短板,能知道怎么去更好做调度,比如说 for 成本优化的调度。
中间层
Agent 框架是人和模型之间的中间层。这个中间层可以做得非常厚重,反而那个前端的 UI 展示是最薄的一层,已经不是很关键了。
为什么这件事很反直觉
互联网时代的产品逻辑是"前端越漂亮越赢"。但 Agent 时代
颠倒过来:用户感受到的"灵魂感",不是 UI 调出来的,而是中间层把 context、memory、多模型调度、消息通道编排得好。
OpenClaw 的 IM 风格 UI 看起来很普通,但中间层的厚度让它在体感上甩开了"贴皮 Chat"的产品。
框架的核心:弥补行动缺陷
A FRAMEWORK COMPENSATES FOR ACTION GAPS
罗福莉
智能体的框架现在有很多形容词去形容它,比如 harness、scaffold。我没有特别专注哪个形容词更准确,更关注的是这个框架带来的差异化优势。
一个非常好的框架,应该是去尽量弥补行动上的缺陷:
• 很好的 memory 系统是弥补行动上的缺陷
• 接入到更多 message channel 是弥补行动上的缺陷
• 它更主动(定时任务、心跳任务、其他主动设计)
• 它自我去更新迭代
因为大模型,你给它越好的 context,它执行的效果越高。所以你要是能把这些它获取不到的 context、行动上的 context 都给它,那么它肯定会完成得更好。
还要有一环:评估
一个好的框架本身需要一个很好的、可泛化的评估体系,这样它才可能自迭代。现在的评估体系都很简单,只是为了防止它出致命错误 —— 怎么有一个更有泛化力的评估体系来促进框架自迭代,这是关键。
高强度一周:第一天 1000 刀
$1000/DAY ON OPUS 4.6
张小珺
在你高强度的那一周,跟 OpenClaw 交互的那一周,你消耗了多少美金的 Opus 4.6?
罗福莉
第一天就是快一千刀。因为大概用了四五个小时。然后我中途疯狂也会切,因为它太贵了,会切 Sonnet —— 但是我发现真不行。然后只又只能去用 Opus。只有 Opus 能带来那种惊艳感。
但是慢慢逐渐我发现不是这样了。带给我惊艳感的那些东西在变化。我觉得人的适应性真的是非常强的:第一天感受到很惊艳的东西,第二天立马觉得不惊艳了。我刚刚跟你讲的时候,我都觉得我刚刚讲的第二、第三天的东西,怎么觉得这么 boring 啊 —— 但它却是我第三天发生的事情。
所以我现在已经可能让 Opus 帮我把我的 Agent 框架打造好过后,让我惊艳的事情就越来越少了。所以现在反而缺乏的是:
1. 想象力 —— 我要疯狂去想还有什么事情它做不了
2. 成本和速度的优化 —— 当那些它能做的事情都能做的时候
让团队进入:100 轮硬指标
A FORCING FUNCTION FOR TEAM ADOPTION
罗福莉
我那几天高度兴奋,兴奋到我在群里给大家发,强烈推荐大家去使用,但没有人搭理我。
罗福莉
对,大家在陪家人。过完年回来发现真正用的人是很少的。因为大家对新奇事物 —— 尤其是我真的觉得它有点玄幻 —— 会觉得玄学的东西太不真实了。
第二天我觉得不行了,必须让大家去用。OK,我就给大家下了一个指令:如果第二天 OpenClaw 对话次数不超过 100 轮的人可以直接 quit。
当然我为了促进这个事情前面做了非常多的准备:那会儿 OpenClaw 整个部署期还需要几个小时的时间,没必要让所有人去花这么多时间折腾。所以我就买了几台 Mac mini 把它部署起来,把大家拉到几个不同的 OpenClaw 群,让大家去分不同方向。
为什么是"群里聊",而不是单聊
因为
个人想象力是局限的。当你看到别人用 OpenClaw 居然能干成这个事情的时候,你就会激发自己的想象力。
罗福莉也没真的去考核 100 轮 —— 她只是想表达一种态度:"你不用,可能真的要落后了。"
群体智能:一百人疯狂改框架
COLLECTIVE INTELLIGENCE IN ACTION
张小珺
在你们那个非常躁动的群里,最让你有冲击的是什么?
罗福莉
最让我有冲击的还是大家一块去改那个框架本身。因为当时那个框架真的问题很多。
还有就是它的 memory 真的做得非常智能。我们在一个群里大概有近 100 个人,飞书的 message channel 应该不是那么智能 —— 至少没有那么去把人与人之间区分得很好。但是它整个聊天的上下文、它对每个人的画像把控、每个人的 memory,我觉得都没有串得太厉害,可用度非常高。
一百多个人都有不同背景,都在疯狂改它,都没有把这个模型给改坏,都没有把这套框架改坏,它还变得非常智能。这也是我第一次感受到你怎么用一群人的智慧去提升一个事情本身。
速度对比
如果说我自己单一地去改这些框架,进步速度是非常慢的;但如果一群人去改进,可能几个小时就迭代一轮。
罗福莉
所以我也非常欣喜看到 OpenCode 后边那个 star 量飞升。我觉得这是 Agent 到来前兆必须要有的事情 —— 利用群体智能去提升 AI 的框架是非常重要的。
研究节奏的根本变化
3-4 WEEKS = WHAT USED TO TAKE 30-40
罗福莉
之前可能做研究的方式是:你从想到、写代码、到设计一个很好的评估标准 —— 这中间的流程还是蛮漫长的,至少要花一两周。快的话 —— 除非你的评估是确定的、代码只需要修改 —— 可能你也需要一两天。
但是至少在 Agent 有辅助的情况下,它真的可以一两个小时就把这些事情给做完。
我觉得效率的提升基本上代表着一个非常本质的问题。这是我觉得在这个时代上做研究,研究的 taste 非常关键的原因。或说研究效率非常关键。
"我们基本上可能在三四周的时间做完了,以前可能三四十周的时间才能做到的事情。"
—— 罗福莉,谈春节后的研究加速
罗福莉
关键是,如果 taste 又比较准的话,那么就一做一个准、又做一个准。当然也可能十个里边有一个能成 —— 但这十个可以并行做呀。你不用像以前一样 pipeline 做,你可以十个 idea 交给不同的 sub-agent 同时做,他们还能交叉验证。无非烧很多 token,最多一天就能验证 work 不 work。
关键是它还可以 —— 如果你愿意长期培养它 —— 还可以自迭代进化。在 Claude Code 里面不行,但你换一个更开放的框架,它是可以自己迭代和进化的。
Code 为什么能泛化
WHY CODE GENERALIZES — DATA-LEVEL ROOT CAUSE
罗福莉
Code 有泛化的最本质的原因,分好几个阶段。首先,Agent 是一个非常长程和多轮的任务。
回到预训练环节,你很难找到比如说 1M 上下文 的数据,甚至 128K 的数据你都很难找到。但是真正能达到 128K 到 1M 这个长度的数据,大概率只有两类:一类是 Code 的数据,一类就是书籍。
但书籍的信号太发散了,Code 的文件之间的关联是更强的。所以当你在一个长上下文依赖更密集的数据集下去训练的时候,模型自然对长上下文的建模会更好。这个是我们在没有意识到 Agent 那么重要之前就去做的事情。
上限 + 下限
在 Code 是拿它的上限,然后你去其他领域是抱它的下限。我是这么认为的。
为什么 1M 上下文不能用塞满任务训
TPS(每秒生成 token 数)哪怕做到 80-100,跑完 1M 的
trajectory 也要 1-2 分钟。RL 训练每步要等推理 rollout 完成,1M 任务的训练效率太低。
现实做法是:
预训练阶段在 1M 数据上让基座具备长上下文建模的"底子",后训练阶段用相对短的任务激活它,长上下文能力自然就稳。
为什么过去的 Agent 不算 Agent
THE PRE-OPENCLAW AGENT ERA WAS NOT REAL AGENT
张小珺
关于 Agent 其实已经讲了一年了,去年年初的时候大家就开始说这是 Agent 的元年。为什么到现在才开始火?
罗福莉
我认为之前讲的 Agent 在我的定义里边都不算 Agent。它只能算是一个上下文稍微比 Chat 复杂一点点的东西。
不管是像 BrowseComp、像 SWE Bench,这些 Search 和 Code 的 Agent 框架其实都非常简洁。相比于现在的 Claude Code 也好、相比 OpenClaw 也好,它的 Agent 框架太过于简洁了。
这样的简洁性导致:首先它简洁,其次它不通用。这样过于简洁和不通用,导致它只能 for 这个任务来设定。SWE Bench 有它的问题,是因为它本身关注的领域也太单一了,就是去修 Bug,它并不是 for 真正的软件开发。
什么叫工业级可用
最简单 —— 你把它接到 Claude Code 或 OpenClaw 去用,你会发现它不可用,它有很多问题。它就理解不了这套框架本身,也没有针对这套框架本身设计。
罗福莉
人跟它的交互范式发生最大变化的是:人不再会去修改代码。"OK 这行代码出错了你帮我改一下",这样的 query 不会再出现。人只会提一些更高阶的:澄清需求、增加限制、参与架构设计,以及辅助理解业务逻辑(这是 skills 的含义和价值)。
Skills:人贡献的另一种 alpha
SKILLS AS A SUPPLEMENT TO PRETRAINING
张小珺
这次 Agent 是不是改变了模型的生态啊?
罗福莉
改变了模型在高复杂度、高 workflow 任务上的执行准确率。因为它定义了一套执行的规范。这套执行规范是很难在预训练数据里边具备的 —— 预训练数据里没有这种 workflow 信息。
这些信息通常是大量企业内部自己沉淀和积累的、由人和人之间产生的、组织上遗留下来的规范。这不可能在训练数据里出现,但是可以由人教 Agent,跟它多轮交互,通过完成几个任务,把这套规范让 Agent 学会。所以现在大部分 Skills 其实是 Agent 自己写的。
张小珺
人的经验沉淀成 skill 变得更重要了,它是不是预训练的一种补充啊?
罗福莉
对。预训练大部分依赖的知识还是你在互联网上可访问到的知识。但很多智能我们是在互联网上访问不到的,那么这个时候它就以另外一种形态出现。我觉得 skills 算是一种。
它其实提供了一种交互的方式,让人去主动贡献数据,贡献让模型执行任务的成功率更高的方式。这种另类信息,确实是另外一种 alpha,是另类信息。
OpenClaw moment:流动需要时间
A LONGER & DEEPER MOMENT
张小珺
如果重新来定义这个所谓的 OpenClaw moment,你会怎么定义它?
罗福莉
这个 moment 它会时间线更长。它前序的章节太久了,人大概不会觉得它是一个新东西。但是对于我们已经信这个事情的人而言,我们反应速度足够快。
所以从我的个人感官上,这个 moment 它会延续的时间更长、更深远。这个更深远是说它能力更外放到更多人能感受到的场景里去,但这个流动是需要时间的。它能溢出的能量、能力更强。
它没有像 o1、R1 moment 那么清晰的定义 —— 它会有数学代码这种"有光"的东西在那儿,OK,你上去了模型就具备这个能力的非常清晰的标准的界定。当然 Agent 确实有很多场景是有需要清晰标准的一面,但大部分场景是没有的。
混沌的胜利
Agent 产生的价值是慢慢到一个临界点突然进一大步。其实 Claude Opus 4.6 确实是这样 —— 进一大步的突然时间点,但做这个事情的路径也是持续了至少两年的。
为什么 OpenClaw 在中国更火
WHY CHINA EMBRACES OPENCLAW HARDER
张小珺
据你观察,你觉得 OpenClaw 是怎么样的一个火起来的炼炉?而且我明显感觉到在中国它火的程度比在美国要更强。
罗福莉
仅从我自己以及我身边人的视角。我觉得可能的一个原因是:中国的开发者更多。我说开发者是指他可以用 code 去提升效率的场景。
可能是要求更急迫的。我觉得对于效率的提升好像是我们血液里边的东西。所以当 OpenClaw 能把效率提升拿到极致,我自己感觉这是它火的部分原因之一。
API 性价比 ×
国内大模型那么多便宜好用的,性价比非常划算。它可能花十块钱的 API 就能帮你干完一千块钱的事情,那你肯定很愿意用。如果 API 贵那么十倍或几十倍,中间那个差距很小,你会很排斥用这样一套很复杂的东西。
罗福莉
85% 的效率提升场景目前确实不需要最顶尖的模型。我们又有那么多便宜好用的模型可以用 —— 这就是 Agent 框架在中国能发挥更大威力的根本原因。
端云混合 + 隐私本地化
3B ON-DEVICE × CLOUD INFERENCE
张小珺
如果我们把大量的个人隐私数据授权给 OpenClaw,怎么缓解普通人对安全性的焦虑?
罗福莉
这是我为什么说要做开源的原因。我觉得还是会有一天 —— 而且应该很快也会到来 —— 人的大部分简单任务,除了那些非常难的任务,跟隐私相关任务有很多还是没有那么高难度,其实完全可以放在本地化去做。
你自己会由于自己随身携带的 —— 有可能随身携带,有可能在家或某个场景边 —— 有一块芯片,所有的数据都在本地。所有涉及到隐私数据的场景都在本地推理。然后涉及到一些非隐私、高难度、高创造力、高复杂的,再去云端推理。
小模型 + 好框架
这也是为什么我说一个好的 Agent 框架借助一个我自己觉得很小的 3B 模型,它能做的任务的复杂度都已经超乎我的想象了。
为什么这条路必须靠开源
端云混合不仅是模型这一侧的事,还
需要本身架构这一层一块往前走。这需要更多人一块来做,而不是某一公司就能把它做好的。这也是罗福莉说"开源是如此重要"的根本原因。
AGI vs DAU:模型公司在玩什么游戏
DIFFERENT GAMES, DIFFERENT GOALS
张小珺
Kimi 的人觉得他们跟豆包已经开始玩不一样的游戏了。豆包、元宝、阿里都在玩互联网产品的游戏,因为他们在打 DAU。Kimi 觉得他们走了 Anthropic 那条路。你们在玩一场什么样的游戏?
罗福莉
我们追求的事情是什么时候能够超越自己,我是这么去定义的。
我对 AGI 的定义会非常模糊的一个原因,是我觉得没有必要去追求一个非常清晰的 AGI 定义。当 AGI 发生的时候,所有人都会感知到 —— 因为每个人的生活方式、工作方式已经为之长达很长的时间已经慢慢被它改变了。
所以在这个过程中追求 DAU、追求这些东西,它并不会改变我,并不会促成这个目标 —— 就是让这个模型代替我。所以我就完全没有在想这些事情。
真正在靠近 AGI 的中间目标
追求 token 消耗量、追求让 Agent 完成更高价值的任务 —— 它是在往这个目标去靠近的。因为要替代我自己的任务,需要更多的 token、更复杂的 context、调用其他智能水平。
训模型 = 管团队 = 群体智能
A FAMILY EXPERIMENT WITH SUB-AGENTS
张小珺
我会有一种感觉,你训模型的方式好像和你管团队的方式有某种相似性。
罗福莉
主要的原因是它确实需要群体智能。不是个人英雄主义。它需要每个环节上都是足够 belief 和极致的人。
可能不同的 agent 它需要有自己的 context。有自己 context 的原因是,当模型能力没有那么强的时候,有独立的 context 它会更专注。专注还是蛮重要的,你的 context 不被混乱,它能完成得更准。
"我玩完 OpenClaw 的第二天就开始让它去 —— 当时我在家嘛,我就让我家里边的每一个人,我爸爸、我妈妈、我老公,每个人都有一个自己的 sub-agent。我们搭一个飞书群,每个人也可以自己跟自己的独立的 sub-agent 去聊天,然后它自己进化。"
—— 罗福莉的家庭实验
罗福莉
然后我会在这个群里委派一个任务给他们的 sub-agent 让他们干,因为我们的 context 是不一样的,让他去做,他会因为他有更好的 context,所以他会干得更好。这样一个很粗浅的尝试。
我相信这个事儿 —— 同样很简单的事情,换到一个更高复杂度、更有创造力的场景,只要模型能力跟 Agent 框架本身再进化,应该也是可能做到的。
1T 模型 + 卡的分配比例
THE TICKET TO PLAY
张小珺
你刚才也提到 1T 的模型可能是未来竞争的一个入场券,是这样吗?
罗福莉
是 Agent 你要做到接近 Claude 4.6 Opus 的水平来讲是一个入场券。
for 研究、for pretrain 和 for posttrain,我自己觉得一个非常合理的卡的比例可能是 3:1:1。pretrain、posttrain 投入的算力是相当的;研究的比例应该至少是你正式起训练的卡总量的还要多一点,你要额外留更多的卡来做研究。
罗福莉
至少在 Chat 时代应该是非常夸张的,比如 3:1、5:1。这是今年也可能会发生的一个很大变化 —— 应该有很多团队都是 1:1 的,顶尖团队应该都是 1:1 的。
为什么 1T 是入场券
罗福莉训过 DeepSeek V3 那么大小(600 多 B 的模型),不会再想训一个同样规模的模型,肯定继续 scaling。1T 是几千张卡能容纳的极限区间。
但
训练只用几千卡,研究要用 3-5 倍 —— 因为 idea 太多、写代码太快,瓶颈卡在 GPU 跑实验上。
写在最后 · 上篇关键洞察
7 KEY TAKEAWAYS
- OpenClaw 是 Agent 框架的颠覆性事件:不是"Claude Code + IM 皮肤",而是把中间层做厚到能弥补模型短板
- 3 天体验进化曲线:产品(情商)→ 替代(数字分身)→ 加速(user agent 研究助手)
- 框架的核心定义:弥补行动缺陷 —— memory / channel / 主动性 / 自迭代 / 评估
- 开源 vs 黑盒:开源让 Opus 帮你改 Agent 架构,原生可操纵性是群体智能的根基
- Code 泛化 = 数据红利:128K-1M 长上下文数据只有 Code 和书籍,Code 文件间关联远强于书籍
- 研究节奏 10 倍加速:3-4 周 = 以前 30-40 周;10 个 idea 并行 sub-agent,烧 token 验证
- AGI vs DAU:DAU 不通往替代我,token 消耗 + 高价值任务才靠近 AGI
来源
张小珺商业访谈录 · 2026 年 4 月 24 日
"对罗福莉的 3.5 小时访谈:AI 范式已然巨变!OpenClaw、智能体框架、Agent 范式很吃 Post-train、卡的分配比例、巨变下的组织"
视频链接:
bilibili.com/BV1iVoVBgERD
本文涵盖 35 个术语注释。点击任何虚线术语查看详细解释。
下篇见 👋