一堂「强化学习」大师课｜对谈清华叉院助理教授吴翼

开场0:00

There's something there.

曲凯0:21

我们今天很开心请到了吴翼来跟我们一起来聊 RL 强化学习这件事情。这个的初衷呢，我觉得是因为去年 RL 这件事已经开始火起来。

吴翼0:30

对。

曲凯0:30

但今年我一个特别明显的体感是在今天大家都在讲 Agent，然后 Agent 团队里面如果有一个 RL 算法能力特别强的人，好像就特别吃香。

就这件事是基本上现在彻底起来了，就大家非常非常认这件事。所以今天我们可以聊一下强化学习，尽量把它聊透吧。

首先还是先请你自我介绍一下。

吴翼0:49

大家好，我叫吴翼，20 年从 OpenAI 回国，然后在清华当老师的，然后一直都在做强化学习相关的工作。

我的博士是在加州大学伯克利分校，博士论文的题目就叫《Building Generalizable Learning Agents》，所以就有一些强化学习的关键词，有些泛化的关键词，有些 Agent 的关键词。

曲凯1:08

全齐了。

吴翼1:09

对，那个博士论文的题目起得还不错。算是最早做强化学习和强化学习泛化性以及多智能体强化学习的人吧。

我现在是清华大学交叉信息院的助理教授，讲清华大学交叉信息院的本科生的一门课，是深度学习。

曲凯1:26

所以我觉得今天我们其实有一点像上大师课的感觉。我们的受众可能大多大家不一定是有那么深的技术背景，包括我自己在内，我们可能通过各种渠道了解了很多强化学习这个概念，或者相关的大家都在讲，对吧？

比如说 DeepSeek 用了很多 RL 啊什么的。但真正这件事的它的发展的历程啊，它里面的一些细节，可能很多人是没有那么了解的。

所以我觉得我们今天就把它深入浅出地聊一下。所以我的第一个问题呢，就是到底什么是 RL 这个概念，可不可以给大家简单解释一下？

RL入门1:51

吴翼1:56

首先我觉得强化学习是机器学习这个大概念下一个比较特殊的问题。那么传统大家讲机器学习的就是，比如说我们讲分类问题，讲人脸识别，讲指纹识别，去讲啊我给你一张图片，判断它是猫还是狗。

就是传统的这种深度学习也好，机器学习也好，它本质上都是你有很多的数据和人类标出的准确答案，这样的对。

比如说那我给你 1 万张猫的照片，1 万张狗的照片，我每一张照片都是人标注好正确答案的，然后收集大量的数据，丢给神经网络也好，或者是丢给之前别的模型也好，然后机器学习去记住它，然后当然它会产生一些泛化的能力。

所以基本上我觉得在上一个人工智能浪潮，比如说我们之前讲的这个人工智能四小龙、人脸识别时代、安防时代，其实都是在这一套机器学习的框架下边。

那么强化学习跟它有什么差别呢？强化学习最早是用来打游戏的。就比如说我们想去玩一个切西瓜的游戏，俄罗斯方块，或者说我们想去玩一个打乒乓球的游戏，它的特点呢是有两件事情。

第一件事情呢是打游戏中间你要做很多的动作，比如说我打个乒乓球，我要从发球接球回球，每一个动作都要做出一个决定，到底我应该是往前伸拍子，拍子应该是转一转还是怎么样，或者游戏机里面我是往左走还是往右走还是跳。

这里跟传统的机器学习不一样，比如传统机器学习一张图片，判断它是猫还是狗，就是一个动作结束了。

但是打游戏不是，打游戏需要我做很多很多的动作，最后才会有一个结果。这是第一条。第二条呢是对于传统的图片识别来说，它是猫还是狗，这个是有标准答案的。

但是对于打游戏来说，其实你说我打一个 SOTA，我是出门向左走还是出门向右走，差别不大的。你有 100 万种方法去完成这样的操作，因为它的选择有很多很多很多，所以它没有一个标准答案的概念，它只有最后好坏的概念。

比如说我打游戏打赢了，这是好的，但是具体怎么打，没有标准答案。所以这是两个最大的差别。那么强化学习就是一套算法框架，它希望去解决的就是这么一个我有很多个决策要做，并且最后我也不知道好坏，只有一个评判标准。

做完了所有决策之后，我告诉你它好还是不好的反馈机制的这么一个问题。所以说强化学习它会更一般一些。

曲凯4:22

你说一般的时候指的就是泛化吗？我可以理解成。

吴翼4:25

就是我们人的生活当中更多的问题其实是应该通过强化学习建模的。比如说我想去美国出差，怎么去呢？

中间好多不决策，你只有说我成功去了，我开心地回来了，这是一个好的奖励。它很难把它归约成传统机器学习那样，哎，这是个标准的问题，每一步都有标准答案。其实不是的，人生就是一个强化学习的过程，因为你有很多种选择，没人告诉你正确答案。

所以说强化学习它更像是一个可以针对通用的，对吧？像人一样这种泛化智能体可以去做的一个更一般的框架。

但只是说呢，这个问题它如此之广大，可以把生活中的几乎所有问题都包含进去，它一定会更难解。

因为一个问题它的范围越大，你就会越难求解。传统机器学习呢，因为它问题非常标准，非常简单，所以求解起来也会容易。

所以强化学习这个技术其实一直要到比如说李世石 AlphaGo 这件事情才出圈。但是人脸识别那事其实很早就出圈了，所以也本身是因为强化学习它处理的问题更复杂更难。

曲凯5:27

对，但其实你刚才提到人生本身是想强化学习这个点，我觉得很有意思啊。但我想追问一下，就是你看你刚才讲，简单来讲就是机器学习它是一种简单问题的解，比如判断一张照片是猫是狗。

然后强化学习呢，是一系列复杂决策的解。但人生其实是可能没有一个标准的解。那这种时候强化学习到底适不适合？

吴翼5:49

它没有一个客观的解。所以我就说，就是我觉得人生还有个很好玩的事情是，强化学习很多时候是假设你知道那个打分的，比如说我到底是赢还是输。

所以确实也得说强化学习有个前提是你知道那个奖励函数是什么。但是我觉得人生的差别是在于人生你不知道那个 reward 的方式，那个奖励函数是什么。

所以可能人生中很大的时间是你在探索那个奖励函数是什么。就是它是在一个你不知道奖励函数，或者你以为你在优化这一件事情，可能你最后到了结果你发现，哦，好像你的奖励函数不是这样。

RL遇LLM6:22

曲凯6:22

对，所以我们听到的比较多的一些案例，比如说用强化学习去打游戏，对吧？比如下棋，比如说迷宫怎么样最快地找到那个路径。

我们听到都是这种。但确实在大模型这个时代，包括很多 Agent 完成的任务，它其实没有一个明确的解。

那这种情况下该怎么办？

吴翼6:40

对，所以这里就是有一个历史的原因，就是说强化学习跟大模型是怎么在一起的。我们先说大模型是一个什么样的东西。

大模型是 next token prediction，我们用俗话说就是熟读唐诗三百首，不会做诗也会赢。让它读好多好多的文章，它就，哎，发现这个 AI 它就通用了，就泛化了，它就能做很多的事情。

但是这个事情其实跟强化学习一直是没有关系的。因为我们也知道强化学习是要有目标的，但是大模型的这种熟读唐诗三百首，它是没什么目标的，它就是压缩 next token prediction。

这里面其实有一个重要的问题叫 instruction following，指令遵从。它这个背景是什么呢？是 OpenAI 有一个很著名的工作，叫 InstructGPT，就在 ChatGPT 之前的一个前身，就指令的那个 GPT。

它就讲了一件事情是，GPT-3 训练完了之后，大家会发现说这个东西很强，但是如果你把 GPT-3 这个 API 给一个外行人去用，在那个年代，19 年、20 年的时候，它会反映说这个 API 不好用。

比如说你跟它说，请帮我解释一下登月是什么。它说 can you explain the moon landing for me 然后你让 GPT 往后续写，它会重复，它会说 explain the moon landing for me, explain the moon landing for me 它就讲好多好多遍，经常会出现。

曲凯7:54

我去年用一些友商的大模型也会，还是仍然有这个问题。

吴翼7:59

对，所以这是一个很常见的问题。所以很多人就会说，啊，大模型不好用。好，我们来分析一下，一个人说这东西不好用的时候是为什么，是因为这个人其实给了大模型一个指令。

这件事情其实并不是让大模型把它当成一段文章补全，next token prediction。它其实的意思是说，我告诉你那个指令，你看着这个指令把它完成。

比如说 explain the moon landing for me 这件事情其实是说，好，你给我讲一下登月是什么。我要发一个火箭，然后有阿波罗计划，有嫦娥计划，对吧？

这些东西，我希望 GPT 在看到这个指令之后，输出的内容是能够满足这个指令的指示的。这个叫 instruction following，指令遵从。

所以 GPT 当时它 next token prediction 其实它的训练目标只是为了预测下个词而已，没有指令和遵从这个东西的概念。

曲凯8:54

对，我们一直说它本质是个概率模型嘛。

吴翼8:56

对，所以直到 InstructGPT，OpenAI 第一次说，那我们有没有方法能让这个大模型可用，就是我给你一个指令，你输出的话是符合指令的要求的。

那这事怎么办呢？就是有很多方法去做。所以当时 InstructGPT 提出来说，那我们要不然用强化学习来做。

那强化学习需要一个任务，需要一个奖励，还需要决策动作，对吧？他们说我们这么来建模，这个也没有谁对谁错，只是 OpenAI 这么做了，最后发现，哎，效果还不错。

怎么建模呢？那我怎么定义任务？任务首先就是我有一个指令，我说 explain the moon landing 这件事情就是我的任务。

之后你的强化学习所有决策都是指定于 explain the moon landing for me 好，动作是什么呢？决策是什么呢？我从看到这个指令之后说的每一个词，就是我的决策。

那就基本就全了嘛，那就剩 reward 是什么，对吧？reward 就是你说出来的话最后是不是和我指令描述的内容一致。

那我就可以完整地用一个强化学习的过程来描述这个训练过程。给你一个指令，好，大模型开始输出 action，输出很多词，最后你输完了，啊，给你个 end。

好，我最后来判断一下你是不是跟我的指令答案一致。这个一致是怎么定义呢？这是一个非常好的问题。

大家发现怎么定一致呢？发现定不了，对吧？

曲凯10:13

然后就得靠人来。

吴翼10:14

就得靠人。所以最后这个东西就叫 reinforcement learning from human feedback。

曲凯10:19

对，就是 RLHF。

吴翼10:21

对，所以当时说的事怎么办呢？那指令遵从，那是人说了它却是遵从指令嘛。所以 OpenAI 找了一堆人写这个指令，然后呢，再让大模型输出，然后呢，他们来判断。

大模型输出个十个指令，他们排排序，说哪个好哪个不好，他们也去写一些人觉得好的指令。最后呢，训练出了一个奖励模型。

因为确实没有这种金标准的奖励模型，所以需要人来定义。那人来定义之后有很多数据，然后把它训练出一个模型之后，作为奖励模型。

这就是 RLHF 的由来。

曲凯10:53

对，但去年其实这个词很火，包括随着这个词一起起来，其实 alignment 这件事情。但也有人，我觉得是 OpenAI 里面的人在讲说，他觉得 RLHF 其实本质上不是一个 reward model，觉得它就是一个跟人对齐的一件事情。

它并不是一个真的强化学习的事情。就今天大家讲的 RL 和当时的那个 RLHF 的区别是什么？

吴翼11:16

哎，这还确实不太一样。这里我还得说一下，就是 RLHF 到去年为止存在的主要价值是让大模型好用，就是让一个聪明的清华北大的同学经过实习之后，他能变成这个公司里很能打的一个员工。他并不能让大模型更聪明，他也不存在 scaling law。scaling law 是说我有更多的计算，更多的数据，更多的资源，这个模型的智力水平会提升，对吧？

慢思考11:41

吴翼11:41

那么直到 OpenAI O1 用了另一种强化学习的方式，发现，哎，我靠，这玩意可以提升智力。那这事怎么来的呢？

就是预训练就是说我有个更好的基础模型。那么很长一段时间大家就在想是说我除了预训练之后有没有第二曲线，除了预训练阶段堆更多的数据和更多算力更大的模型之外，能不能还让模型变得更聪明。

那么当时这个事还得说伊利亚牛逼，这个事是伊利亚想出来的，只是说最后实现是其他人想出来的。

那伊利亚当时想的想法呢，是说那人是怎么样更聪明的。他就说其实人在很多复杂的问题之前，他会先思考。

因为现在传统大模型给他之后，他立马 next token prediction 就把答案给你了。但是很多问题其实是要思考的。

那么这有个问题是如何让大模型思考，这是 OpenAI 希望解决的问题。那么思考有很多种方法，比如说我可以搞一个小模型，一个大模型，或者模型结构上做一些创新。

但是最后 OpenAI 发现了一种方法是 work 的，这个叫让模型多吐点字，就是你先让模型吐他个一万个字，吐完了你再说，好，你现在说答案。

这个叫 thinking token，就是现在我们说 DeepSeek R1，它会先想一会。所以这个呢，有个名词叫 inference time scaling，也就是说我模型训练好之后，我让它想一会。

当然这个想其实就是在纸上写字，写完了之后你说想 10 秒，想 30 秒，想 100 秒，最后你给我答案，发现，哎，想的越久答案越准。

这个通过写字的方式让模型想更久的这种范式是 OpenAI 想出来的。所以 OpenAI 在 O1 上实现了这件事情。

曲凯13:16

但这个的道理到底是啥呢？为啥它吐的字多？

吴翼13:19

不知道，目前到今天为止也没人知道。很多人试图去理解这件事情，当然就是你可以去说，啊，因为人会打草稿或者怎么样，这些都是很直觉的解释。其实没有一个特别理论上的解释它为什么会 work。

所以 OpenAI 从要做 slow thinking 到它真的做出来这件事情，花了得有一年半到两年的时间。这个是不容易的，这是要坚持的。

就我告诉你之后，哦，好像这样就可以了。但是你为什么能从 slow thinking 想到它吐废话可以呢？这事是不知道。

所以这个 paradigm 确定之后，那好，我们来说怎么训练个模型让它吐那么多废话。那这就又回到强化学习了，因为我们是希望最后结果对。

中间你吐了一万个字，吐什么字无所谓的，是不是回到刚才打游戏的那个想法了，对吧？一开始我管你游戏怎么操作，最后你只要赢就行了。

所以那怎么才能训练一个模型能有 slow thinking 的能力呢？大家发现有强化学习，就是我通过强化学习，中间到底你吐什么字自己探索，我只要你最后结果对就可以了。

但是我们怎么设计这样的数据。它的问题是说它跟 RLHF 来说，它中间的探索过程太大了。因为 RLHF 是说输出的文字是不是跟我想的一样，我可能才输出几百个字。

这个慢思考模型可能输出十万个字，或者几十万个 token，非常大。

曲凯14:37

对，这两个问题有点像我们刚才讲的机器学习跟深度学习之间的区别关系了。

吴翼14:41

对，所以在传统的如果是对齐问题上来说，那你还可以说输出的问题都比较短，对吧？找一些人来给它打点标，排排序。

哇，那现在这个 AI 说它想了一万个字，另一个 AI 想了两万个字，最后输出的结果分别是，比如说国庆是哪一天，有人说我想了一万个字，我说国庆是 10 月 1 号，还有人想了两万个字，说国庆 10 月 1 号。

你说是想了一万个字的人好，还是想了两万个字的人好？不知道啊，因为你脑子里怎么想的，我怎么评断哪个好呢？

所以没办法评判了。那怎么才能做强化学习训练呢？因为中间我其实很难用人来评判你的这个推理过程哪个是好哪个是不好。

因为这个事解决不了，所以最后大家发现 OpenAI 用了一种非常简单的方式，就是训练推理，我只用有标准答案的问题。

比如说一个二项函数帮我解一个 x 是多少，对吧？那我算出来 x 等于 3，那你写 x 等于 3 就是完全正确的，你写 x 等于 4 就是不对。

所以 O1 开始，R1 开始，还有我们最近发布的这个 AReaL 系统做的所有这样的强化学习推理模型，它都只让大模型去训练答案是能够标准检验的问题。

当然这肯定会有一个 spectrum 了，稍微含糊点行不行？有的时候也行。但是核心的原因是因为这个思考的过程太复杂了，所以我们只能判断答案。

你可以让模型自由探索你怎么想，嗯，发散思维吧，反正答案对就行。

曲凯16:11

啊，有好多个问题。首先这里它结果对了以后，但过程当中涉及到它的成本啊，它的效率等等问题嘛。

吴翼16:18

对，所以这个也有谁做的好跟坏的区别吗？啊，有做的好和坏。我们其实觉得这里面 Anthropic 就是做的特别特别好的。

因为你看我们刚才这个思维范式，大家对你中间怎么想的很难限制。所以呢，经常出现的问题就是大家也经常 complain 说我问 DeepSeek 个 1+1，它给我想了半天。

嗯，为什么呢？因为你不管 AI 是怎么想的嘛，对吧？或者你想对它的这个思考过程给它一个好坏的性，其实挺难挺难的。

那么自然你如果不管它，AI 就说 1+1 到底啥意思啊？你是不是有什么别的意图？我来想一想，想半天，然后你就会发现这个 AI 什么情况，1+1 都要想半天。

那么 Anthropic 其实它的 thinking 就做得很好，你给它 1+1 它就不想。然后呢，你给它一个很复杂，比如说算个 24 点，哎，它就想个 10 秒钟。

曲凯17:04

对，这个按我们惯常的理解来讲，是不是就可以用一个小模型先去判断这个问题啊，什么之类的？

吴翼17:10

首先我不知道它是怎么做的。我们当然会觉得，那有没有可能 Anthropic 背后是放了它个五个模型？因为 OpenAI 也会嘛，OpenAI 它现在也是说让你可以选择 O3 low、O3 medium、O3 high，对吧？

它就是三个模型。所以 Anthropic 也有可能是把这三个东西藏起来，也有可能就是它模型训练得好，这事是不得而知的。

然后第二件事情其实还有，我们知道，因为我们对这个模型思考的过程其实是没有限制的。但是呢，像比如 DeepSeek R1，它好玩的一个地方就是你发现，虽然它的训练上没有对这个思考过程做限制，但是你确实发现，比如说我给你个文科题，这个明显是没有标准答案的，你让 DeepSeek 想一想，它也能给你讲出一些道理来。

这事怎么做到的？其实这是靠大模型的泛化能力。它到文科题上发现，哎，我摁着你的头让你想一想，它也能给我想点东西出来。

所以这个也是比较有意思的一件事情。

曲凯18:06

对，这也是我刚才想问的，就是我们用标准答案学完以后，它会做的这些更偏数理逻辑之类的东西。

吴翼18:13

对对对，但目前看起来它确实是能泛化到一些其他领域的。啊，这有两个事情。第一个事情呢，是它确实会有泛化能力。

第二呢，是你也不能单靠它的泛化能力。所以最后当你做强化学习这样大规模理科训练之后，最后还要用一些文科训练让它掰回来一点。

不然你是一个极致理性思维的人，就 nerd 来回答。

曲凯18:35

Nerd 回答哲学也不行。所以你如果去看 DeepSeek 的那个 report，其实他们最后是做了一下合并的，就它有一个极致的 nerd 模型，再加上它的 base 模型，两边合起来，最后再做了 SFT，再做 RLHF，让它最后起码是一个能用的模型。

然后你会发现，最后得到的这个模型，它真的是会有一个比较好的在中间的位置，就是它生思考的能力也保留得不错，然后呢，它也能跟你讲做 RLHF 普通的这些事啊。

所以到底怎么才能用一个特别 nerd 的模型和一个特别人文的模型把它合起来，也是一个挺挑战的事情。

吴翼19:11

嗯，所以 DeepSeek 在强化学习这件事上，它的应用最主要是强在哪？我觉得首先 RLHF 这个事情大家都在做。

嗯，DeepSeek 也是最早做 RL 的团队。那么我觉得 DeepSeek 最重要的事情是它证明这个东西真的可做。因为我们就像我们说的嘛，就是 OpenAI 在推出 O1 的时候，从它真正开始立项想这个事情，它到发出来可能过了两年的时间，大家都会觉得，就比如说当时我自己的判断也会觉得啊，这个事情好难啊，这么难，大家估计要花很长的时间去摸索。DeepSeek 最重要的

事情是它团队特别特别专注，他们其实做这个事可能就做了个把月，哈哈哈，这就发现哦，原来真的可以。

所以我觉得 OpenAI 的厉害之处是在于茫茫人海，本来是 365 度都是黑暗，OpenAI 说你看，我告诉你东方有个灯塔，大家说哦，都往东方走，但是到底咋走的？

好害怕呀，对吧？到底是多远呢？是不是万丈深渊啊？DeepSeek 说他说哥们我回来了，灯塔就在这个方向，往前走一个月就到了。

嗯，啊，大家说哦，原来是这样，这个信心是很难的。所以一下子就变成路径非常清晰。当然你真的去做了之后，你会发现它也还是有很多挑战的，比如说你还是要有个好的基座模型，这也是感谢很多开源社区。

没有基座模型，就这人要是个小学水平，他想的再深也没用啊，他怎么着也得是个高中生，你让他思考一下能做大学题。

所以基座模型很重要。第二是整个训练系统非常非常重要，因为强化学习它的输出的长度变得特别特别长，你要允许一个模型自由探索一万个字，哇，那你要有个很强的训练引擎能够支撑这个大模型在那瞎说话。

而且呢，你还要很多并行的让很多大模型去想，想了之后还要判断，判断了之后还要拿回来再训练。

而且大模型在不断想的越来越长，所以这个系统的稳定性和训练效率要求是非常高的。所以 DeepSeek 也是最早，我觉得是在国内有比较好的强化学习系统的团队。

嗯，所以很多事情我觉得也不是说他们做了什么大家都做不了的事情，而是他们很专注，做得很早并且很扎实。

曲凯21:17

嗯，但你刚才其实提一个点，就是说你觉得 DeepSeek 是相当于说它已经到了一个灯塔，回来然后探索出来一条可行的路径了。

共识分化21:17

曲凯21:24

对，这个事现在是整个行业的一个共识吗？说这个就是一个最优路径了，后面大家就沿着这个做就好了，还是说大家其实也还在同时探索其他的一些路径？

吴翼21:33

我觉得国内可能做得比较好的团队，比如说 DeepSeek，比如说字节，像字节的豆包团队有那么多人，他们肯定是在同时探索很多方向的。

然后 DeepSeek 也是比较前沿嘛，他们肯定还会做他们下一代的模型，比如说他们最近放的这个 324 的模型，就 coding 能力特别特别强，对吧？

也在探索。那么其他的很多团队，其实我觉得也是在一个相对追赶的位置，大家都会有自己的思考，但是第一步先追嘛。

因为你看国内也真的很难有一个做得跟 R1 一样好的模型，就大家都说差不多差不多，但你说真的能全面超过，其实也没有。

对，但是我觉得海外还是有很多团队有不同的自己的 belief，像 OpenAI 自己还是有好东西没有拿出来，我们就知道 OpenAI 其中强化学习已经不光是做推理了，它通过强化学习还能去做很多，比如说它之前的 operator，比如它的 deep research，其实它的强化学习已经通过纯推理变成 agent 的范式了，这个是有差别的。

比如说我们做数学题，你实际是给了它一个指令，然后想半天给个答案，但是你想 deep research 或者 operator 其实是一个指令，想一会儿操作，又看到一个新指令或者新的反馈，再想一会儿再操作。

所以它这个训练范式从一个指令输出答案，就从当年的 InstructGPT 这样的一轮的范式，到 ChatGPT 多轮范式了，而且还是要有虚拟世界交互的。

所以其实你看 OpenAI 它的强化学习训练系统，就从传统的做题只要思考，它开始有交互了，这也是一个很大的改变，并且它其实已经产品化了。

曲凯23:04

哎，多轮的难度为什么不是一轮加一轮加一轮是同样的难度，而是更高的难度？

吴翼23:10

它会更复杂吗？因为就是有没有交互，比如说最简单，我们从系统的模块上说，那我只做数学题的话，那么我的模块就只有让 AI 想判断答案对不对，然后加上训练三个模块就 OK 了，对不对？

那如果我要去做一个 deep research，或者说我要去做一个 operator，那么至少你还有第四个模块，叫一个虚拟的网页，你得跟它交互。

那么我们都知道一个复杂系统，模块越多越容易出问题，越容易不稳定，那你还去想那个模块能设计出来到底是什么，你真的是不是能够边跟这个大模型训练，边真的在网页上做搜索，对吧？

所以就整个会复杂很多。

曲凯23:49

嗯，明白。你看 agent 的这个概念，我记得 23 年初就有了，从 Auto-GPT 什么那个时候开始。

吴翼23:55

对对对，但如果我们回头来看，是不是那个时候其实完全不具备 agent 的基础？agent 应该是从真正强化学习起来，O1 什么起来才开始可以做的。

首先咱们得定义什么是 agent。嗯，我个人认为现在通行的定义就是说做数学题到做交互的差别，就是你传统的大模型它只是写字，它不会对于任何别的软件或者硬件，或者任何网页啊什么这样的虚拟世界也好，电子世界也好产生影响。

只要你能产生影响，大家其实就认为它是 agent 了。比如说特简单一件事，我如果家里有个开关，然后大模型自己输出开还是关，然后呢，我这里随便搞个电线连过去，它说关，嘣，灯就关了。

它还是大模型输出了一个叫开或者关，但是它因为对世界产生了影响，所以我就认为它叫 agent。我一直认为这个是一个 agent 的最常见的理解，应该是这件事情。

曲凯24:50

对，我觉得 agent 大家定义太多了，对吧？有的人觉得说一个 bot 也叫一个 agent，有的时候就 copilot 也容易跟 agent 混淆。

但我觉得当下大家最关注的应该就是复杂决策，加上对现实世界或者虚拟世界的一些 action 的影响，这个叫做 agent。

吴翼25:05

所以我觉得这里面重要的点是对文本之外的世界产生影响。那么当年我觉得 Auto-GPT 也好，LangChain 也好，就是早期的那些 agent 框架也好，它们是不是有这样的能力呢？

Agent25:11

吴翼25:19

它们是不是 agent？它显然是，只是说它实现这个 agent 功能的方式是靠什么？靠 prompt engineering。我写你是一个什么样的 AI，对吧？

你有这样的功能，你如果什么时候你就输这个，然后呢，我再写了一些脚本，把这个东西它输出的某一个函数调用也好，还是某种特定的模式动作也好，把它给现实世界去执行。

所以 LangChain 也好，还是 Auto-GPT 也好，都是通过 prompt 的方式，把很多不同的大模型的输出组合起来。那么到现在来看，对于 OpenAI 来说，他们的 operator 或者 deep research 做了什么改变呢？

它的改变是在于你不需要那么多人为 prompt，你只要给一个指令，剩下的所有的事情，每一步该怎么做，是大模型自己端到端做的。

这里面其实特别好的一个例子就是最近 4O 特别火嘛，就是你给它一张狗，给它一个衣服，把狗穿上衣服了，还换了个风格，对不对？

那你想传统这个事情在一年前、两年前大家能不能做？能做，叫 comfort UI。大家可以说我搞一个流程图，每一步都用一个 diffusion model 把它换一换，也可以实现同样的工作。

但是你会发现有了一个特强的多模态模型，可以多轮交互的模型之后，这些事都不要了。所以我觉得 agent 是一样的，就是传统 LangChain 是说啊，因为我发现模型能力不够，所以我需要哎，这 prompt 一下，这 prompt 一下，然后中间通过一个流程图把它连起来。

然后呢，你会发现，如果你有一个特别强的决策模型，那你就发现传统的大量的 prompt，大量的这种流程工作不需要了，一个模型解决了。

所以这个也是强化学习，你会发现它除了提升推理能力，它也能让模型有决策能力。当你有个特别好的多模态模型的时候，最后你会发现有一个 GPT-4o 给你画图，你就会有一个 deep research，会有 operator。

曲凯27:04

嗯，对，我觉得这里面还有一个点，就是当你说用 prompt 的时候，这里面其实隐含了一个意思，就是说我其实非常明确每一步要做什么，然后我告诉它。

但其实大家在提要求的时候，我可能都不知道这个事要怎么做，就是它要去探索各种可能性。

吴翼27:20

对，所以你需要这个模型被这样训练过。传统呢，只是说原来的基础模型，它没有这种对于非常未知的或者描述不清楚的指令，有自己探索能力的模型，那你就必须拆解。

就这事也挺正常的嘛，就是像我们第一次做饭的时候，爸妈都会说第一步先干嘛？开火，倒油。

但是如果你是一个大厨，你就会说啊，你这个菜这里要注重一点，炒菜技术，刀工要怎么样，就结束了，对不对？

所以就是好的模型和坏的模型会有这样的差别。

曲凯27:53

嗯，所以其实最早的那些模型呢，它更多具备的还是文本的一些东西，没有长程探索和思维的能力。

吴翼28:01

对，就是 RL 加上了更多复杂决策的这个解决方案的东西。但我就想到一个问题，那如果我们把大模型抛开，单纯只是 RL，它仍然具备这些复杂决策的能力吗？

就为什么历史上没有出现单独以 RL 为基础的一个模型，然后去做这些事？我可以说一些历史。嗯，OpenAI 在 2016 年的时候，这个真的很历史，很历史。

这个其实我在一些分享上提过这个事，2016 年的时候，OpenAI 当时有一个项目叫 Universe，大家可以搜一下，叫 OpenAI Universe 或者 World of Bits，比特的世界这个 paper。2016 年的时候，当时强化学习是如日中天的时候，OpenAI 说那我们能不能通过强化学习在网页上买机票？

嗯，就这么一件事情，对吧？你是不是想这个事跟现在的大模型特别特别像，对吧？所以当时 OpenAI 搞了个几十人的一个团队，去搭了一个真的可以在本机跑的网页环境，因为它要真的能够上网。

那个 demo 还是挺炫的，什么打开美联航的网页，输入旧金山到纽约，然后敲回车买机票，跟现在的 computer use 其实是一样的呀，一样。

所以它想做的事是 exactly OpenAI 可能九年后做成的事情。嗯，但那个时代呢，它就是搞了一个团队去做了仿真器，然后搞了大规模强化学习。

那时候 Andrew Karpathy 还在 OpenAI 呢，失败了。所以那是 OpenAI 第一次大规模裁员。哈哈哈，OK，他把那个团队裁了。当时我还挺好玩，当时我去问 John Schumann，当时 John Schumann 还在，然后我说你们这个 OpenAI 裁员，这个大家 repetition 不太好啊。他说咋办呢？

那些人都是写 networking 的，我们也不知道他能来做啥，或者写前端的。OK，他说我也给了他们很多好的 recommendation，但是确实就开了。

所以 OpenAI 其实在很早的时候就想干这事，但是通过强化学习失败了。这是第一次失败。第二次失败什么？

是机器人的时候。因为 OpenAI 在 2019 年有个特别有名的项目，叫 Rubik's Cube，这种强化学习控制机器人的一个灵巧手去拧魔方。

大家想想，拧魔方这事挺难的，因为人手一只手拧魔方都很难，OpenAI 用个机器手去拧魔方，这是很厉害的一件事。

然后呢，19 年机器人团队做了这件事情之后，20 年他们就做了另外一件事情，他们是说通过图像输入在桌上整理桌面，这个是不是现在具身智能公司做的事情，对吧？

是 Google 的那个 Gemini Robot 和那个 Pi-1 做的事情。这是 OpenAI 机器人团队在 2020 年当时想做的事情，然后他们当时还发了一个不太成功的一个 report，反正就挺失败的，全失败。

那什么时候开始成功的？大家发现这里面缺了啥？缺了预训练模型。之前两次所有的失败都是大家仅仅通过强化学习直接学出一个通用模型，发现这事不行。

机器人是什么时候第一次可以通过语言控制机器人去抓这个桌上的东西的呢？OpenAI 是 2021 年机器人团队解散的，然后呢，当年年底 University of Washington 那个团队当时就搞出了一个这个控制。

唯一的差别是当时 OpenAI 搞了那个图片生成模型嘛，也叫 DALL·E。DALL·E 中间有个小的模块叫 CLIP，CLIP 是一个预训练的多模态模块，它是可以把语言和图片经过预训练，有一个好的表征。

这个模块是 OpenAI 自己发的，但是在机器人上把它做通，做成一个语言控制机器人叠衣服的那个 demo，是 University of Washington 用了这个模块，加到强化学习或者收数据上，然后实现了这个事情。

所以你最后就看发现这个世界特别遗憾，就是 OpenAI 16 年就想做这个事失败了，20 年又做了一次又失败了，21 年解散，年底发现预训练模型有了，对吧？

然后之后的故事大家也都知道了，大家发现哦，原来我有一个 GPT-4o 这样强的预训练模型，哇，那就机器人也能在家，虽然都是 demo 啊，但是也能做很通用的事情，对吧？

我给他这两张图片编辑一下也能给我弄出来，帮我去做 deep research 也可以。所以这件事情我说了这么多，我想的是说历史上有很多人，其实我自己也做。

当时我自己 17 年的时候在 Facebook，我们当时做 embodied agent，那时候也是希望通过强化学习去做，也失败了。原因就是你会发现强化学习是决策能力，但是理解能力这件事情，强化学习是给不了的，需要通过预训练。

智能乘法32:11

吴翼32:20

所以你依然是需要一个非常好的预训练模型，才能激发出强化学习的能力。所以这里也得说，预训练到现在是不是重要的？

依然是重要的。因为即使你说我最后是通过强化学习实现出了我最后的决策模型的效果，那你是不是在预训练的时候可以为这件事情做考虑？

我是不是在预训练的时候就能训练更好的理解模型，训练更好的记忆，训练更好的基础的长程逻辑能力，对吧？

最后我加上一个特别强的强化学习，就会有一个完整的智能体。所以这里面我一直会说，预训练跟强化学习是一个乘法的关系，它是两个人乘起来才有最后的智能，就起码你得有啊，你不能是空的，对吧？

曲凯33:02

对，这样其实就很合理了。这么一讲，其实很多东西就串起来了。就为什么 OpenAI 把强化学习这件事做起来？

因为它本来先做的就是强化学习。失败若干次，所以它后面再加进来是非常正常的一件事情，很自然的一件事情。

所以相当于说预训练，或者说我们之前讲大语言模型，它做的就是理解、记忆这些东西，然后强化学习进来的做的更多是决策跟一些 action 执行操作，让它有决策和长程思维的能力。

那能不能说这两个现在放到一起就是一个完整体？

吴翼33:30

呃，我只能说我不知道，只能说我们现在看到的最好的 agent 模型，或者这种决策模型，确实它是通过强化学习，通过好的基座模型整合出来的。

但是它有没有更好的范式，或者下一步强化学习算法本身有没有什么改动，这件事情我觉得是空间是很大的。

因为我还是觉得它是个起步阶段，也是说强化学习这个 scaling，就是说我通过决策啊、思考也好，提升它的智能，这个 scaling law 才刚刚起步。

所以你也不知道下面会往哪里走，但是你确定的事情是它肯定天花板没到。哈哈，就是我觉得在至少今年年底，大家都会看到更好的决策模型，更好的通用 agent 模型出现。

新Scaling34:14

曲凯34:15

哎，这个未来发展的方向是什么呢？现在就是听起来其实已经做得挺好的了嘛，但在哪些方面是要再，比如我们知道预训练其实之前就是反正我扩大规模，之前我们讲那个 scaling law，然后现在呢，似乎大家觉得说这个东西已经不太 work 了。

那在强化学习这条路线上，后面再发展会是怎么发展？

吴翼34:32

两个问题。第一个问题是 pretraining 是不是不 work 了，这里要更正，pretraining 不是不 work 了，而是它的收益变小了。嗯，强化学习只是说它在 scaling law 的初始阶段斜率够高，所以大家觉得它比较好做。

就像我们作为一个刚开始的团队，对吧？我也就是强化学习比较好突破，你让我现在从零开始做一个 GPT-4，我也做不出来。

但是我可能做一个单点突破的推理模型是比较好做的。那么我回到这个 pretraining 的话题，pretraining 是不是没有收益，它还是有的。

一，大家还是在洗数据，就我们老说数据是一个叫挖矿的过程，对吧？你地表的石油挖完了，还有页岩油嘛，加压嘛，对吧？

还是能洗出数据来，这差别是很大的。第二是合成数据，比如说我们想一想，我们如果希望训练一个能够很好的做视频理解，或者说多模态理解的 AI，我们希望给它做预训练，那么这个数据该从哪来？

文本还好说，互联网上都是文本数据好，有没有那么多图片和文字混在一起的，并且前后有强关系的数据？

有，但是量远比你文本数据少。好，那么如果你要训练一个好的多模态理解模型，数据哪来？构造是靠合成数据的。

所以这里面其实大家就是从一个浅水区走进深水区了，就是石油都没有了，现在我要加添加剂石油。

好，你添加个啥？这个石油能够燃料好，这个就空间特别特别大了。这是一个。第二呢，是说比如说我们说 scaling law 是要变大，对不对？

那你想强化学习这个模块已经这么复杂了，你要来个 1T 的模型或者 10T 的模型那么大，训练不了。

所以怎么把模型变小也是个好的问题。所以你看 OpenAI 它牛逼的地方在于它真的有 mini 模型，做得很厉害。

所以我们老说蒸馏可耻，我说蒸馏不可耻，你能蒸馏个像 o3 mini 那么好的模型吗？也不容易。

所以预训练几个方面：一，从浅水区走到深水区，走向合成数据；第二，规模能不能有可能小一点的尺寸，同样做到一样的能力，允许你蒸馏。

所以预训练还是有的。那么讲强化学，强化学习我还是说它是在早期的阶段，就比如说我们还是发现能刷的搒其实还没有完全刷完嘛，还是有人在说啊，你决策能力还是不够好，我们再做，对吧？

所以它还是个早期的阶段，智能还能提升。这第一方面。第二方面是说你会发现其实各家是有特色的，举个例子，比如说 Claude，大家会发现其实大部分的编程任务喜欢用 Claude，对吧？

它刷分可能没有 O1 强，但刷分刷的是什么分？是一个编程题，是一个独立的项目帮我做好。那么大部分人的 use case 不是这个，大家是说我现在就想，哎，这个 PPT 帮我画出来，这个网页帮我画出来，然后你帮我抵个 bug，有交互的。

所以跟人用交互的方式有很好的编程体验，你会发现 Claude 这件事情做得特别特别好。那 DeepSeek 最新的这个基座模型也是这样，所以你会发现我到底是要一个特别全面的模型，还是说，哎，有这样的一个模型，就是专注于代码，把代码做得特别好，所以还是有分化。

这个其实也是跟比如合成数据有关系，然后跟他们的训练方式也有关系。所以这里也有另一种可能，不确定啊，就是有可能不同的大模型公司走向深水区之后，他们会有不同的个性。

可能你去做 deep research，做这种网页 agent，你就喜欢用 GPT，然后你说我写代码，可能你就喜欢用 Claude，然后你说喜欢什么都会一点的，你就用 Grok。

所以这里面还是有差别。

曲凯38:08

嗯，我还想追问一下，就是像大家都理解 pretraining，大概能理解，就是反正我往里对更多高质量的数据，或者做一些算法调优调参，对吧？

那到底强化学习这件事是怎么样算训练得更好？

吴翼38:22

我觉得首先还是看指标，就是你指标都不够好，那你一定训练得不够好。

曲凯38:28

指标你指的是难的些指标，比如说代码的指标，比如说你强化学习，那你起码在数学的分数上要刷得足够高。

对，我想问的是这个过程是怎么做到的，是靠调参数还是靠什么东西？

吴翼38:41

啊，这个真的是炼丹。哈哈，这就是炼丹。它有很多丹嘛，就是你有调参数啊，你有训练算法上的改动，然后你有数据。

特简单嘛，你就想我找一个学生，我想让他做奥数培训，那老师出什么题也关键啊，对吧？有的老师说，哎，你这个地方有能力欠缺，我给你来两道题，回家做，做完了你就会了。

这是高级教师，对吧？有些学得不好的，你给他天天灌小学数学题，说你去刷题，刷了半天没用啊，对吧？

所以出题也很，数据也很重要，然后算法很重要，基建很重要。比如说我们的基建，我们说 7B 的模型两天就可以训完，但我们最早的一版模型，可能 7B 模型是要训一个周的。

那你想我一天多两天，一周迭代四次，四次试错的机会，对吧？我训练一个模型七天才能看到效果，那这个完蛋。

所以有很多这样的因素耦合起来。嗯，但确实要看最后的结果，因为强化学习是一个你过程很难讲的东西。

就是他经常会发现就是，哎，你看着它长得很好，但是后来突然不长了，或者说训练训练一直不太长，突然开始猛增都有可能。

所以这个事就是我们 DeepSeek 老说啊哈 moment，就是它顿悟时刻，这事很难的。所以判断只能看它最后的结果到底好还是不好。

那么你要看最难的几个指标，但是高呢，也不代表你模型真的好啊，你最后就是体感。体感这事怎么说呢，就是你自己去试了。

曲凯40:02

嗯，所以其实我能不能理解，大模型里面现在反正就两条主线，一条是训练往理解方面加深，一条往决策方面加深。

团队人才40:02

曲凯40:09

但我好奇的是这个，比如说我们说现在大模型的组织结构来讲吧，可能这个比较好理解一点，就这两件事现在是一个人核心在负责，这个人是他具备多种能力吧，都很强，还是这两件事是分别的两个人在平行的线上去跑？

吴翼40:24

首先最好的情况就是大家分得没有那么开。当然我觉得预训练和后训练其实这两个范式还是差别比较大的，所以肯定至少你有个预训练团队和个后训练的团队。

但是我理解最好的情况是分工不要分得那么多。比如说我们举个例子，那你做强化学习后训练，你要不要去考虑数据？

要的。那你有一个预训练好的预训练模型之后，你得先做冷启动，去做 SFT，那 SFT 用什么数据？所以你说后训练的人完全不管这样的监督数据吗？

你可能也不是。可能训练之后你说啊，可能这个基座模型缺某些能力，你还得跟预训练的人说你帮我补一些这样的数据。

所以我觉得大致还是可以分成，比如说预训练啊，比如说多模态的一些训练，然后比如说做语音的肯定跟预训练不太一样，后训练跟这个也不太一样，然后做 RLHF 的人可能跟后训练不太一样。

我觉得大概还是可以通过目标来区分的。但是我觉得 AI 时代团队的最大的差别是在于需要每个人有破圈的意识，就是你最好所有东西都知道，才不容易出问题。

曲凯41:28

嗯，所以模型理解这件事情，包括 4O 的，刚才我们说图片理解这个东西，理解本身跟 IO 是完全不相关的，可以这么理解吗？

吴翼41:37

我认为它大量的理解是出现在预训练阶段。我觉得 IO 显然是会有理解能力的提升的，但是我会觉得它的基础能力是在预训练奠定的。

就 IO 更多的是激发它的理解能力，就是我知道你的能力要这么被用起来，但是它不会带来这种基础能力的跃升。

曲凯42:01

明白。那这样的话，多模态生成啊什么的，其实也是跟 IO 其实现阶段关系不大的。

吴翼42:06

生成应该是没有太大的关系。所以我一直觉得就是说生成都是容易的，理解是困难的。

曲凯42:13

所以多模态理解其实也跟 IO 没什么关系。

吴翼42:16

对，我前段时间还刚听了一个事实，可能很多人是想不到的，就是去理解一张图片花费的 token 其实比生成是要高的。

曲凯42:24

是。这个背后的原因是什么？

吴翼42:26

就是理解是一件更难的事情啊。就是就或者我这么说吧，因为其实核心是可控，或者说 instruction following 的能力是你现在理解指令是什么。

那么你首先得看得懂那个字，比如说我举个极端的例子，你没学过俄文，我把那个指令写成俄文，你 IO 学一辈子你也学不上。

但不是说没有可能啊，有可能你刷了大量的题之后你也可以。就是它是一个效率极低的过程，你最好是你这哥们，你预训练的时候你就会俄文，但是呢，我 IO 就是你先认识俄文字，那我 IO 的时候我经过给你训练，我可以比较快的让你说，哎，我就知道俄文题怎么做。

就画画也是一样，对吧？你画画本身有个能力，然后呢，我发现你只要有能力之后，我能跟你讲明白，你就能画了，对不对？

就是只生成这个事情本身是都能做，但核心是说我给你两张图，给你三张图，然后交互式的让你把最后给生成出来，这个是难的。

曲凯43:22

对，我这里还想再追问一个点，就是我们刚才讲到，比如说最早的 IO 买机票其实不太行，因为它理解能力不够这个点。

吴翼43:29

对，那理论来说我的理解是 IO 它反正是一个奖励你得到那个结果嘛，然后去用各种方法去试。

对，那只要我最后要判断那个结果是他成功了，买到了我想要这个机票就 OK。对，那为什么他一定要理解前面的所有东西？

OpenAI 最早就是这么想的，所以他们失败了好几次，就是投铁嘛。这里面的核心是泛化能力的问题，比如说我们去想下围棋，我们知道只要强化学习就可以了，但是你说让一个下围棋的 AI 去下象棋它行不行？

这个就不行。为什么？因为它的所有训练过程是在那一个围棋棋盘上进行的，所以它的所有的推理逻辑是基于那一个棋盘进行的。

那买机票也是，你世界上的主要航空公司几十家，几十家机票都能买的又怎么样呢？我给你再来个新的航空公司，你很难保证这个 AI 到底是记下来了，还是它真的说啊，我知道看图片上的我理解了。

但理论上说，我如果世界上我有一亿种网页，我就让你狂点，理论上也可以，但它肯定是效率很低下的一种方式。

曲凯44:37

我理解了。我觉得这个简单来讲就是当时的 AI 纯粹就是死记硬背。

吴翼44:42

对，或者说你希望它能够学出一种更高级的理解。不好意思，数据真的不够，或者数据广度不够。

曲凯44:49

嗯嗯，然后我问一个很马后炮，甚至于可能有点白痴的问题啊。你看我们觉得要训练一个人工智能，那首先它肯定是得理解这个世界，或者说大家先想的是我要做有用的东西，所以它要具备决策能力，所以我先用 IO 来做。

用 IO 来做呢，发现它理解上是欠缺的。对，所以呢，我要训一个能理解的模型。对，或者说有公司可能我先训了一个理解的模型，然后发现它要做 AI 智能要做的东西的话，肯定要加决策。

那这时候决策最好的肯定是 IO，然后我要把 IO 训好呢，它肯定最好的就是说我给它有标准答案的能 reward 的东西来训，对吧？

所以这里面就是数学题啊之类的。对，这个逻辑听起来非常顺啊。为什么大家摸索了这么多年才摸索出来啊？

就听起来是很必然的一个结果嘛。为什么 IO 这个事是最近才得到共识？

吴翼45:35

对，我觉得我们简单来说一些事吧，比如说我们发现 IO 不够这件事情，这个事情是大家反复试错，直到比如说我觉得对于我自己，我可能最早 IP 做这个事情的人，我自己意识到这件事情是可能 18 年的时候，我充分意识到当时具身智能的所有瓶颈在视觉，跟 IO 毛的关系没有，所以我放弃了，不做了。

哈哈哈，对，现在其实也是。然后所以首先大家花了很长的时间去发现它真的不行，OK，碰壁了，对吧？

第二件事情是大家发现，那你到底需要多少数据可以让它泛化呢？这是 scaling law，这事情要变成当年到底是 BERT 这种监督性的学习，还是 next token prediction，其实比较像 Yann LeCun 一直很长时间都是说我们要 contrastive learning，我们不要用生成方式去学，我们要用一些别的监督的对比的方式去学，对吧？

直到 GPT-3 scaling law，有人在还不是图像啊，是在文本上实现了这件事情。而且这个中间有很多偶然，比如说 Ilya 说想做，没人帮他做，Alex Graff 说，哎，我试试，这哥们够强，这哥们要是个菜鸟也干不出来。

所以大家可能又到了 scaling law，发现哦，原来这个 scaling law 这么牛，然后再往后说我们来试一试，然后我们来做这件事情，然后大模型是不是能有通用的推理能力这件事情也是不知道的，也是可能有人坚信这件事情，然后一帮人探索了一年两年。

我现在回头告诉你，觉得逻辑通是因为每一步逻辑你都知道它是对的。我们如果回到那个年代是战争迷雾的时候，为什么 IO 不行？

有人说我要做预训练，哇，那时候没人做预训练，或者说预训练要用生成式做预训练，还不是用监督式的方式做预训练，哇，这个事情又要老后了。

所以我觉得现在只能从后验来看，这件事情是顺的，它确实是顺，因为就是答案往往都是简单，如果它不简单，说明答案是错的，对不对？

曲凯47:34

是，所以就确实是一个马后炮的问题。

吴翼47:37

对对对对对，然后现在好多做 agent 的公司，其实它内部可能都会想要说我要配一个 IO 的人。嗯嗯嗯，你觉得这个事是 make sense 的吗？

是有必要的吗？我觉得 make sense 啊，就是你至少有一个人对这件事情有认知。因为我觉得虽然现在 IO 的门槛还是很高，就像我们自己在做开源嘛，那我们做开源的一个目的也是希望让这个门槛降下来。

那么比如说一年啊，两年总是能降下来的。那么最终你说大家有没有可能自己都简单微调一下，用强化学习做微调，我觉得肯定这一天会来的。

多久这事你不知道吗？你先储备一些人总是没错的。

曲凯48:14

但你看类比的话，其实前两年大家都在讨论说英语公司到底要不要自己做 pre-training，对吧？要不要有自己的一个模型？

现在基本上没人讨论这个问题了。那过两年会不会说就模型能力也包括它的 agent，包括它各种决策 IO 能力也足够强了，然后创业公司或者说一些英语公司也不需要自己做相关的事情？

吴翼48:34

哎，这个其实我觉得就是创业公司可能需要思考的问题。我且不说它到底是答案是怎么样的，就是我觉得创业公司是不能想终局思维的。

嗯哼，它一定是在想一个 partial solution，我该怎么做。因为我觉得创业公司如果去想终局没意义，那别活了，对吧？

这世界没有你的机会。

曲凯48:53

对，尤其是现在 AI 变化这么快。

吴翼48:55

对，所以这里面的关键在，比如说我觉得 MENAS 就是一个特别好的，我特别喜欢他们。嗯，因为他们其实就是有一定的模型训练能力，就是你可以说它最终没有意义，没关系，创业公司，那你的切口就是在一个终局没有到来的时候，你把这件事情做了，对吧？

所以其实 MENAS 是说你看他们在这个市场上没有这样一款产品的时候，他们用最快的方式，用微调也好，调 API 也好，给你传出了一个可用的东西，这个就是创业公司的机会。

如果你创业公司老想的是啊，最后有一天就会能用，呃，拜托，那那你还做啥呢？那你就趁早投资结呗，对吧？

曲凯49:31

嗯，对，然后你看大模型训练的人，其实前两年是非常缺的，现在肯定好的人也仍然是缺的。

因为这个事呢，也就是这两三年，尤其在国内才起来。但是 IO 这件事情已经至少 10 年了嘛，为什么现在大家还是觉得这个人才非常缺乏？

吴翼49:49

啊，我觉得首先客观上讲，我们去看论文引用数，对吧？你是做 CV 的，做 NLP 的引用数都很高，然后你说你就在 IO 的引用数就会少一个 order，这个就是本质上还是门槛变高了。

特简单嘛，那你机器学习的问题定义简单，你 IO 哇，环境配好跑下来能复现，哇，这已经筛掉好多人了，然后它数学还会更麻烦一些，所以它本身的门槛就高。

所以客观上讲，研究 IO 的人，他就是比做这些视觉的，做 NLP 啊，去做推荐的这些人就少。啊，第二件事情呢，我觉得挺遗憾的，就是可能在工业界大规模使用强化学习的机会其实是相对比较少的，比起 NLP，比起视觉。

所以你想很多人他可能在学校里面做，但是他没有一个工业界的人才池，所以这个人也会少。然后呢，第三件事情也是，强化学习其实对工程的要求非常非常非常高。

我所以也说很遗憾吧，就是很多公司其实它的业务场景肯定是少的，所以导致很多人也没有这样的机会去用大规模好的基建，用工程化的方式把这个强化学习 scale up。

所以其实我回国的时候做的很多工作，比如说我们当时做了一个多智能体的一个框架，叫 MAPPO，到后来我们去做大规模强化学习的框架 SRL，到最近我们做 AREAL，其实都是我们希望，因为我们发现国内做这个工程化的强化学习的人真的好少，所以我们也是自己会去做一些这样的工作，去做开源。

所以多个方向吧，就是一，确实是门槛高；第二，确实是人少；第三是它的工程门槛比大家想象的厉害，然后大家又没有这样的实践的机会。

所以总体上就会少。

曲凯51:37

对，而且我觉得 16 年那波就是 DeepMind 的那个 AlphaGo 起来，其实带动了一波，但后面好像 IO 的热度是不是又下去了？

吴翼51:45

对，是的，就像 OpenAI 也碰壁了嘛。嗯，而且很多 IO 的人其实转向机器人了。

曲凯51:50

对，所以我在想你当年学这个的，你是哪年开始读 PhD 的？

吴翼51:54

我 14 年读 PhD，对，那个时候它算是一个冷门专业吗？或者说你可能有过几年比较难过的日子？我是运气比较好，因为我在 Berkeley。

嗯，我觉得北美强化学习高校的大本营是 Berkeley。嗯，这个也是感谢当时的几个 professor，就当时是 Peter Biel 老师，然后 Sergey Levine 老师。

当时我印象特别深刻，是可能 14 年底还是 15 年初的时候，当时 Peter Biel 跟组里面开会，他是做机器人的，他说不行，这个时候我们全组 all in deep reinforcement learning，我们不做别的了。

然后伯克利又是一个合作起来风气非常好的，所以因为我早是 Stew Russell，但是我其实也跟 Peter 做了很多的工作，然后还有别的组，也是感谢伯克利当时那个氛围，然后让我们去有了这样的合作。

因为我最早做强化学习，我第一篇工作 Value Illustration Network，当时拿 best paper 那个工作，其实也是合作的。我是敲 Peter 的门，我说 Peter，我想试试这玩意儿。

哈哈，Peter 说你这些项目你挑一个吧，我说我挑这个，哈哈，挑了个 best paper。然后 OpenAI 早期的时候，其实 Peter Biel 在 OpenAI 当 chief scientist，然后他也让 OpenAI 跟伯克利有很强的联系，所以这也是比如说我当时那个引用最高的工作，就是跟 OpenAI 的同事一起做的。

所以我得说这个呢，也不是说我就多牛，或者我选的特别强，就是运气好，我在那个地方。

曲凯53:16

所以今年应该是 IO 就是彻底起来，因为图灵奖也颁给了那两个 IO 的人嘛，对吧？

吴翼53:21

对对对，对，那这里我看有比较有意思点，就是图灵奖那个萨顿，他其实本科是学心理学的。

曲凯53:26

是，哈哈哈。

吴翼53:27

对，所以就我就回到你开头讲的，就是人生本身你觉得就是一场强化学习，我觉得好像有点呼应的感觉。

呃，其实蛮有意思的，就是很多做 AI 的人就本科不知道学啥的，就是就是国外其实蛮多的，稀奇古怪专业出身的人，非科班的人其实有不少，尤其其实强化学习在很长一段时间是个冷门领域。

嗯，就是他真的到出圈，就我讲句不怕别人笑话，就是我升 PhD 的时候，我 2014 年入学的，我当时拿了 CMU 的 offer，拿了 Berkeley 的 offer，我那时候不知道世界上有个东西叫 reinforcement learning。

我第一次听说是 campus visit 的时候，Alex Mola 当时他那个办公室说我太忙了，我学生约不过来，你们俩人一起来吧。

我去在那跟他讲 large scale machine learning system，旁边一个小哥进来说，哎呀，我们能不能搞 large scale reinforcement，我说 reinforcement 是什么东西，哈哈哈。

所以真的，你想我们其实也是接受了最好的中国的计算机的科班教育了，不知道，我真的不知道有强化学习这个东西，我们的教科书上是没有的。

所以我们得说中国的整个起步是晚的，但是美国就不一样，美国就是你想，反正这些小众领域，那么多少年前都有人研究，然后那高校那么多。

所以你想 Sutton，他们一直在阿尔伯塔大学嘛，对吧？UMass Amherst 在中国人看来绝对不是主流高校，中国人哈耶普斯斯坦福，伯克利 CMU 嘛，就是阿尔伯塔 UMass Amherst 啥学校啊？

你要是放 10 年前，如果不是图灵奖，你说让学生，哎，你这里有个 offer，肯定不愿意去，对吧？

所以就很多有这种人，他们是在犄角旮旯里边，然后最后有一天把它做成。

曲凯55:04

是，所以现在如果国内的公司，他真的现在想招一个 IO 的人，或者想培养一个 IO 的人，大概需要做什么，或者包括怎么判断？

吴翼55:13

我觉得这事挺难的，而且我不太想给这样的建议，因为我觉得这个东西是非常带个人风格的，而且不同公司不同阶段它需要的人就不一样。

我比如说大公司，可能你觉得招一些研究背景更强的，对吧？然后你可能小的公司，你可能需要的是动手能力特别强的，对吧？

所以我觉得这里面挺难讲的。但其实我觉得在这个时代，尤其大家开源这么多，自媒体这么多，然后途径也这么多，大家也愿意去宣传，其实更重要的事情是动手。

如果培养的话，我会觉得是一个不要有边界意识，他愿意去做很多东西，他愿意去学，发自内心的想学，去动手，这个我觉得这个人都是可培养的，不管什么领域都是。

曲凯55:55

嗯，那你觉得强化学习未来的一些发展的路线和可能性是什么？

吴翼55:59

其实刚才大差不差也说了，我觉得首先肯定是 scaling，就是你肯定还是可以提升智能，这个 scaling law 没有停下来，当然它这个 scaling law 的本身可能是跟预训练结合起来，这是第一条。

分支框架56:10

吴翼56:11

那么 scaling law 完了之后，就像我说的，其实很多公司开始做不同的特色了，比如说有些公司泛化性做得很好，比如说 DeepSeek，对吧？

它出圈那个大的原因就是说它哲学体验的，跟你想一想，对吧？泛化性做得很好，比如说 Claude 代码做得特别好，还有比如说 agent，就 OpenAI 其实 agent 做得特别好，对吧？

我一个模型从头到尾 deep research，不要你写特别复杂的代码，但是你要很多次的交互去调函数。所以我觉得这个方向，比如说泛化性，比如说 professional code，比如说 agent function call，我觉得是分叉的这些点。

当然我觉得还有别的点了，我只是举例子，我觉得首先是一个主的树干，嗯，然后会有分叉。

所以这也是我自己最近在想的，就是说我们这个团队往后走，往哪个方向走，但我觉得大家都可以讨论。

曲凯56:55

哎，你那天好像提了一个，我在三个方向是吗？

吴翼56:58

对，我就说泛化代码和 agent，这是三个挺大的分支，而且都可以长出非常大的东西了。

曲凯57:06

嗯哼，我在想决策这件事的 scaling law 最后在用户端体现的感知是什么？你文字其实是很明确的，对吧？

谁写的更好，谁写的不好之类的，但决策这件事最后整个结果的准确率还是什么？

吴翼57:21

几个东西啊，首先是结果准确率啊，比如说我们去说数学题，我们给你写一个分析报告，对吧？

帮你去 deep research，或者 operator 帮你去网站上完成一些操作，对吧？这是准确率可以判断的。当然交互体验也是啊，就比如说 Claude 那个前端代码写的就是好，对吧？

它本质上还是可验证，只是说到底是 benchmark 验证还是人的体感验证。还有一个我觉得特别重要的东西是多轮交互，比如说我觉得 Claude 特别强的一个地方，一般你正常的模型给它一段代码，让它 debug，它就说啊，我来帮你看看这东西怎么 debug，bug 可能在这儿，Claude 会问你问题的，Claude 会说你装的环境包是什么，你装的 CUDA version 是什么，这就不一样。

你想本质上跟你做个性化交互的时候是要有交互的，它是要问问题的。那么能不能有一个 agent，它除了做事，它能适时的去给你问问题，适时的能给你做一些个性化的选择，这里面其实水很深的，我觉得。

曲凯58:20

哎，问问题里面到底理解跟决策的一个占比是怎么样的？

吴翼58:25

我觉得这很难说，都是一个综合的结果。

曲凯58:28

对，就是我觉得它是 A 乘 B，就比如说你让它看个屏幕，屏幕上的字你这帮人看不清，嗯，让它分各个图像里面有几个物体，它都点不出来啊，那不好意思，我觉得你肯定完成不了。

你去上网帮它，比如说买东西的任务，对吧？

吴翼58:43

对，但我就说它在哪个节点提问，什么时候提问，提什么问题，这个更多的。

曲凯58:48

这可能是推理了，还是 IO，对吧？

吴翼58:50

这还是 IO 来的，就是你能理解过去发生了什么，对吧？然后你能做出正确的决定。

曲凯58:55

明白，然后你们其实一直在做强化学习的框架吧？

吴翼58:59

对吧？然后正好这周新发的一个框架。

曲凯59:02

对，对，你能不能给大家解释一下，就框架这个事，对于强化学习到底是个什么概念？

吴翼59:06

两个事，第一件事情呢，是首先因为强化学习还是一个 scaling law 嘛，它是比如 post-training scaling law，或者说这种叫强化学习 scaling law。

曲凯59:15

那我打断一下，我追加一个问题啊，就是之前大家讲 post-training，讲 scaling law 的时候，不一定是一定是强化学习的，对吧？

吴翼59:23

其实是，我觉得就是它原来只讲 post-training。

曲凯59:25

对，因为在 RLHF 时代做 alignment，但是讲上 scaling law 这个事，是因为 O1、R1 出来了之后，跟强化学习连上了才讲 scaling law 的。

你就你继续讲框架的问题。

吴翼59:36

框架我觉得是两条，因为第一它首先是 scaling law，那你首先要能 scale，你能 scale up，所以你好歹要有一个框架，能让你真的在 1 万张卡上去做大规模强化学习训练。

这就是说你要宰牛，你好歹得有牛刀，对吧？那么很多公司的这框架是不开源的，就像我们这个框架的前身，或者再往前的前身，就是当时我们发现 OpenAI 在打游戏时代，打游戏也需要框架呀，对吧？

你要去打 Dota，那你要大规模并行模拟 Dota 呀，那个这个框架怎么来？所以当时我们说那开源的没有啊，那只能自己写。

那么现在也是，就开源有好的吧，但是可能没有我们自己用的趁手的，所以我们有些自己对于框架的想法，所以就搭了。

所以一是你得有牛刀，你好歹先跑起来，对吧？跑上一个月，哇，这个已经很了不起了。第二件事情就是快，IO 我们知道这个模块太多了，它是个复杂系统，之前说 MESS 就三个模块，加上 agent 四个模块，每个模块本身都很复杂，而且这个交互的模式还不可预测，你怎么知道这个 agent 会怎么跟环境交互啊？

所以中间就会有很多很多的可快可慢的东西，一个复杂系统嘛，就像一个公司，对吧？你有好多部门，那个效率差个 10 倍不夸张吧，对吧？

那你就想，那 AI 在算法迭代阶段，本质上是一个你能做多少实验，你就有多少 improvement 的地方。那么你想一个 infra，一个系统如果能 10 倍，哇，你就能多做 10 倍实验，那进度可不快吗？

所以我们一是先得有牛刀，得能跑 agent 强化学习，第二是也希望这个东西尽量能快。所以我们最近也是跟很多做推理引擎的团队，比如说我们跟 SGL 就做了一些联动，然后我们也希望后面跟他们做一些合作的开发，能让这个模型尽量快。

曲凯1:01:29

所以你们现在核心就像这周发的那个框架，主要进步的地方就是快。

吴翼1:01:34

一还是稳定，能在 7B、32B 都能做稳定训练，当然 32B 还没有达到我们想要的效果，我们还在训练。第二是它确实快了很多，两件事情都让我们觉得它是一个可发的版本。

当然其实我们内部还有很多想做的东西，而且我们内部其实也有更快的版本，但我们没有把它完全做到我们一个满意的状态，所以我们应该会很快有下一个版本。

曲凯1:01:58

对，你后面所以主要研究的一些方向，或者自己在花时间的一些方向是什么？

吴翼1:02:03

首先我自己最感兴趣的，就像是我说的，就是 AI 和人交互应该是一个怎么样的范式。我觉得它是个非常强化学习，而且它有意思的地方是在于，如果对面是个人，那么人一定有 partial 或者 hidden information，就是很多时候大家去做指令遵从，是假设的指令讲完了所有事情，但是大部分其实其实不是，对吧？

所以你才会有交互，才需要决策，因为你需要去猜人是想什么，有什么信息可以去问。所以这个其实像因为我过去做泛化性啊，做多肢体学习，可能在这条线上，这是我最感兴趣的问题。

那么短期其实我们就是在做追赶的问题，对吧？因为我们首先得先追上嘛，主干 scaling law 我能顶上来，还有后面技术路线的选择，毕竟是个起步比较晚的团队。

曲凯1:02:47

你说追赶是说你们团队在追赶？

吴翼1:02:50

对，追赶世界一流嘛。

曲凯1:02:51

对，我们一直都觉得说，比如之前两年我们总讲说预训练国内还是至少比海外晚个一两年，对吧？

现在在慢慢在追上。

吴翼1:02:59

对。

曲凯1:02:59

所以你觉得强化学习这件事情，现在国内跟海外的进展的区别大概是怎么样？

吴翼1:03:05

至少你能看到明显的差距。我举个例子啊，比如说 OpenAI 和 Claude 特别明显，他们有在强化学习环境里面大规模训练 agent 的能力。Claude 那个模型，Sonnet 肯定是强化学习出来的，然后 OpenAI 那个 deep research opportunity 它已经说了嘛，它就是。

那国内似乎还我不知道 DeepSeek 做成什么样了，就至少我们从放出来的东西来看，至少我们看这里面是有 gap 的。

大家就是推理做的还都可以，对吧？单做代码做的也都还可以，但是你说做到那么细，那还是有差距的。

而且这里面也有很多算法探索的东西。所以我个人因为我其实 3 月份 GTC 我也去了一趟，跟美国的朋友们也 catch up 了一下，我还是觉得美国还是比较领先的，尤其这种探索性的东西，国内是追嘛。

但是到底差多少，这个我不能随便下判断。

曲凯1:03:57

明白，如果按你讲的，就是我们把模型的效果等于一个 pre-training 乘以 post-training，或者说理解乘以决策，我是不是能理解成现在其实 pre-training 也是有差距，post-training 也是有差距，只是 DeepSeek 可能在 post-training 上走得更前了一步。

吴翼1:04:12

它其实基础模型也很好，但是你要注意到 DeepSeek 一直没有做多模态哦。嗯，DeepSeek 也是一个非常专注的团队，所以 DeepSeek 我还是很佩服它的事情，就是一个小的团队在有限的资源下，它把一件事情做到极致。

嗯哼，所以这个可能也是 OpenAI 开始 slow down 的原因，因为它变成 Google 了。嗯嗯，对，我觉得它现在特别像 Google。

对，但是 Google 你说它目标明确的时候，它做的东西也挺好的。

曲凯1:04:36

是，对，所以反正总体而言其实差距还是在的。

吴翼1:04:40

对，但我觉得大家就是谨慎乐观。

曲凯1:04:42

嗯哼，然后关于 RL，你觉得有没有什么是你比较认同，或者你觉得就是目前行业里面是有一些错误的判断或者共识的东西？

吴翼1:04:52

我觉得其实大家可能没有意识到，就是 IO 的数据，IO 的基建非常非常重要，数据大于算法吧，我觉得基建远大于所有。

曲凯1:05:02

基建就是指的是你们做的框架。

吴翼1:05:04

对，框架就是当你有屠龙刀啦，刀能比较锋利啦，这个基建是非常非常难的，而且基建需要有能做工程的算法同学去做，因为这个东西最后是个复杂系统，它是为算法服务的。

所以这个其实要破除很多概念，就很多人觉得工程是工程，算法是算法，强化学习真的不行，因为你很难标准化去定义我要什么。

所以有一个好的基建是非常难的，而且需要很多时间打磨的，然后它远远比算法本身重要。当你有一个团队能搭出个贼牛逼的基建的时候，它算法不会做得差的。

嗯啊，其实 DeepSeek 也证明了这件事情，然后它数据也很好嘛。很多人会觉得啊，强化学习听起来好算法的一个东西啊，是不是还能用预训练的方式去想这个数据，但我觉得它其实是一个小范围的共识，但只是需要被人听到，就是基建非常重要，数据重要，算法重要，但不那么关键。

哈哈哈，就是算法你只要有一两个能判断对错的人就可以了。

人生课1:06:05

曲凯1:06:06

明白，我最后一个问题啊，还是回到你刚才讲的生那个问题，大家好像是研究各种决策，研究各种路径方法等等。

你觉得你在这么多年研究强化学习，有没有其中的一些点是能够泛化到人生这件事上，给你很多启发，或者你能够用在一些决策上的点？

各种算法，各种 paper 里面研究的东西，这些是不是其实放在人身上做决策也会有些参照性？

吴翼1:06:35

就是我做强化学习有一套我很喜欢的论文，但它其实没什么引用，叫 Diversity-Driven Reinforcement Learning。传统强化学习其实我只要赢，所以你会发现强化学习打游戏，它一旦发现那个赢的策略之后，它就在那，我就不停的打。

嗯，比如说我要踢足球，我中路一个人带球单刀，我赢了之后我就会每次都这么单刀，这是最 efficient 的，最稳定能赢的方法。

但是你会发现人一般玩游戏的时候一般不是这样，你会想啊，我玩一次我腻了，再给我换一个，我要短传胜特，我要传中，我要投球，对吧？

这个是人生的样子。所以我觉得 diversity 这件事很有意思，因为其实人之所以为人，是因为有不同的人，他有 diversity driven，就是我一定要跟你不一样，这件事情才导致了大家有各种不一样的生活，不一样的决策。

曲凯1:07:20

对，我们之前录过一期德芙主题的播客。嗯，对，那个就在讲说他现在发现最好的牌手越来越趋同，就是大家都在学 AI。

对，然后这个游戏就变得变得没有意思了。

吴翼1:07:32

对，没有意思了。对，所以我很喜欢那个系列的工作，就是你发现你就是让一个 AI 在强化学习的时候，你加一个 constraint，就说不光你要 reward 要高，还要跟之前你找到的所有 solution 都不一样。

然后你会发现很自然的就会推动这个模型去发现一些很好玩的东西，虽然你也不知道它有什么用，对吧？

所以我其实想跟大家讲的是，我发现其实现在的很多同学也都喜欢去一个风险最低的路径。我跟很多学生聊，他们老说啊，吴老师这个我去美国我有签证风险，我要保研，保研是一个稳妥的选择，我要怎么样怎么样怎么样怎么样。

嗯，我觉得人生还是要追求高商的一个过程。我觉得很多我的学生是 20 岁的年纪，我觉得是大家做所有的事情都是对的，但是你只有去选，就比如说我觉得我确实运气很好，我当时在伯克利读书，但是如果我不去敲 Peter 的门，我不会有机会去选。

就像我当时我不回国选择来看一看，我不会有我后来的各种人生的经历。所以我倒会觉得这里可能会建议大家，可能可以想想 diversity driven reinforcement，可能去追求一种最大商的生活。

曲凯1:08:45

强化学习是怎么选的呢？

吴翼1:08:47

强化学习它在仿真世界里面不会出错嘛。

曲凯1:08:49

就是不是因为强化学习，它理论上来说它是无限次的嘛。

吴翼1:08:52

对，它可以无限次的。但我是觉得即使你在一个很强的限制条件下，就像你打牌嘛，你别把把 all in，对吧？

一般也不会怎么样。

曲凯1:09:02

对，但我觉得问题是无限次，所以它可以试所有选择。对，所以它不会有一个情绪叫做后悔。人经常有这种情绪叫后悔，就是只要你没选的东西你就会后悔，你就觉得那可能更好。

吴翼1:09:13

对，所以我昨天还跟我老婆在聊，就是当你选择之后，其实期望是变高的，那你的 variance 也变大了。

就是如果你只看期望是大概率会变高，但只是它有很小的概率你会变差。大家因为恐惧这个变差，所以导致大家不愿意去选。

嗯哼，所以我觉得这事是一件蛮遗憾的事情，是因为差其实大家差不到哪里去，但是你如果不选，你永远不会去 explore the more。

就像你在 RL 里面在一个 local optimum 里出不来，出去跳一跳，大不了再跳回来。其实我觉得人生只有一次，其实也不是。

我觉得人生怎么着也能选个三四次。

曲凯1:09:49

嗯，然后 reward 这件事情我也想再给你探讨一下，就是你刚才提到的说，其实人很容易说我这段时间奋斗，最后发现我那个目标或者那个东西不是我想要的，对吧？

在深度学习里面会遇到类似的问题吗？就是你中途比如改 reward 还怎么样呢？会有些参照吗？

吴翼1:10:06

我觉得这也是我喜欢的一些研究啊，就是传统的深度学习或者强化学习都不是，就是大家做算法的同学都希望这个问题是 formulate 的非常标准。

我知道这个 objective 是什么，但因为我做多肢体学习，我做人机合作的，那你跟人一起玩游戏不会哦。就比如说我们当时跟人做一个什么 overcook 的游戏，一起玩厨房做菜，所以我们就希望那个 AI 能够猜人想干嘛，然后跟人合作嘛。

所以其实这个东西是一个 information seeking 的过程，就是你只有去试了有交互，你才有 signal，你才能知道那个 reward 是什么。

嗯，对吧？你要是不看，你永远不知道那 reward 是啥呀。所以跟一个不确定的世界交互，一定要去 active seek，你才能看清嘛。

曲凯1:10:54

对，就是有的时候不是我一直找到目标再去做，而是做的过程当中再找目标。

吴翼1:10:58

一定是这样的，因为不可能想清楚。就是我觉得我读书的时候还说大家判断未来只能判断 3 年，我觉得现在判断未来最多一年半，对吧？

哈哈哈。

曲凯1:11:06

一年半挺厉害的。

吴翼1:11:07

一年半已经挺厉害了。

曲凯1:11:09

对，因为你真的你现在回头想一年半之前的那个大模型那些事情。

吴翼1:11:13

我老劝我那些学生，然后我那些学生就会说我先读个博，读个博再怎么样怎么样。我说哇靠，你读完博 6 年过去了，我的天呐，你做这种预测有什么意义呢？

对，但是我觉得很多人可能就希望是这样，但是可能是一厢情愿。

曲凯1:11:30

OK，那最后再来讲一下你们那个框架吧，再来宣传一个。

吴翼1:11:34

对，我们最近开源了一个框架叫 AReaL，然后我们这其实是 AReaL 的第二个版本，叫 AReaL boba，就是一杯真正的珍珠奶茶。

哈哈哈。但它全称是 Ant Reasoning Reinforcement Learning，是一个我们跟蚂蚁研究院一起做的一个强化学习训练框架，然后我们也把它开源出来。

基本上自己测下来应该是开源里面非常快的一个框架。同时呢，我们也把所有的源代码、所有的数据、所有的模型、所有的评测脚本都开放出来，然后我们也在 7B 的尺寸上是用强化学习做到了一个 SOTA 的标准，就是我们应该是第一次我觉得公开汇报在 7B 模型上，在 AIME24 做到 60 以上的一个挺高的一个分数。

所以我们也觉得这个框架也算还不错吧，然后也确实开源了之后，我们也希望有更多的人如果想用强化学习做尝试的话，可以来尝试一下我们这个框架，也可以来关注我们这个项目，然后我们后面也会持续的发布，跟蚂蚁一块，大家都是一个完全开源的状态。

曲凯1:12:36

对，欢迎大家去 GitHub 点赞。

吴翼1:12:38

对，谢谢谢谢谢谢谢谢。

曲凯1:12:39

好，谢谢

。