我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

开场0:00

There's something there.

曲凯0:20

我们今天很开心请到 Pokee AI 的创始人 Bill。Bill，我们也是校友嘛。

朱哲清 Bill0:24

对对对。

曲凯0:25

你先简单介绍一下自己之前的大概的情况。

朱哲清 Bill0:28

我之前 7 年半一直都在 Meta，然后后面几年是在 Applied Reinforcement，就强化学习团队做负责人。负责的事情呢，主要就是把强化学习这一套框架，以及研究落地到广告、推荐系统、以及 infra 各个方面。

同时的话，过去 6 年多我在 Stanford 也读了强化学习的博士，去跟 Benjamin Van Rooy 是做 RL 方向。然后最近刚刚出来做 Pokee AI 这个 startup，主要核心目的就是要以强化学习加 LLM 为核心，做出一个在推理能力、个性化、各方面更强的 AI Agent。

曲凯1:05

所以你之前其实主要是技术背景？

朱哲清 Bill1:07

对，纯技术背景基本上。但是我在 Meta 的前 3 年其实做 ML 落地比较多，负责 Meta Ads 的 2B 业务的 ML 推荐系统的落地，以及第一批的强化学习的落地模型。

当时我们做了 RL 在广告的那些折扣上面的一个应用，也是 Meta 的第一批的 RL 应用之一。

曲凯1:30

对，就为什么这次请 Bill 来聊。我觉得现在海外其实大家都知道有好几个东西很热，其中一个就是强化学习，一个是 Agent。

然后你现在是用强化学习来做 Agent。

朱哲清 Bill1:42

对。

曲凯1:42

对吧，这两个正好都占上了。所以我觉得我们今天可能可以多聊一些美国那边的 Agent 啊、强化学习啊等等这些相关的东西吧。

还是想先从 Meta 这段经历开始。因为你之前 7 年对吧在 Meta？

朱哲清 Bill1:55

7 年半。

曲凯1:55

7 年半，还挺久的。对，而且核心做的都是深度学习、强化学习相关的东西。首先我好奇的是，这个东西其实是最近一年又开始热起来的，对吧？

RL 新纪元2:05

朱哲清 Bill2:05

对，之前很多人对强化学习都有他们自己的怀疑吧。因为强化学习在 16 年完成 AlphaGo 那一批，以及在各种游戏上面的突破以后，后来很长一段时间大家都觉得没有进展。

当中有很多很多的问题啊，就是核心的一个痛点在于说，这些环境都是游戏环境，你可以不停地跟这个游戏环境去进行交互，去得到结果。

但是你在真实环境下很难得到这样的问题。那与此同时，大概 20 年左右的时候，比如说那一系列 GPT、NLP 那一波，开始慢慢慢慢变火了。

当时就觉得说，哎，很多的规划问题，或者说这种多步决策问题，是不是 LLM 已经可以做了。然后与此同时也出现了很多 Decision Transformer 类似于这样的文章出来，说 OK，我们可以完全用 Transformer 作为 inference 的方式去解决问题，完全不需要再用强化学习了。

那最近又热起来的一个核心原因是，大家发现在更复杂的规划或者推理问题上面，只是通过过往的经验，以及一定程度的模仿型的学习，已经不足以完成这个问题了。

所以即便 OpenAI 他们也开始转型，说 OK，我们可能要做一些规划型的这种 Agent。比如说 O1 的时候，大家猜测就是它最后在 inference 的时候做了 MCTS，类似于这种规划型的能力。

那它的核心目的就是能够找到说，现有数据集，或者它在预训练或者 post-training 以后没有得到过的这种能力，能不能通过搜索来得到，去探索未知，或者说平行宇宙式的这种路径呢，这是 RL 比较擅长的。

所以为什么大家会觉得说 RL 可能要焕发新生了。那最近 OpenAI 他们做 O3 和 O1 的一个 researcher 吧，他们在 Twitter 上面还说，因为发现了 RL 非常 powerful，所以他们最近的思考问题的方式全部都被 RL 化了。

我跟很多人分享一个看法，就是 RL 跟现在大模型这一系列的，并不是一个平行的这种操作模式，它可能是垂直型的。

就说你可能可以把大模型跟传统的神经网络做对比，但是 RL 是一种学习方式，所以它仍然可以和现在的 Transformer 这一套并行起来。

它也可以利用 LLM 的能力去使规划能力更强。所以我觉得强化学习能够在 LLM 井喷的今天，可能会有更长足的发展。

曲凯4:30

嗯，所以你觉得它并不是一种，比如技术发展上的倒退或者怎么样？

朱哲清 Bill4:35

啊，不是。可以联系到我自己为什么出来的一个核心点，就是我认为 LLM 和今天算力增强以后，大模型的能力的提升，是 RL 能够接下来有巨大成功的一个基础。

过往的话，我认为可能 RL 直接成功的基础还没有那么大，现在反而我认为基础更大了。

曲凯4:54

怎么讲？

朱哲清 Bill4:55

因为 RL 有几个比较重要的点，一个是它有非常强的对于环境、action 各个方面的理解能力，而这一系列的 representation 是很多人一直在强化学习这边寻找方案的一个事情。

那现在的话，你如果有了 LLM，很多东西都可以完全用语言，然后做 embedding 这一系列的这种方式去完成这个重构，你就不再需要专门去设计一个架构给 RL 去解决这些问题。

就现在 LLM 的出现，相当于是给了一个非常基础的对于世界的一个理解，让强化学习去产生更强大的那种跟世界交互的能力。

所以有了 LLM 以后，我认为 RL 可以发展空间就变得更大了。

曲凯5:43

所以最终我们不管是这两个谁为主，或者是技术上谁好谁劣，最终他们结合起来，到底要解决的是一个什么问题？

朱哲清 Bill5:51

比如说我们的设想技术架构就是，当一个用户或者任何一个终端给到我们的 AI Agent 一个需求，这个 AI Agent 呢，会把这个需求去解构。

解构它就是说我的目标是什么，我们有哪些措施我可以采取，我们所处在的状态是什么样的，我们需要去采取一二三三个步骤来完成这个最后的目标。

那这个解构完了以后，那我不知道说一二三这三个步骤是什么，RL 就可以 comment 说我先采取一措施，然后三措施，然后四措施，得到说它可能成功的概率是多少，下一步再去试一个别的。

那通过这种方式，我就可以找到哪样的一个路径最容易能够达到那个结果，然后找到最优路径以后，完成这个路径，得到解决方案，拿到结果以后再返回给语言模型，然后由它再去重写，写成一个人可以读懂的东西。

曲凯6:47

在 RL 选步骤这个时候，就你像你讲的，不管是一二三还是一三二，这些步骤它是从一个 LLM 已经有的生成的步骤库里面去挑，还是说它现场去生成？

朱哲清 Bill6:58

取决于这个 RL Agent 或者整个 AI Agent 它处在的环境是什么，就是你的 action 本身是不是被你完全定义了。

啊，我举个例子，比如说在供应链问题上面，那你的 action 是完全定义的，你只能把这个量的货物从这个点派发啊到另外一个点，那像这样的 action，那你可能就直接去 call 就好了。

如果有一些，比如说我要去解一个数学题，那这个是没有被完全定义的 action，像比如说 O1 跟 O3 现在要解决的那种偏数学型的问题，那它就是没有被完全定义的。

那它的 chain of thought 的那种推理方式，就是说我先生成一个结果，那这个结果再生成下一个结果，然后每一步结果以后都会有一个 LLM 自己去 evaluate 说，哎，我这个结果到目前这个位置是不是好的一个结果，然后如果到某一步卡住了，那我再倒推回来，在某一步再重新往前推。在这种情况下，就需要 LLM 去辅助，然后去找到说哪些是真正的 action。

曲凯7:58

但如果之前没有 LLM 的时候，它会遇到的问题是什么呢？

朱哲清 Bill8:01

就是我要怎么知道说什么样的路径是最好的，它有可能会完全永远卡在同一个路径上面。

曲凯8:08

对，这个就是之前大家讲的，就是有可能它在一个小闭环里面无限重复。

朱哲清 Bill8:12

对对对。

曲凯8:13

但这个为什么呢？LLM 模型本身它不能去验证这件事情，也一样的逻辑，就我试了一二三，得到个结果，然后用大模型本身去验证这个结果。

然后不行的话再换一个，然后再验。这个好像从人类的逻辑来讲，感觉不是一个很复杂的事情。

朱哲清 Bill8:28

语言模型核心还是以一个数据集作为光临的。那在这种情况下，语言模型就是我只有一根筋了，我已经想不到别的方式了。

而且像它这种探索方式呢，几乎是完全随机的，效率很低的一种探索方式。那我们从人的一个比较直观的方式去想，人是怎么探索的。

比如说我今天去吃饭，有三家店是我想去吃的，其中有一家店是我每个礼拜要去吃五次的，剩下两家店有一家店我去吃过一次，非常非常差，然后另外还有一家店我从来没去过。

那如果你今天觉得说我想要知道我最喜欢的是哪一家店，你会选择的不是说我随机在这三家店里面选一家，而是我在第三家，我一定会选第三家，因为我对第三家有最高的不确定性。

如果我去了第三家，我觉得哎，还不错，那我可能会再去一次。如果两次都很好，比第一家还好，我可能就觉得好，第三家可能是最好的。

所以它所做的选择，更多是基于你对于世界的不确定性，而不是说我随机在里面不停地选。那如果你用语言模型去找到那个最佳路径，它基本上就是完全随机的一个状态。

那 RL 为什么在这个地方会有效，是因为它可以去找到我的不确定性在哪里，我更好地去探索那些不确定性，然后使得我更快速能找到那条路径应该是什么。

曲凯9:48

对，我记得之前经常举的例子就是一个迷宫，人家从一个点进来找出口，里面可能有各种算法，然后各种方法去怎么样最快最短时间去找到那个出口。

朱哲清 Bill9:58

对。

曲凯9:59

所以像你讲的，如果是大语言模型本身的话，它可能就是在中间一个，有可能有个路径它是最高概率，然后它一直在那转圈。

朱哲清 Bill10:06

对对对，不停地在那转圈，然后它再也不会往外走了，因为它根本不知道说它对外界有多大的不确定性。

所以 RL 在这个地方会有一个非常大的优势。还有一个点就是我们叫 counterfactual reasoning 的能力。其实 RL 的一个核心点就是，假设这个世界本身是一个大世界还是小世界的一个区别。

如果说你觉得这个世界是个小世界，一个模型可以学习到这个世界所有的变化，那你就可以直接 reason。而现在我们发现那么大的模型，仍然不能够直接 reason 得到所有的结果，那就意味着大世界小 Agent 这么一个假说，就是说这个世界的可能性是无穷的。Agent 需要知道并不是这世界上所有的变化，而是说在每一个我所在的状态之下，我成功的概率有多高，最终能得到的 reward 是多高

。所以我能够去规划说我这么采取这三个措施，最后能够成功的概率是最高的。而 LLM 它不是这么去思考的。

曲凯11:02

嗯，刚才那个我一直在想它的中文是什么，因为之前好像有个德剧吧，还是叫什么，就是它研究历史上其实很多时候用在你刚才说那个概念，对吧？

就我记得它的剧情是说，如果二战是德国日本胜利的，那世界会变成什么样子？

朱哲清 Bill11:17

啊，对对对，就这种。我经常说很多时候强化学习要去解决的问题是平行宇宙的问题，这件事情永远没有发生过，将来可能也不会随着它去发生，但你就去思考说，如果你做了这一系列的事情会发生什么。

曲凯11:33

哎，它是思考，还是它真的自己在后台自己试了一遍？

朱哲清 Bill11:36

它没有试，就是它根据它过往已经做的所有的事情去算，说比如说你过往去走了五条路径，那这五条路径本身你是用不同的决策方式来做的，那根据这五个决策方式，以及你所在现在的状态，如果你把这个决策稍微偏一偏，我能够得到的结果是什么。

它是算的一个条件概率下的一个 value。

曲凯12:04

但你刚才讲那个 case 里面，RL 它是要收集到所有数据，然后去计算出来一个确定性的结果。

朱哲清 Bill12:11

啊，它不是确定性的，就是它是条件概率下的一个期望。

曲凯12:14

OK，它也是一定的概率性。

朱哲清 Bill12:16

对对对，但是它条件是条件在它自己的决策方式上的，而 LLM 它的决策方式是不会变化的。所以当你去采取不一样的一个策略以后，它会发生什么，其实 LLM 它是没有这个 reason 能力的。

就是它只知道我现在这个决策就是固定了，我不会再变了。

曲凯12:34

听起来还是有点像一个是理科生，一个文科生。作为结论我想问一下，就是现在你觉得，尤其是你在美国那边看了这么多，听了这么多大家讨论，是不是现在有个结论说 LLM 跟 RL 结合就是一个现在最好的方案？

朱哲清 Bill12:48

嗯，其实有很多人是想做 RL 的单一方案的，比如说 Rich Sutton 他现在在做的就是怎么用 RL 和持续学习去完成一个 LLM 本身无法完成的事情。

曲凯13:04

就是把 Transformer 整个都推翻。

朱哲清 Bill13:08

我不知道它会不会推翻啊，但是它的意思就是说，在持续学习的这个状态下，如果你的数据是流，就数据流会不停地进来，是无限的，而不是一个单一数据集的情况下，LLM 这种模型本身它是不具备可以永久训练的能力的。

这个东西叫 plasticity，就是举个例子，你把一个弹簧把它拉拉拉拉拉最紧了，再拉就会绷掉。就是当你拉到最紧的时候，这个模型已经饱和了以后，你就不再能得到更多的信息了。

所以有这么一条线一直在推，它这条就偏理论了。就落地而言，大多数人还是希望把 LLM 和某种意义上的规划型模型将它组合起来，比如说 Google 以及 Meta 有一部分人也都提出了快思考跟慢思考的概念，就是快思考就是不停地直接可以给到你 Q&A 的结果，然后慢思考可能说我需要去做 chain of thought，然后得到结果以后再能反馈给你。

那有一些人就说我可能我不是做 chain of thought，就不依赖于 LLM，就像我现在在做这条路，就是我有个完全不一样的决策模型，然后用不一样的算法去训练，训练完以后得到的这个结果再反馈到 LLM 作为结果，变成一个组合型的一个 AI Agent。

我们现在做的做法有点像，比如说人类大脑的每个区域，它的思维方式是完全不一样的。我们 RL 这种训练方式就跟像多巴胺刺激一样，多巴胺越高，我可能做的东西就越好，所以我的决策是跟着最后的结果好不好来的。LLM 可能是个知识区，我存储下来了，我就怎么回给你，就类似于这样的一个东西。

所以这两块对于我们来说，可能它的训练方式就完全不一样了。

曲凯14:42

嗯，我再最后问一个跟 RL 相关的问题，就是因为我们之前也看过一些相关的资料，就发现之前的 RL 大多是有一个明确的标准答案的，或者有一个绝对的一个清晰的目标的，对吧？

比如我就是要赢某盘棋，或者我就是要走出一个迷宫。但在现实生活当中，尤其跟 LLM 结合的很多领域里面，场景里面，它可能没有这个东西，对吧？

比如最典型的就是大家跟 AI 做陪伴聊天这种场景，没有一个所谓的谁比谁更好。那这个时候你去做人类的反馈，该怎么样去处理这个问题？

朱哲清 Bill15:13

我举些我之前在 Meta 的例子吧，RL 一个比较厉害的一个地方就在于，因为它算的是一个期望值，当我有一个一整套系统，我需要去优化整个公司的营收的时候，啊，比如说我们优化的是广告竞价，那在某一些竞价上面我可能做得没有那么好，但有几个竞价我使得某些用户有比如说 20%、30% 的提升，那总体的广告效率就会提升很多。

这个也是过去几年我们落地最好的一些场景，就是说你有大量的可以尝试的空间，然后你要优化的不是单一场景下的结果，而是在总体场景下的一个总结果。

那还有一个比较重要的点就是 RL 落地要么需要一定的探索能力，你可以采取的 action 的数量非常非常多，然后你很多的 action 都没有见到过它的结果是什么样子的。

比如说我们有一个推荐系统的落地例子，就是我们在 Facebook Reels 上面有一个项目，是用自动老虎机，就是 Bandits 去落地怎么快速推荐。

那我们用 RL 的 exploration 算法，然后我们发现对于那些我们不太知道他们的兴趣点是什么的用户，通过探索型的推荐算法，可以使得有几十个百分点的他们的 engagement 的提升。

而如果你只是用普通的推荐算法，那些新用户你不知道他们喜欢什么，有很大不确定的情况下，用户很快就流失了。

这是我们一个实验的结果。而另外一个，比如说我们刚说的广告竞价这个例子的话，一个 action 是基于另外一个 action 之上的。

所以比如说你第一个时间点上花了 10 美金，那就意味着第二个时间点你可能要少花点钱，而第一个时间点你如果花了 5 美金，那第二个时间点可以多花点钱。

那如果有这样的互相之间，第二个 action 基于第一个 action 这样子的一个性质的话呢，它就会让你的决策有个多步的性质在里面，那 RL 也会有更大的好处吧。

而如果你所有的 action 就是单一一个 action，然后我知道它的结果是什么，只是一个纯预测型的问题的话，那 RL 在里面不会有什么太大的作用。

Agent 之难17:15

曲凯17:15

明白。然后我们讲讲 Agent 相关的，就是 Agent 这个事其实去年就有，对吧？从什么 Auto-GPT 什么的开始，对吧？

然后今年呢，大家又讲了一年的感觉，包括最近 DaVinci 就出什么的又很热，然后明年呢，又有很多人讲明年是 Agent 的元年。Agent 这几年到底在发生什么？

它经历了什么变化？然后为什么一直在讲，然后但一直在等落地的感觉？

朱哲清 Bill17:39

嗯，我觉得 Agent 这个概念有点被玩坏了有点。

曲凯17:44

就也有人跟我讲啥都是 Agent 嘛，对吧？确实什么都可以是 Agent，可能就是说你帮我买张机票，那它就买了。

朱哲清 Bill17:50

订机票这件事情，目前你靠工程也能完成这件事情，连 LLM 都不用，我就直接写点条件，我都可以把这个事做了。

真正复杂的点是我比如说你来上海出差，然后我要去这三个地方，然后回头我还要去趟杭州，然后去趟杭州以后再两天之内我还要回北京，那这种非常复杂的情况下，就会使得正常的靠工程方式来完成的事情就不可能完成。

曲凯18:15

你说这个真的是我的刚需。如果真的有人用 AI 做出来，我愿意付费的。

朱哲清 Bill18:18

啊，真的吗？

曲凯18:19

因为你自己搞很复杂，就你得定好了到底哪个约在哪，然后怎么安排，怎么订票，时间怎么样啊什么的。

朱哲清 Bill18:26

对，这个东西是我当时创业开始的时候，我去 pitch 投资人，pitch 的第一个 demo 就是做的这个东西。然后我们当时做了 single city，就单一城市下多天多酒店多地点的一个规划型的问题。

曲凯18:42

但你看这个东西，我记得去年上半年的时候有很多黑客松。

朱哲清 Bill18:47

啊，对对对。

曲凯18:48

每个里面我觉得基本都会有一个是做 AI 旅游，什么 AI 行程规划的。但那个时候为什么做不出来呢？

朱哲清 Bill18:53

现在还是做不出来。

曲凯18:55

所以遇到的问题到底是什么？

朱哲清 Bill18:56

因为规划性的问题就在于你短途规划，你可以用 LLM 就可以完成了嘛，因为你很简单。但多程规划就出现了我们刚刚说平行宇宙的问题，我可能规划规划规划规划了 10 步，第 11 步发现规划不下去了，这个城市被卡住了，那你往前推推到哪呢？

你也不知道。就是每多一步，它的复杂度都是指数级上升的。所以你需要的不是一个穷举的能力了，而是一个搜索的能力。

那这个搜索能力就是你需要去真正去理解我采取每一步措施对未来所产生的影响会是什么样，然后在考虑到未来的情况下再去采取这样的措施，才能够完成这种比较复杂的规划问题。

那我觉得 LLM 没有这个能力，它因为是基于过去去预测下一个可能出现的 token 是什么，所以它不可能说知道我先去知道未来可能会发生什么，再去推理说我下一步要做什么决策。

曲凯19:54

所以 RL 在这里面就能起到作用。

朱哲清 Bill19:57

对，因为我算的时候做了这件事情以后对未来的期望是什么。比如说我有三个事情，我如果这三个措施里面有一个措施我做完了以后，我对未来期望变成 0 了，那我就知道说这个东西未来肯定不能完成这个任务。

嗯，那我就会选别的措施嘛。

曲凯20:13

但这里面如果我只用 RL，不用 LLM 会怎么样呢？

朱哲清 Bill20:17

LLM 可能是个 RL 的基础，就是 Transformer 这种架构能够理解人类语言或者图像的这种能力，是帮助 RL 去跟人类的数据进行结合的一个过程。

就是我如果单有 RL，我只是一个抽象的跟数字打交道的一个系统嘛。你需要一个语言模型 LLM 或者一个 vision model，从一个具体的措施变成一个抽象的措施，然后让 RL 去做决策。

曲凯20:45

我明白，但我从一开始你讲的时候我就在想，就是如果按这个逻辑，其实 RL 才反而是核心。

朱哲清 Bill20:51

啊，对啊。

曲凯20:52

对吧？LLM 就变成它就是一个你的输入输出的一个翻译。

朱哲清 Bill20:56

就我们最新发布的这个产品里面，所有的决策全是 RL 做的，外部所有的 I/O 接口是 LLM 这么一个架构。

曲凯21:05

你是觉得长期来讲就是这样，大概 RL 跟 LLM 的一个配合的关系？

朱哲清 Bill21:10

这是我的想法。

曲凯21:10

所以我这是我下一个要问你的，就是你公正客观来看，在美国，至少美国的技术界什么的，对吧？大家的现在最主流的想法其实也是像这种吗？

还是什么？

朱哲清 Bill21:20

嗯，不一定。RL 加 LLM 的这个大方向目前没有统一的。比如说李飞飞他们最新的 AI Agent 的那篇 paper 里面讲的更多的不是以 RL 为核心，而是以模仿学习为核心的。

所以总体来说这个路径没有被统一，可能期待第一个真正意义上的可以多步决策，而且非常可靠的这种 AI Agent 出现吧。

如果有这么一个东西出现的话，大家就会一拥而上变成一条路。

曲凯21:52

但听起来是不是不管这个路径是什么方向，大家现在默认的是 LLM 本身挺难达成的？

朱哲清 Bill21:58

对，不够。当然啊，还是这句话，就是你可以通过 LLM 这个架构在这之上，你比如说你把它的训练算法变了，就比如说 o1 跟 o3，它并没有改 LLM 本身的架构，它只把最后训练算法变了而已。

就是它的这个模型架构是不变的，只是算法变了。所以从我的角度来说，LLM 本身不能解决这个问题的核心还是在算法层面上，不是在架构层面上。

曲凯22:22

嗯，明白。就还是算法加工程的一个组合的感觉的东西。

朱哲清 Bill22:27

对对对。

曲凯22:28

哎，所以最后你为什么会想要做 Agent 的这件事情呢？

朱哲清 Bill22:31

我想做 Agent 其实想挺久了。我之前一直卡在一个点上，就是在大公司你有很多人帮你准备从具象到抽象的这个过程，那你通过这个方式，你可以比如说我们在做广告竞价呀、推荐系统啊这些东西，落地的时候你就只需要把 RL 放在算法层面，然后去把这个决策方式给它学了就好了。

但是你真的要放到完全开放世界里面，RL 模型其实是不行的。你没有具象到抽象的这个经典过程，那现在有 LLM 了以后，把原来的人为的过程全都变成了抽象过程，就是一个模型就可以帮你搞定，并且在很多时候它可以帮你生成线下数据，让强化学习去学习。

而且有了 LLM，它还可以从某种意义上去帮你去判断说你的 RL Agent 是不是做得好或者不好。所以从我们的角度来说，它把我们整个我一直在想的这个思维的闭环给闭环了，那我觉得就是机会出来试一下了。

曲凯23:35

嗯，所以你你可以再讲一下你们现在的 Agent 大概做的具体的是一个什么事情？

电商 Agent23:35

朱哲清 Bill23:39

我们最终的目标是要完成一个可以自主调用上千上万个 API，然后做多步决策，能够完成非常复杂的规划跟推理任务的这么一个 Agent。

早期的话，今年我们已经 Beta 发布了一个在电商方向的一个 Agent，它是架在 Shopify 的架构上面，但是在不到一个月的训练时间之内，我们的只有 1,500 万个参数的 RL Agent 加上一个 10 个表演不到的一个语言模型放在一块，就已经可以完整的掌握几十个 Shopify 的 API 基础的搜索跟推荐的能力以及客服能力。

而且当你把这个 Agent 放到任何的一个 Shopify 网站上面的时候，不需要再特殊的个性化训练了。所以它等于是一个非常通用型的一个 Agent，而且用了一个那么小的架构，加上那么短的训练时间就达到这个效果，我认为这个未来是非常可期的。

曲凯24:38

就你的客户是 Shopify 商家。

朱哲清 Bill24:40

对。

曲凯24:40

就假设我是一个 Shopify 商家，你就你要跟我讲的话，你提供的最核心的产品服务和价值到底是什么？

朱哲清 Bill24:46

就是你不再需要去安装几十个你完全没有办法控制的插件。嗯，而且你不再需要去雇佣好几个工程师，然后你也对于你自己的整个商店里面的所有的参数什么都有完全掌控。

而且你所有的插件互相之间，比如说搜索、推荐、客服各方面，它都互相之间都是有交互，完全一体的。

曲凯25:12

就是你的这个 Agent，它是在后端是对接各种 API。

朱哲清 Bill25:17

对。

曲凯25:17

然后在前端呢，是对后端的所有的各种数据和 API 的最后整合以后，重新定义或重新建立它觉得 OK 的一个前端。

朱哲清 Bill25:27

可以这么理解，就是除了展示产品页面之外，剩下的搜索啊、推荐啊、客服、chatbot 这一系列的这种 UI 都是由 Agent 基于一个模板生成出来的一些结果。

曲凯25:43

以前其实可能 Shopify 里面也有插件，就有个 A 插件加上关联产品推荐，B 插件可能加上搜索，对吧？C 插件可能就加上一个什么客服对话。

朱哲清 Bill25:51

对对对。

曲凯25:52

你现在相当于说我只接你，然后你去判断说你要接哪个东西，怎么样组合起来，怎么样去呈现，以及说这几个东西还能联动起来，对吧？

就是因为你后台的数据是一致的，我用你就有点像招了一个网站负责人的感觉。

朱哲清 Bill26:05

啊，对对，就是这么一个意思。嗯，而且特别好的一点在于说，原来的其实并不是你搜索就一个插件就行了，而是你搜索需要找一个搜索的插件，然后你搜索的那个品类还需要再装一个插件，然后推荐也不是一个插件，加起来可能有几十个插件。

曲凯26:24

对，比如 Shopify 一共有多少个插件你有存过？

朱哲清 Bill26:26

呃，有几千个。

曲凯26:27

OK，对，但我如果用你的话，就是你是来调用他们那些插件，还是你就 ...

朱哲清 Bill26:33

这个事就是我们现在整个可能我认为互联网世界里面的工程型的问题，就是它的层特别多，这些其实都在调用 Shopify 的底层插件。

嗯，但是这些人呢，就是在当中插了一层，然后收你钱。嗯，但其实你可以调最底层的插件都可以完成这些事情。

可能比如说有些 Shopify 不提供的功能，你可能自己需要做一个后端的存储。

曲凯26:56

所以你学习的是不是就学习的这些插件？

朱哲清 Bill26:59

呃，我学习的是 Shopify 底层的那个 API。

曲凯27:02

这个学习怎么学习呢？它底层 API 是学什么东西呢？

朱哲清 Bill27:05

我只能说它把 API 从具象变成一个抽象的 action 以后，RL 会去完成就是做什么样的 action，会得到什么样的结果，用户是否满意的一个 self-play。

这个我具体怎么说我不能说，但是简单来说就是通过 self-play，RL Agent 会知道这些 API 能解决什么样的问题，然后在什么时候应该调用什么样的 API，甚至于这个 API 的参数应该用哪些参数，它都会自己知道。

曲凯27:34

但你这个训练其实是纯 RL 的方面的训练，对吧？就是它跟我们现在讲的这个大模型本身的训练是不太一样的。

朱哲清 Bill27:40

呃，没什么关系。唯一的关系就是这个 embedding layer，那些 API 把它从具象的文字变成了抽象的 embedding。

曲凯27:48

但之前如果没有语言模型做不了这件事。

朱哲清 Bill27:52

有几个点吧，一个就是我要理解我做了一件事情最后的结果好不好，这个东西需要语言模型帮你去告诉你说你做的是不是好，对吧？

然后另外一个就是需求的生成你也需要语言模型，然后一个非常好的 embedding 模型也是最近有语言模型以后才出现的东西。

所以这一系列都是整个路径非常重要的一个事情。过去没有好的语言模型不行。

曲凯28:14

嗯，也有很多人在猜说 o1 什么 o3 是不是就是用了很多 RL 相关的各种技术。

朱哲清 Bill28:21

对，有，他们在更多是在 inference 层面上做了很多类 RL 的优化，比如说 o1 大家猜测是用了 MCTS，就是 multi-color tree search，它就是一种探索型的规划算法，就说我走这么一条路，然后看一下行不行，然后再返回来，然后再走另外一条路，然后再返回来，周而复始吧，可以帮助你去规避掉说你肯定不行的路径。

但是它所带来的结果就是你的整个 inference 的价格非常高，然后时间也非常长。

曲凯28:50

所以就需要长思考嘛。

朱哲清 Bill28:52

所谓的长思考就是这意思嘛，就是说我需要在 inference 的时候去思考这个事，那就非常复杂。其实 Yann LeCun 我跟他聊过两次，他其实也是想做这种长思考型的规划型的，从他的概念可能没有 Agent 这个概念，他更多是说就是怎么通过世界模型去进行长思考。

就世界模型在你采取一个措施以后，它会自行的告诉你说下一个状态是什么样的，然后再下一个状态是什么样子。

这是为什么他觉得说有个世界模型以后，所有的规划会变得非常容易，因为你会知道说你做了什么以后，下一步会发生什么。

曲凯29:24

就还是挺 RL 的那个思路的。如果不是 RL，我在想你刚才说那个，那就变成穷举法了吗？

朱哲清 Bill29:29

嗯，对，从某种意义上来说，如果你没有像 MCTS 这种探索方式，或者说你没有一个 world model 可以帮你去知道如果你做这件事情一定不会成的话，就变成跟穷举法，就是我刚刚说的随机探索的那种状态。

曲凯29:44

OK，所以 Agent 你现在觉得大概在一个什么阶段，然后大家现在核心面临的问题是什么？

Agent 格局29:44

朱哲清 Bill29:52

我觉得有一些问题啊，就是首先是目前大多数的所谓 Agent 还是基于 LLM，可能加一些 RAG 做出来的一些所谓的 Agent，那他们在 coding 方面可能是有最多落地的目前。

那 coding 其实从某种意义上来说应该是所有 Agent 里面相对来说可能最复杂的一个，但是也是可能金字塔顶尖最值钱的那个。

现在最大的问题就是，如果你做一个非常复杂的工程架构型问题，那目前的 LLM 都解决不了这个问题。

那我们如果退一步说，不是 coding 这个领域，剩下的所有领域可能在每一个垂类上面都有一些公司在想办法做，更多的就是接 Gemini 啊、接 OpenAI 啊，想办法去做一些工程上的调整，去完成这些所谓的对于真实世界的影响的一些落地吧。

但是通用型的这种能够横跨很多个领域的 Agent 还不存在，所以这也是我们最终想要达到的一个目的。

曲凯30:57

你想做一个 Agent 是它有点世界 Agent 的。

朱哲清 Bill31:01

就是它已经见过大多数要做这件事情需要靠什么样的 API，用什么样的措施的这么一个 Agent。那当你真正把它落地到某一个场景的时候，你可能几乎不需要微调，它就知道你给它这 20 个 API，哪个 API 可以解决什么样的问题。

曲凯31:18

你觉得一个未来的 Agent 就是它其实就每天在跟各种 API 打交道。

朱哲清 Bill31:22

对对对。

曲凯31:23

也有可能它会跟人打交道，对吧？它比如说如果是客服之类的这种。

朱哲清 Bill31:28

啊，也可能。

曲凯31:28

也是有可能。

朱哲清 Bill31:29

你所有的东西都可以把它用 interface 包起来，说这是个 API，你可能只发了一个 email 给这个人，然后等着。嗯，这也算是一个 API 嘛。

从我的角度来说，在现实世界当中，真正需要写代码的地方其实已经越来越少。你像我举个例子，在大厂里面，你真正去写一个完整不靠任何别的 function 的一个 function 是非常非常少见。

你基本上每一次写代码就 100 行代码，这 100 行代码里面大多数都是在尝试组合各种各样的 API。嗯，那从我的角度来说，如果一个 Agent 它知道怎么去整合这 API 去完成一个多步决策，那它可能已经完成了大多数需要呃完成的事情。

而真正复杂，可能那些在追求金字塔尖那些公司在做的事情是说 OK，我还有个更复杂的事，就是这件事完全没有任何世界上的能力可以做到，我需要有一个 Agent 从零开始写这些代码，然后把它组合起来形成一个代码库这样的问题，这可能是他们在追求的一个终极 Agent。

但我认为大多数的场景的话，我看下来基本上不需要这种能力。

曲凯32:39

嗯，它就是跟各种 API 打交道，然后排列组合。

朱哲清 Bill32:43

对对对。

曲凯32:44

那哎，有点像之前是谁啊，是 Google、Anthropic 还是谁的出了一个协议是吧？好像就是要往这个方向去走。因为未来如果是这样的话，其实很多东西可能就在后端，在协议层就完成了。

朱哲清 Bill32:57

啊，有类似于这种，就是你可能不需要一个代码型的 Agent，可能就是用那种甚至 command line 靠几个 function，然后得到的 raw text，然后再下一个 function 就可以完成整个操作了，你根本就不需要进入代码层。

曲凯33:12

嗯，但对于未来的用户来讲，我在想你看像 Devon 是，他好像是能让你看到他每时每刻在做什么东西，我觉得体验是蛮神奇的。

朱哲清 Bill33:21

对对对。

曲凯33:21

但最终是不是其实也不一定需要这些过程性的东西？如果他就是完全在后端调用 API，最后只要输出个结果就好了。

朱哲清 Bill33:28

哦，我觉得这地方还是有一个不一样的地方，就是 Devon 和这些 coding 公司要解决的问题是一个跟我们剥离开的一个问题，我们是在业务层面。

嗯，就说已经有这些业务了，有这么一个客户要解决这样一个问题，通过现有业务怎么解决这个问题。他们是说我根本没有这个业务，我要去建立这个业务，本来需要雇 20 个员工去完成这件事情，那我现在一个员工都不雇，我雇 20 个 Devon 能不能解决这个问题？

这是两个商业模式的最基础的区别，就是你是基于现有业务去排列组合解决一个问题，还是我完全没有任何的基础，我就需要人去把这一切东西从零搭起来。

曲凯34:07

所以你们今天正好刚上了一个那个刚才讲的电商的那个。

朱哲清 Bill34:12

嗯。

曲凯34:13

那它是一个什么，是开源还是公测，还是一个什么？

朱哲清 Bill34:15

公测，公测。现在我们邀请 50 个电商商家尝试安装，然后体验一下这个产品，然后本来是 14 天的免费试用期嘛，现在我们延长到 30 天，让大家给一些反馈，然后帮我们提升这个模型各方面。

还有很多的我们正在做的一些功能还没有上线，比如说商户跟用户之间通过 Agent 来进行议价，然后再比如说自动化的帮你去上线一些折扣，然后通过你的给到 Agent 的一个 prompt 去改变整个网站的推荐策略和搜索结果策略，这些东西都是正在做的事情。

曲凯34:54

就是我可以理解你前端可以做各种的排列组合跟动作，但是如果你要涉及到折扣什么的，它是会动到后端的，对吧？

朱哲清 Bill35:01

对，但后端本来就有 API 可以做到这点，所以你只要告诉我你要干什么，这个 Agent 就会自己去 call 把这些东西帮你改了。

曲凯35:08

嗯，比如说一年以后，假设就是电商场景，你这个 Agent 已经做到很成熟了，然后你能举一个具体的例子说大家大概会怎么用它，然后能达到一个什么效果。

朱哲清 Bill35:18

就比如说你今天是个商家，然后你说现在圣诞节了，我要搞个圣诞测速，那你可能需要做三件事情。

第一件事情，我要把里面跟圣诞节相关的产品打个折扣，然后第二个，我可能需要把整个运费和以及运输时间做一个修改，然后第三个，我可能需要把整个线上的首页推荐啊、搜索啊、各方面全部都换掉，变成一个以圣诞节为主题的这么一个。

那现在会做什么？现在就是我要找我现在的销售，我去把这些首页的这些东西换掉，然后每个东西要写特有的介绍，搜索上面我可能要需要去找个工程师去想办法把那个排序给改一改，然后推荐上面我也需要去找第三方谁给我做的这个推荐公司手动改，然后我去改那个折扣啊，各方面都需要我去找个工程师去手动的往数据库里面去写。

而等到明年年底，如果我们一切都成型了以后，就是你告诉我你要干什么，你就直接文字写下来说现在圣诞节，我需要把我的首页变成以圣诞节为主的推荐，搜索结果也往圣诞节去偏，帮我去上线这三个产品，以及这个 promotion code 到我的数据库里面，就完成了，你就不再需要做任何别的操作。

曲凯36:36

所以这个需求现在就像你讲的，它现在就是很多工程师啊，他的产品什么的在完成，对吧？

朱哲清 Bill36:42

对，比如说我们认识的一些电商，他们每个季度要花上百万美金就为了干这件事情，因为你原来你还需要打个电话、发个邮件，然后那边人还可能放假了，不一定理你，你现在跟他聊两句，5 分钟之内就搞定了，可能最后结果还更好。

我觉得这个当中的差异化还是很大的。

曲凯37:01

然后我在想，他也可以说比如我要给所有老客户发一封邮件，发个促销。

朱哲清 Bill37:06

啊，对，这个也可以做到。

曲凯37:07

嗯，你对于未来的 vision 来讲，你是相信说未来会有很多很多的 Agent，然后在各个领域、各个企业里面都会有。

朱哲清 Bill37:15

我觉得会是的。我现在能看到的点是，首先在就比如说写代码的这种 IT 类公司里面，代码生成已经成为了一个非常简单的事情了。

那如果非工程类公司，那他们更大的头疼的点就是在于他们需要跟外界的 API 做接触，那他怎么去整合他那么多个服务商去完成一整套系列，就跟我们电商这个场景一样，那 Agent 也是一个必不可少的东西。

除此以外，我认为比如说在供应链啊、制造业这方面，Agent 也会变得非常有用，因为很多现在的这种重复性的工作，比如看订单啊、派发啊，这一系列东西都是重复性 Agent 可以完成的事情，而不需要人坐在那看，反而是我认为人可以去做那种 LLM 生成不了的、视频生成不了的那种更有创造力的工作，可能会有更多的公司把人才往那个方向去引。

曲凯38:11

对，所以未来可能那就是每个公司都有自己的 Agent，那就是真的是 Agent 和 Agent 的交流接触。

朱哲清 Bill38:17

对，完全不需要人去接触。

曲凯38:18

他可能就在后台了。

朱哲清 Bill38:19

对，就在后台。

曲凯38:20

对，比如说你刚才说的那个库存你们不管，但有可能他库存那边他上头也是一个 Agent。

朱哲清 Bill38:26

对。

曲凯38:26

然后这边你只要没有库存了，然后自动就靠你们下单了。

朱哲清 Bill38:30

对，靠你们的 API 让他去下单，然后那边库存就直接运过来。

曲凯38:33

是。

朱哲清 Bill38:34

对，我们为什么不管库存就是这个原因，因为我们不知道对面有没有一个可以自动化的一个流程，很多都是靠打电话。

曲凯38:40

你可以调用个 API，就是客服机器人什么的，然后自动打个电话过去。

朱哲清 Bill38:43

对，如果有这样的服务，我们也会通过我们的 Agent 去调用这种 API 的方式去完成，但是这个效率相对比较低嘛，因为没有通用化的情况下，你可能打个电话过去，人家完全不理你，你怎么办？

你就没有办法完成闭环了。我们希望能够至少在我们亲自下场做的这些场景里面完成闭环，然后我们这个通用模型还是会在那里，就是任何人可以拿这个模型放到他们的场景里面，如果他们需要 fine tune，我们也会发出 fine tune 的这种 API。

成本优势39:09

曲凯39:09

明白。哎，你走 IL 技术路线的话，你的训练成本会低很多吗？

朱哲清 Bill39:14

啊，非常低，我们到现在一个月训练下来不到 1 万美金。

曲凯39:20

那然后你在那个去帮客户做实施的时候的那个算力成本啊什么的，token 成本也很低是吧？

朱哲清 Bill39:26

对，非常低，我们的 RL 模型可以在 CPU 上跑。

曲凯39:29

但你现在也聊了蛮多投资人是吧？对，有没有人 challenge 你们说那你这个是不是一个伟大模型的概念？讲的是一个大模型，但其实你训练和实施用的都不是大模型，对吧？

大模型用来做一个意图的识别翻译而已。

朱哲清 Bill39:42

对，但是问题就在于，为什么大家都要追捧很大很大的大模型呢？它能解决问题就好，不一定说我非要把一个龙头造得超大，变成一个核武器。

但是这个问题明明可以拿机枪就可以完成的问题，这我觉得没有什么太大的意义。所以我们从来不说我们是大模型公司，我们说的我们是 Agent 公司，而且是强推理和规划型的工具使用 Agent 的公司。

曲凯40:06

嗯，所以最后机构的反馈他们是认这件事情的。

朱哲清 Bill40:10

大多数公司都会认，因为我们当时做了一个 demo，还是比较出乎意料的一个小 demo 吧。

曲凯40:16

就你说规划形成的那个。

朱哲清 Bill40:18

对对对，当时这个模型大小是 1,000 万个参数的一个 RL 模型，加上 LLaMA 8B 能够比当时的 GPT-4 要好，在单一城市规划上面已经可以超过他们了。

曲凯40:32

明白。所以未来一年你们大概的规划打算是怎么样？

朱哲清 Bill40:37

电商方向肯定会要推下去，然后我们会把里面的很多 API 开放到非 Shopify 的用户，然后如果他们需要我们帮他们去管理他们的各种的产品啊或者折扣啊各方面，他们可以把 API 开放给我们，我们可以 call Agent 去完成这些操作。

曲凯40:54

我突然想到一个问题，就如果你真的做成了，是不是刚才说的 Shopify 上几千个 API 就都没有用了？

朱哲清 Bill41:01

可能有 45%、50%、60% 都没有用了。

曲凯41:04

对，为啥呢？就应该是全都没有用了，就都调用你，然后你。

朱哲清 Bill41:07

对，就是纯工程类的东西基本上都可以被替代掉，但是有一些非工程类的我们就不去管它了。

曲凯41:14

明白。

朱哲清 Bill41:15

然后后面的话，我们会明年争取发布一个规划类的 AI Agent，可以横跨几千上万个 API，然后在不需要特殊 prompting 的情况下，就可以知道你的需求是什么，精准完成 API call。

曲凯41:30

那你的客户面向呢？仍然是 to be 的一些商家？

朱哲清 Bill41:33

对，to be 的一些商家。

曲凯41:35

嗯，就还是电商领域为主。

朱哲清 Bill41:37

不一定。呃，我们现在有电商广告和刚刚说的那个视频那些，然后后面的话我们会横跨比如说旅行、教育、健身，再往后我们会推向法律、金融这一系列的 API，特别金融类的 API 特别多，所以也是一个比较好的落地场景。

曲凯41:56

对，我觉得你 slogan 就是类似于什么 API 杀手之类这种感觉，反正就是你可以把所有领域排序，对吧？

哪个领域 API。

朱哲清 Bill42:03

越开放，我就先进去让这个 Agent 学会怎么用，然后就让任何人就可以直接靠 API 完成很多任务。

曲凯42:09

OK。

朱哲清 Bill42:10

就比如说我举个例子，我自己在管我们自己的财务的时候，我需要建一个 Google Sheet，建完了以后，每一个东西要去 call 不一样的 Yahoo 或者 Google 的 API，才能组合出一个东西来。

那如果有个 Agent，我问两句话，他自己帮我把这些 API 全 call 了，然后把它塞进去，这事就完了，根本就不用花几十个小时了。

曲凯42:29

它在后台也有点像一个自动的 AI coding 的那么一个感觉。

朱哲清 Bill42:33

对，但是它不是真的去 code，因为你 code 的一个核心点在于你需要 compile 它，而且你要保证这个代码运作，这个的成本就会高很多，因为你的决策点不再是单一 API 了，你是每个 token 都需要保证精确，那你需要决策数量就高很多。

曲凯42:49

嗯，你就只需要调用，通过一个 action，然后得到一个结果就 OK 了。

朱哲清 Bill42:54

对对对。

曲凯42:54

有点像那个什么蚂蚁搬家什么那种感觉。

朱哲清 Bill42:57

对对对。

2025 展望42:58

曲凯42:58

OK，最后几个问题啊，一个是你怎么看整体明年 AI 的市场，就你跟国内的感觉不同，可能就你还是带着更多美国那边科技公司的一些视角啊什么的。

朱哲清 Bill43:11

对，美国市场我认为大多数的投资人还是对 Agent 很有兴趣的，所以你如果能够做垂类的 Agent 的话，他们投资的概率是很高的。

曲凯43:22

当他们在讲这种垂类 Agent 的时候，他们的定义和想象中的是什么东西？

朱哲清 Bill43:26

跟我说的这个比较类似的这种，就是你可以取代大多数内部工程解决的问题。

曲凯43:33

那这个现在大家遇到的最大问题。

朱哲清 Bill43:35

就是准确性、可依赖性，而且你怎么盈利。我们模型小，有特殊的训练算法可以使得它非常的可靠，而不是很贵，但是你完成我们这个能力，你需要真的去 call GPT-4o，那它就是我们 1,000 倍的价格，你不可能按照我们这个价格收费的。

曲凯43:52

所以明年可能会有一堆走你们技术路径的 Agent 出来吗？你觉得？

朱哲清 Bill43:57

我不知道，就是信我这个技术路径，而且要懂 RL 背景需要比较深的人也不是很多，可能会有一些做 planning 方向，chain of thought 的那种方式，想办法通过工程师的方式把 LLM 的思维路径或者是模型大小给压缩，然后放到一个单一的垂类上面。

但我们的护城河在于，即便你压缩的再多，我比你不需要一个基础 LLM 的价格还要低，那你怎么能够跟我竞争。

曲凯44:26

明白。

朱哲清 Bill44:27

然后除此以外，我觉得在相对比较小型的那种市场，投资人会关注更多，而且会投那种比较小额的，因为人比较多的那种市场实在公司太多了，他们可能会希望去找到一些比如说偏 science 类的，偏那种 supply chain 之类的，做的比较少的这种场景，看看有没有突破性的公司出来。

呃，钱是不缺的，这个我非常确定，就是最近我看到 AI 投资的那种 fund 雨过春笋般的在往外冒，虽然大小都不是很大，都是千万上亿美金的盘子吧，但是感觉就是冒得很快，而且很多，而且非常的活跃，所以我觉得可能钱是不缺的，只是标的比较难找，因为非常混乱，而且大个子太多，导致底下那些小个子不知道怎么生存。

曲凯45:21

嗯，你自己也算小个子吗？是吧，现在。

朱哲清 Bill45:24

我现在算小个子，只融了几百万嘛，所以不可能跟他们融了几千万的比。

曲凯45:30

明白。所以明年你觉得是 Agent 的元年吗？

朱哲清 Bill45:33

我从来不觉得有个元年的说法，因为很多年前就有 Agent 这个概念了。嗯，我觉得明年可能会是有很多公司真的能把 Agent 落地的一年，就是真正由 Agent 来帮你采取措施并产生结果的一年

。

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

话题

提及

转录文稿

开场0:00

RL 新纪元2:05

Agent 之难17:15

电商 Agent23:35

Agent 格局29:44

成本优势39:09

2025 展望42:58