AI 下半场：聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

开场0:00

There's something there.

曲凯0:20

我们今天很开心请到丁丁，因为丁丁之前从 24 年初开始加入 Kimi 嘛。

丁丁0:25

嗯，对。

曲凯0:25

然后那个时候是 Kimi 的 App 刚上线。

丁丁0:28

对，相当于是去了以后上线了 Kimi 的 App。

曲凯0:31

然后就是一直做 Kimi 的 App，然后做了大概一年多的时间。

丁丁0:35

对对对，也算是 Kimi 的早期的产品同学之一吧。

曲凯0:37

然后最近是刚出来嘛。

丁丁0:39

嗯。

曲凯0:39

对，然后我们可以从最近比较火的一篇文章先切入进来，正好通过那篇文章聊一下模型的上下半场的问题。

就是前两天 OpenAI 的那个人，对吧，他写了一篇文章，然后标题大概就是《AI 的下半场》。然后我看它里面讲的核心的点是说，大家对于当下模型的能力的开发其实已经到一定阶段，然后之前的很多 Evaluation 用的一些 Benchmark 可能没有那么有效了，应该需要一些新的、更偏向于实际落地的一些 Evaluation 的 Benchmark。

我不知道你是怎么看这个问题的。

丁丁1:10

在聊这个问题之前，可能我们还是要有一个最基础的概念吧，一个是关于 Evaluation。什么是 Evaluation？其实就是你对模型的性能的这个好坏进行分析和评估的一个过程。

而 Benchmark 其实就是一系列的基准的测试，你也可以理解为给模型出的一套套题，然后来看它表现怎么样。

然后下半场那篇文章传播非常广，它其中最重要的提出了一个观点，就是在这个阶段可能定义问题会比原来的去把现有的一些 Benchmark 刷分更重要。其实这些 Benchmark 可能跟业务的真实的场景或者用户实际的需求之间还是有 gap 的。

所以我记得这个文章里面有个观点说，就是鼓励研究者是需要产品经理的这个思维去关注实际的产品体验和效用的问题，不然就会出现可能所谓的智能的水平越来越高，但是实际解决问题的效用并没有被提升的状况。

曲凯2:03

对，它里面提了一个点，我觉得其实挺对的，就是现在的各种看它那个刷分的结果来讲，可能很多 AI 已经达到研究生、博士生的水平了，但实际上在落地的时候，可能最多连个实习生的水平都还算不上。

丁丁2:16

嗯。

曲凯2:16

这个背后的原因到底是什么？就是 Benchmark 设定的问题吗？

丁丁2:20

因为实际上在我们真实的业务场景，至少我感受到的，除了基准测试之外，我们其实还会关注很多结合业务以及结合用户真实使用的这个 Benchmark。

因为上述的我们刚刚提到的这些基准测试，它和真实世界中模型产品不同业务的出入之间的偏差还是会比较大的。

比如说你是一个端到端的这个模型产品，那你要去评估的除了基座模型本身的能力之外，你可能还会有在整个流程当中的 System Prompt，包括搜索 API，可能你还会有知识库，然后接口等等一系列的这个流程，最终共同构成这个用户的体验。

然后另外就是你在不同业务或者不同领域内，实际上你的输入可能跟我们看到的那些基准测试的所谓的题目是完全不一样的。

基于这个前提，也会表现出来说 Benchmark 的分数很高，但是如果你完全拿来机用的话，可能你在真实的业务场景当中的表现并不会特别的好。

曲凯3:18

嗯哼。哎，所以你是认可《AI 下半场》整个这个说法的吗？

丁丁3:22

我完全认可。

上半场回顾3:23

曲凯3:23

所以回顾上半场，至少国内的认知来讲，应该是从 23 年初开始，直到可能 24 年底或 25 年初这两年的时间。

丁丁3:31

嗯。

曲凯3:31

然后在你从 Kimi 的这些经验里面，包括你看到国内这些大模型公司的发展来讲，你的上半场我们能总结哪几个阶段，然后大家核心提炼了哪些认知跟一些答案？

丁丁3:44

首先是上半场大家还是在努力的提升基座模型的能力，或者说是还在努力的挖掘 Pre-train 的潜力。对 Kimi 来讲，其实也很早就意识到了 RL 的重要性，但是 RL 的效果最终是必须 base 在一个很好的基础模型，或者在很好的 Pre-train 环节上的。

那其实从 DeepSeek 这个成功的经验也验证了这一点。然后另外是我觉得大家在过去的一年当中都在积极的尝试用现有的基座模型的能力去包装出一些好的生产力的产品。

但是我们也会同时看到，比如说在过去基座模型能力不足够 OK 的情况下，或者训练范式没有调整的情况下，提示词工程会被提到一个非常重要的一个维度。

甚至可能我记得应该是在去年的上半年，大家还在说你一定要去成为一个提示词工程师，或者这可能是一种新的职业。

那今天不是说提示词不重要，那它可能相比过去非常复杂的这个提示词，由于基座模型的能力的提升，它可能会只需要你更加简单、清晰、明确的描述你想要的这个结果，就能输出跟以前一样，甚至超越之前的一些结果的能力吧。

曲凯4:56

哎，我记得之前 Sam Altman 说过，好像提示词工程未来是不存在的。

丁丁5:00

我觉得他说那个不存在的意思是指，比如说专门的提示词工程这个职业不存在，但是我觉得提示词本身是一定会存在。

曲凯5:09

明白。然后我的感觉是，好像从 23 年开始呢，几家模型商大家开始追求 Pre-training 的程度，然后追求 AGI，但过去的一年多的时间吧，大家其实各自都落在了像应该讲一些产品上面，比如说 Kimi 是落在了它的 APP 上，字节落在 Dolby 上。Maxeon 可能最后选的是 Talking Singer 这些方向上，然后大家开始去卷说谁的 DAU 更高。

然后 DeepSeek 出来以后呢，反而好像一个类似警钟还是什么样一个东西吧，就大家又发现说原来智能更高以后，前面这些东西可能都没有那么重要。

数据与用户5:45

丁丁5:45

嗯。

曲凯5:46

对吧，所以现在我的感觉是大家又回到去追求 AGI 的路线。

丁丁5:50

嗯。

曲凯5:50

从你的视角来讲是不是这么回事？

丁丁5:51

呃，首先我觉得一味的或者单一指标去追求 DAU，某种程度上是一种经验的惯性，或者有点偷懒的行为吧。

因为过去在移动端互联网时代，你说大家用什么去衡量你的产品是否成功，用户规模可能就是一个非常直接的指标。

曲凯6:08

对，我觉得这个其实正好可能跟 Benchmark 也是相关的。

丁丁6:10

嗯。

曲凯6:10

就是大家没有一个客观的指标能够评价说你这个东西到底做怎么样。你很难讲说我的模型做了一年就比别人强多少。

就 Benchmark 因为大家都知道，其实它是可以刷、可以怎么样的。

丁丁6:20

嗯。

曲凯6:21

所以大家要去评判这个东西，不管是要内部定 OKR、KPI，还是外部去面向资本市场也好，面向用户也好，那能评价的可能就是 DAU 了。

丁丁6:31

嗯。

曲凯6:31

所以我觉得这个也是一个必然的结果。

丁丁6:33

嗯，我觉得 DAU 并不是不重要，而且其实你必须要有用户，你才能获得反馈嘛，获得真实的用户输入。

只是说一味的去追求 DAU，其实对比如说模型能力的提升，它可能是没有帮助的。这里面我觉得也可以去引入 Benchmark 来源来理解这件事情。

比如说我们所说的 Benchmark 有哪几种来源？一种是刚刚说的一些基准通用的 Benchmark，然后还有一种可能就是用户线上真实的反馈，可能是关联比如说 DAU 或者用户使用的。

然后还有一种是人工构造的 Benchmark，然后包括合成数据的 Benchmark。但是刚刚我们说的这个 DAU，它会积累用户的 Benchmark，且你有一定的 DAU 规模，一定是能够帮助你获得独家数据。

但是问题就是用户的输入很多时候的噪音太大了。比如说一个快手来的用户和一个真正的生产力工具聊，比如说 50 轮上下文，最终输出一个调研报告的用户，他的数据可能完全不一样。

也就是说用户的数据仍然重要，但是高质量的用户数据和我们想要提升的模型能力之间，它必须是 align 的，就是你必须得挑选准确的 Benchmark，才对你的模型智能的提升是有帮助的。

曲凯7:49

嗯，那我们一直在讲说数据是对于模型来讲特别重要的，可能长期来讲数据也是壁垒。

丁丁7:56

嗯。

曲凯7:56

然后大家也在讲说这个 ChatGPT 早发了，然后这么多用户用，所以有很多数据。

丁丁8:01

嗯。

曲凯8:01

所以它的模型效果会更好。

丁丁8:02

嗯。

曲凯8:03

但同时呢，过去几个月的时间，很多人在讨论说 DeepSeek 到底要不要接这些用户，这些数据到底对 DeepSeek 有没有用。

所以你觉得这些数据到底对于模型进展，对于智能水平提升的作用有多大？

丁丁8:16

当然是重要的，因为当你没有用户数据的时候，其实公司的人或者产品经理本身也是局限的。他也不是一个每个行业的专家，他也没有自己去尝试模型所有的用法，他也没有尝试各种模态的混合的输入。

而我觉得用户的数据或者高质量的数据，恰恰是去提供了这些行业的这个视角。如果你能结合一些比如说专家的这种，不管是访谈也好，调研也好，那我觉得就能帮助每一家基座模型公司更好的理解用户，以及定义出更好的 Benchmark 出来。

曲凯8:51

对，但你看 OpenAI 的数据肯定是远高于其他家的。

丁丁8:55

嗯。

曲凯8:55

Anthropic 一样追上了。就这个的原因是什么？是不是数据在里面肯定是有用，但是用处还没有那么大还是？

丁丁9:03

因为最终的表现它其实有非常多的环节，对吧？你 Pre-train 的这个基模训得好不好，那后训练的过程当中你做得好不好，对吧？

你用 SFT 激活得好不好，然后你当时有没有在用 RL，还是大家都在用这个 SFT。因为 RL 也依赖一个高效的 Infrared 基建，然后包括对这个范式的绝对的笃定嘛。

所以这个里面就是层层乘积出来，然后最终构成了它是不是一个好的体验。

曲凯9:28

所以以你的模型产品的视角，如果你是半年前的梁文锋，你要不要接哪些 DAU 跟数据？

丁丁9:38

我如果资源充足，我一定想接。

曲凯9:41

哦，当然你前提是资源充足嘛，对吧？但恰恰就是不够充足嘛。

丁丁9:45

嗯，还是想接。

曲凯9:49

这是不是古典产品经理的通病？

丁丁9:51

会吧，对吧？你这么多用户来，还是有这个想法的，我觉得。

曲凯9:55

但从最后结果来讲，他们好像就顺其自然，对吧？他也没有特意的要去接这个东西。

丁丁9:59

哦，是。

Benchmark初识9:59

曲凯10:00

然后我们讲回到你在模型公司里面做的那段时间，就最终你总结下来，你觉得你最大的几个收获跟经验是什么？

丁丁10:09

我觉得还是对模型评估，然后包括对整个 Benchmark 的认知吧。因为我之前是做过搜索的产品的，搜索可能之前也会有一些评测，这个工作还是有点类似的。

但只是说在过去做搜索的时候，你的评测的数据集变化的速度可能没有那么快，你可能能用相对比较通用的一套测试集，然后用很长的一段时间。

但是你在模型公司，因为模型的能力，它其实也是在动态的迭代的。那当模型某一个维度上的这个能力通过一个 Benchmark 已经解决了，那这个 Benchmark 的生命周期可能就结束了。

那你可能就需要定义很多不同维度、不同梯度的 Benchmark 来一步步的推进模型的进步。最终这个模型智能的体现就是 Benchmark 的难度，无非就是说你出什么样的题，对吧？

然后你得到一个什么样的结果。而最终让各家模型产品拉开差距或表现出各自特点的，恰恰是可能他们对 Benchmark 在出题上这件事的不同的定义。

曲凯11:11

对，我能不能简单理解说，就是 Evaluation 肯定是最重要的，对吧？对于模型的表现和产品最终表现来讲。

丁丁11:17

嗯。

曲凯11:17

然后 Evaluation 就是通过 Benchmark 来去评估跟实现。

丁丁11:20

嗯。

曲凯11:20

然后 Benchmark 就是可能比如说第三方或者内部的产品自己出了一套题。

丁丁11:25

嗯。

曲凯11:26

所以你能不能举一些例子，这个题大概到底是什么样子的一些题？

丁丁11:30

比如说一个典型的深度搜索的题，可能就会有一道题是：你能帮我把腾讯过去 10 年的财报都找出来，并且预测一下今年它的净利润会上升多少。

那这个时候模型可能会有一个输出，那就会有另外一个比如说 Reward 来评价这个模型的输出到底好不好。

那刚刚我们看到的那样一个输入输出，然后以及评价，它可能就构成了一个 Benchmark 基础的一个最小颗粒度单位。

但是实际上在不同的业务当中，评测的标准或者在意的点是非常不一样的。可以举一个例子，比如说刚刚我们讲到的，如果你是做深度搜索，那你会希望模型的输出是什么？

我觉得大概率你会希望它能够基于你索引到的所有的数据源，给出一个尽量真实的并且全面的这样子的一个要求。

但如果你是一个比如说 CAI 吧，它可能是一个情感陪伴类的，那刚刚那个标准就变得不重要了。你不希望它在情感陪伴的时候说出：根据你的心情状态，我对你有以下几个建议，一什么，二什么。

但也许这个结构化的输出在比如说研报啊等等很多场景下又是非常适用的。所以这又 call back 了刚刚我们讲的，其实在不同的业务场景，这种评估的标准的好坏是有非常大的一个区分度的。

曲凯12:52

对，所以我听起来这个问题其实就是用户可能真实场景中会给的一段 Prompt。

丁丁12:57

嗯。

曲凯12:58

对吧？它是作为一个问题，然后你去评估的时候，它可能不是一个这个东西对错或者好坏，它可能会分好几个维度，可能甚至一个很复杂的表格来去评价这段话，对吧？

丁丁13:08

我觉得你最终一定能够抽象出来几个维度，然后你去让模型学习你这种对好的判断。

曲凯13:15

但这几个好也是会分优先级吗？我在想有的场景里面，比如说它给用户的是不是口语化足够，然后长度是不是适中之类的，对吧？

它可能是好几个标准。

丁丁13:26

嗯。

曲凯13:26

那这几个标准呢，有可能有时候是相背的，对吧？有可能这个是 A 好，那个是 B 好，那最后怎么定义好呢？

丁丁13:32

还是会回到那个真实的用户场景，比如说 CAI 的那个场景，那那个时候其实事实性和完整性或者真实性就不那么重要。在产品侧的业务视角已经做了一层判断，就是说比如说对用户意图的理解和口语化，可能就会比其他的指标更重要。

所以在这个过程当中，你抽象不只抽象的是元素和分类，你同时还会抽象它的重要性。然后这里面有一个非常有意思的例子，就是当时 DeepSeek 出圈的时候，很大的原因是大家觉得 DeepSeek 的文风特别的有意思。

嗯。

曲凯14:05

因为显得非常的有

丁丁14:06

哲思和优雅，但是其实它背后反映的是，他们团队对于什么是好这件事情一定有这一条隐含的标准，就是模型这样回答是好的。

因为在那之前没有任何一家公司，哪怕比如说我们把时间倒回去，在 DeepSeek 没出来之前，我们在内部说这个文风是重要的，大家一定会觉得它是一个好的指标吗？

我觉得也未必。所以其实模型评估本身就是特别难的一件事情，因为我觉得所有人都有共识的，且 100% 正确性的这个评价标准其实是不太好制定的。

曲凯14:40

我听起来这个世界上好像就没有百分百，就是它还是一个比较偏人类喜好的一个结果嘛。

Benchmark设计14:40

丁丁14:46

看你是哪些领域，数学题肯定有，对吧？

曲凯14:49

对。

丁丁14:49

代码题肯定有，这种有 ground truth 的我觉得就比较好做。然后我觉得今天也是大家会非常偏好采用的嘛，因为它就是有个标准答案。

但是比如说对于一些不好量化的层面，比如说刚刚我们提到的语言风格，包括表达等等，我觉得这些其实是不太好制定，甚至是没有共识的。

曲凯15:08

所以从这个角度我在想两个问题，一个问题是如果是这样的话，那会不会未来就是应该多模型？

就每个模型有自己的性格，就有的人就喜欢这个，有的人就喜欢那个，这是第一个问题。然后另外我觉得还有一种可能性是，未来 Benchmark 会不会细到说它会给不同的人群做分类？

就是我有 1000 个用户，但我甚至于极端，我会有 1000 个 Benchmark 给不同的用户，然后每个人得到的结果是不一样的。

丁丁15:32

对于第一点我觉得是的，其实现在就已经有一些偏好了。比如说当你编程的时候，你肯定第一优先级就选择 Cloud。

曲凯15:39

嗯。

丁丁15:39

但是比如说你可能做一些深度搜索的时候，你可能今天就会去用 O3。然后对于第二个问题，我觉得它可以转换一下，最终还是要把这种个性化抽象到某一种模型能力或者产品能力上。

比如说我举个最简单的例子，我能不能通过 Memory 来解决你刚刚的个性化的这个偏好？我觉得是有这个可能性的。其实 OpenAI 本身也自己在努力，所以可能不一定需要像你说的那么细分的这个 Benchmark，但它一定是通过某种模型内化的能力，能够帮你去达成你最终的那个目标。

曲凯16:10

我又想一个极端例子，比如说假设还是一个 CAI 产品，然后 CAI 这个公司本身应该是说希望这个产品的情商越来越高，智商越来越高，但如果这时候有个用户说我就喜欢蠢的，那它相当于说它自己去通过各种对话去调教这个 Bot。

丁丁16:27

当然，当然。

曲凯16:27

它希望这个 Bot 变得越来越蠢，但同时这个公司的底模就是想把这个变得越来越聪明。

丁丁16:32

嗯。

曲凯16:32

那是不是一个矛盾的事情？

丁丁16:33

我觉得不是，因为它希望它是纯本质上是一种指令遵循的能力嘛，也是模型的基础能力。

曲凯16:38

所以就是要让它足够聪明，以至于它可以扮蠢。

丁丁16:42

对，最顶尖的我觉得人也是可以做到这样。

曲凯16:45

大智若愚。

丁丁16:46

对，那面对不同的人完全可以去迎合你的喜好。

曲凯16:49

OK，明白。Benchmark 我听起来我觉得好像大家能想到的应该差不太多，所以有没有一两个例子就是你觉得这个 Benchmark 真的是很巧妙，别人想不太到，然后但定出来以后对产品提升、模型提升特别有帮助的这种？

因为你刚才那种我觉得就是比如大家坐在那就印象，总归能写出来各种，包括你去看用户的比如他互动的一些数据、提问的数据，去做个排序啊之类的，也大概能分出来一些。

那最终 A 和 B 两个公司，它通过 Benchmark 定义的不同，带来的结果不同，那这个 Benchmark 不同到底体现在哪？

丁丁17:22

首先在同一领域，Benchmark 的难度可能就会不一样，而这个难度通过什么体现呢？就通过你怎么理解这个业务。

比如说一开始你可能做搜索的时候，你会用一些特别简单的题目，但你当时可能会觉得这就是用户的输入。

但是再过一段时间，你会发现你看到有一些比如说金融领域的人，他可能通过上下五到十轮的对话，然后你发现其实完全可以通过一个比较复杂的 Prompt 的提问，然后也能让模型直接一步到位输出那个结果。

那这个时候可能你就会有一个更难的一个 Benchmark。那对于这个 Benchmark，你觉得什么是好，这个标准各家公司其实也一定会有差异的，而这个差异会直接引领着这个模型迭代的方向。

然后另外一个呢，是我觉得就过去可能模型确实会出现，比如说你训好了 A，你可能就丢到了 B，但我们最希望出现的场景是在前一代模型的这个基础上，你新的能力又不断的增长。

那你这个时候你更看重哪个方向的能力，其实我觉得也是一种取舍吧。

曲凯18:25

那 Benchmark 的好坏是不是还是一个相对偏主观的一个事情？就有哪些客观的指标能够衡量吗？

丁丁18:32

一个比较好的一个 Benchmark 可能有几个原则，比如说它首先一定是真实的能够反映线上用户的需求，然后也有一定的难度和区分度，它不是所有的难度都是一样的。

再其次可能就是这个 Benchmark 是随着你整个模型迭代的生命周期去进行流转的，就刚刚说的这个你可能会抛弃这个 Benchmark，你也可能会加一些新的题。

指标与实践18:58

曲凯18:58

你看古典产品经理，可能他看的指标就用户的一些使用频次啊，使用时长，对吧？放到 AI 里面可能就是对话轮次，然后包括一些典型的像留存啊这种数据。

那 Benchmark 和这些数据是挂钩的关系吗？

丁丁19:11

它一定是有个关联关系，因为 Benchmark 本质上反映的是模型某一方面能力到底好不好用嘛。那好不好用本质上又会被转化成用户指标，只不过今天的这个用户指标可能就像我们刚刚说的，你模型好并不一定代表你的 DAU 好，然后你在不同的业务下关联的用户指标可能就会变化，然后以及它的最佳用户指标是什么，会不会是一种我们没有想到过的但是

更好的指标。我前两天还在想一个事情，就是 Manus 火出圈了，那 Manus 的核心的用户指标有可能会是什么？

比如说我能想到的是最少步骤，但是结果被用户下载或者引用的这个比率。

曲凯19:57

所以 Benchmark 跟最终的用户指标是一个强关联关系吗？就你们会看比如说我今天出了一个 Benchmark，然后如果它变得更好，理论来说这些用户指标应该变更好才对。

丁丁20:06

对，是的。

曲凯20:07

对，如果没有变更好，就是你要去改你的 Benchmark。

丁丁20:09

至少要让它们去不断的 align，不然你的评估就没有意义。

曲凯20:13

是，它应该是个正关联的。

丁丁20:15

对，对，然后包括比如说可能我们在做 Evaluation 的时候，会涉及到 Auto-Eval 和 Human-Eval，你这个用大模型去评价自己模型的任务完成的效果和你用人最终去评价你端到端的这个效果。

然后我理解这两种的这个 Eval 其实它也是需要被不断校验的，不然就会存在着模型去自动打分，然后打出来发现跟真实的用户体验之间它其实有 gap。

这个过程本身也是动态的。

曲凯20:42

就你现在跟 AI 公司产品经理交流下来看，你觉得大家对于 Benchmark 这个事的理解跟实践是都已经在一个差不多的水平，还是会有哪些差异化的东西？

丁丁20:54

首先创业公司和大厂可能会有一些分化，大厂我看到的是不同团队还在像以前那种方式流转，比如说你的高质量的这个数据标注，然后包括这个评测集，它完全是由数据团队去做的，然后一个评测或者策略产品拿到这个结果，然后再去跟比如说功能侧的或者端侧的产品再去做沟通。

那我觉得它的这个断点其实是比较多的，但是我觉得对创业公司来讲，因为团队足够小或者组织方式的不一样吧，其实我觉得大家认知迭代的是比较快的。

曲凯21:34

多久 Benchmark 变一次是比较合理的？

丁丁21:36

我觉得没有标准答案，越快越好。

曲凯21:39

还是看数据什么的。

丁丁21:40

对，对，越快说明你模型能力迭代得很快。

曲凯21:43

但对于很多创业公司来讲，它如果不去动模型的话，其实它迭代的应该是它的一些比如预置的 Prompt 和它的工程测的能力，对吧？

然后影响它的结果。

丁丁21:52

对，我有一个补充的点是，你在一开始用户基数比较少的时候，你的评价维度可能会相对来讲单一一点，因为你的用户分化也不严重。

然后当用户变得更广之后，用户需求分布也会越来越不一样。在那个不一样的情况下，你仍然要去适合不同用户的一个最好的效果，那你的标准可能也会进行补充，然后调整。

曲凯22:15

对，我又想到几个问题，一个是你觉得市场里面，尤其是这些创业公司来讲，它的 Benchmark 大概在多少量级是相对你觉得比较合理的？

就比如说你今天自己要做一个创业公司，你大概会一开始出多少道题来去测这个产品？

丁丁22:29

我可能会给自己比如说 400 道题。

曲凯22:31

这个题会越多越好或者越少也好吗？

丁丁22:33

我觉得不是，就是你能够去衡量你的模型的表现就 OK 了。

曲凯22:38

那我能不能说我先产品上线，然后用户使用起来，然后我把用户所有的 Prompt 排序，或者做一个什么类似模糊搜索这些东西，最后我就排出来前面 400 个，然后我就说这个就是我的 Benchmark？

丁丁22:53

你说的这个特别有意思，因为这个就是以前搜索的。

曲凯22:56

就 Query 嘛。

丁丁22:57

对，高频 Query 的这个效果，但还是那个问题，就是你可能要过滤一些噪音或者是没有那么有效的这个用户数据。

然后另外一个是就是就跟搜索一样，你很多的需求你可能非常的长尾，那你只解决头部的 400 嘛，那剩下的比如说你假设整个 QV 量是 100 万，然后头部 400 可能占了比如说中间的 20 万，那剩下的 80 万你要不要解决？

肯定要解决。所以就是又回到我们刚刚说的原则，你还是要尽量的去符合线上用户的这个分布，而不是说单一的说有一个 Top 的。

但是我们确实会更关注比如说大家都会去看点踩，就这种很强烈的负反馈的信号，这种可能更能帮助你去判断一些底线的问题。

曲凯23:40

如果现在比如给你一家公司它的 Benchmark，比如说是比如说 400 道题吧，比如 40 道题或者 100 道题，你能很快的分辨出来这个 Benchmark 的好坏吗？

大概会是什么样的？

丁丁23:50

我觉得首先要看它是不是一个我所了解的领域，假设是呢，我觉得当然能啊，因为你能知道它比如说这些 Benchmark 它是不是有梯度的，然后是不是符合你对产品理解的比如说用户需求或者你一些真实的这个分布的。

曲凯24:04

你举一个典型的坏的 Benchmark 例子。

丁丁24:07

我这搞了这么多好的 Benchmark，从来没让别人问我说一个坏的 Benchmark 长啥样，比如说它特别的简单，或者说它 Benchmark 里面单一的都是类似的某一个维度的，然后某一个困难程度的，就是一个非常糟糕的一个 Benchmark。

曲凯24:23

然后另外一个问题就是我听到这我感觉去给模型的表现做 Benchmark 有点像给你一堆点数，你去点不同的技能树的感觉。

所以有没有一种可能是我就是把所有点数点在某一项上，让长板足够长，然后用户对我这个产品的这个长板感知就足够明显，然后我反而能脱颖而出，还是说我要去平均去点这个点数才是最好的选择？

丁丁24:47

这个问题可能得分为两层看，一个是基座模型的能力，我们会看到的是基座模型能力的越强，它会在一些垂类里面表现的确实也越好。

曲凯24:57

就是泛化能力。

丁丁24:58

对，对，对，你就什么都不做，你就天然一个博士生就是比一个小学同学更聪明，这是一个视角。但另外一个视角我觉得确实也有在这个之上的一些垂直产品或者模型或者 Agent 的这种机会吧，但那个是不是完全只基于模型能力，而是加入很多其他的比如说工程能力等等，包括一些独家的数据，包括加入对业务本身的理解，比如说可能有一个业务他就是做销售

，那他可能对销售这件事情的这种交互也好，或者这种抽象的正反馈的信号也好，他就是比其他任何一家公司或者任何一个人了解的更多，那他可能就能设计出更好的一个基于模型的产品，然后他也能告诉模型到底应该去奖励什么。

曲凯25:43

明白，那我们举一个例子吧，我觉得大家日常可能都用过的就是类似 C.AI 这种聊天类产品嘛。所以假设现在你就是做一个 AI 陪聊类的产品，觉得难点可能会在哪，或要怎么做这件事？

陪聊产品25:43

丁丁25:57

情感聊天或者陪伴的这个场景，因为它是没有一个 ground truth 或者标准答案的，所以这个时候它的评估标准到底怎么定才是完全准确的这件事情还挺难衡量的。

比如说你现在在跟一个陪伴型的这个产品聊天，你说我今天失恋了，我和我的对象分手了，那你的预期模型会怎么回复你？

比如说如果没有做过一些口语化或者是情绪识别回复的这个模型，它可能就会说听到这个很难过，我给你推荐以下几种方式去放松你的心情：一、下楼跑一跑；二、去见见朋友。

曲凯26:35

非常有画面感，好多模型确实是这样的。

丁丁26:38

对，对，对，但是你觉得肯定比较好的，你会希望它首先它就像一个真人一样，可能会问你说怎么了？

如果它具有 memory 的能力，它可能甚至会问你说不是上个星期你跟我讲你们俩之间还好好的吗？然后那有的模型就会关心说具体是出了什么问题，但可能有的模型的回复就是说抱抱你，我一直都在这里陪你，如果你有什么不开心的可以仍然跟我分享，对吧？

那一个真实的人他在这种情况下他到底预期获得一个什么样的回复这件事情，我们是没有一个非常细的百分百正确的一个答案的，我们只能尽量的去说在这个情况下我们希望模型首先关注到用户的情绪的变化，其次从 memory 的角度我们希望它能够去知道这个用户的比如说情感的状态要不要进行一些 call back。

那比如说再从一些心理咨询师的所谓的专家的角度，我们会讲说我们不先急于给解决方案，我们是关心说这个背后到底发生了什么事情，让用户先把自己的情感的状态和具体的故事倾诉出来。

曲凯27:41

对，我听起来就觉得这个事确实非常难定义，因为有的人可能就是喜欢。

丁丁27:47

解决问题嘛。

曲凯27:48

对，有的人喜欢解决问题，有的人喜欢别人可能就是怼他一下说你失恋了又咋样，对吧？你就别拿它当个事什么的。

有的人就喜欢有个像闺蜜一样去安慰他。

丁丁28:01

对。

曲凯28:01

几乎无法来定一个好的 Benchmark 嘛。所以从这个角度来讲，我觉得未来一定会出现一些小众猎奇的产品吧。

因为你像你刚才讲你的 Benchmark 定义的它只能可能照顾到 80% 的用户。

丁丁28:13

也许加上个性化和机构模型足够强的能力也能解决。但是我其实也在想一个更抽象的问题，就是我们刚刚在定很多评价的标准或者价值观的时候，你会发现我们整体上是一个人类价值观的一个映射，但这件事情对吗？

曲凯28:32

这个确实很抽象。

丁丁28:33

对，这个太抽象了，但是无非就是你觉得整个人类世界当中一定有在某个问题上有一个相对好的一个答案，所以你再去做这个映射嘛。

但这种映射真的是对的吗？我不知道。

曲凯28:46

我在想确实就是答案我觉得分两种，对吧？一种是说社会约定俗成的一种答案，另外一种是可能有一个更高级版本的答案，就是好像你在讨论一个问题的时候，可能你身边的朋友都会给你一个答案，但这时候可能会有一个类似教授角色的人，他会给你另外一个答案，你会觉得这个可能是一个比较醍醐灌顶的一个答案。

丁丁29:05

我觉得比如说就是在做题啊，然后在生产力的很多场景，这个现在还是 work 的，但是比如说刚刚我们讲的一些场景，有的时候就会想说这样就是完全准确的吗？

不好说。

曲凯29:16

对，所以从这个角度来讲，确实做生产力类的一些产品。

丁丁29:20

确定性更强，或者说它的标准相对来讲我觉得应该是更好找吧。

曲凯29:25

对，就更好做，就这个 Benchmark 肯定是更好定的。

丁丁29:28

对。

曲凯29:29

所以未来就以前不是会有公司说偷进入对公司的代码，未来会不会说我偷 Benchmark？

丁丁29:36

这个话题特别有意思，我觉得 Benchmark 确实是一个核心资产，如果是我的话，我可能就会维护一个只有自己知道的一个 Benchmark，这个 Benchmark 甚至我觉得算法团队的同学也不应该知道，因为如果知道了，他们可能在训练的过程当中会不由自主的让模型去打出这个问题，或者会不会被 hack 我不确定，那我就会每次可能上线之前过来测一下，但是我不会公布这个 Benchmark 具体

是什么。

曲凯30:03

所以确实 Benchmark 是一个特别特别重要的东西。

丁丁30:06

是的，是的。

曲凯30:07

所以你觉得你做了，因为你之前其实最早在微信做搜索类产品嘛，对吧？然后后来又在美团做过策略产品，然后你又在 Kimi 做了模型产品，所以你回过头来看，你觉得 AI 的产品经理和古典的产品经理来讲，大家相同跟不同的地方在哪？

AI产品经理30:07

丁丁30:25

我觉得相同的地方是懂用户，然后相同的能力点叫做翻译能力，这个翻译能力可能仍然是发现问题并把用户和业务的场景去做抽象，比如说可能过去的抽象是抽象在了交互的设计和整个结构的设计，可能今天在模型你就是把业务的整个的流程抽象出一种好的评估的标准观测的指标。

对，所以我觉得这个抽象能力，然后以及这种对用户场景需求的这种翻译能力仍然是重要的。然后另外一个是我觉得原来古典产品经理非常多的还是说对交互体验这种敏锐的感知能力，到底什么是美的，什么是丑的，什么是符合直觉的设计，什么又不是，这种能力我觉得仍然是需要的，而且我觉得是稀缺的。

因为现在大家说了很多关于模型的，但今天一个不同的产品基于模型能力的最好的交互其实还没有诞生，而在一些垂类的产品里面可能交互会更加的重要，这个交互甚至直接反映了你能不能为模型的迭代或者产品的迭代设计出一种合适的反馈的节点或者反馈的信号。

那我觉得不同就在于对数据的重视程度会发生非常非常大的变化，就是现在会比以往更重视数据的质量。

然后还有一个就是对于模型能力边界的理解，这个过程我觉得还是需要很多时间去积累的。

曲凯31:49

这块我觉得可以展开讲讲，我觉得这块应该是最难也是最重要的一部分。就现在模型的进展其实还是很快的，那有的人就担心说是不是我现在做的东西半年后就被模型颠覆掉了，就没有用了，或者说我做这整个这个产品是不是就在模型的发展路线上，就是怎么样去就像你讲的能更理解模型的边界以及能够预判模型的边界。

丁丁32:11

首先我先说方法层面吧，因为这个问题可能也会有很多之前的产品也会跟我去做讨论，我觉得就你还是要多用，然后你去用不同的最好的模型，然后以及他们的 API，然后你会理解不同模型在不同领域或者不同能力上的表现，你也会更加熟悉模型每隔比如说一个月、两个月，因为它一定会有新的版本的能力的提升嘛，这是第一点。

然后第二点是我觉得之前内部的同学也会在分享说把所有你觉得你想做的事情先用 AI 做一遍，比如说以前 C 端我们除了 PRD 之外可能我们先要花一个交互，对吧？

那你可以试着把你想要的这个交互逻辑清楚的说出来，然后让 Claude 可能帮你去制作一个交互，因为在这个过程当中你就会去摸到这个模型能力的边界以及帮你能够实现什么。

然后在这个动态的跟模型一起迭代并使用的过程当中，你可能会发现它某个方向的能力它会比你想象的变得越来越强。

然后这个例子其实也可以去 call back 前阵子非常火的 SEO 的言出法随的图像生成嘛，你在没体验到它的这个模型之前就会觉得说你要可能生成一个指令遵循的，特别是上下文多轮修改的图是非常难的，但是你今天其实你会发现说哇原来 SEO 完全能做到，那它可能就是一个伴随着模型能力边界的迭代而产生的，那在这个基础上你可能又能快速的

去做出一些新的产品。然后另外一个是我觉得你的动手能力要很强，然后你不需要像过去的产品一样有非常强的模块流转的这个意识，而是你要完全丢掉这个意识，就你就把自己当一个产品经理，当一个设计师，同时再当一个前端，现在可能我当后端不能完全实现，但也可以试一试，然后你去完成全流程的这个闭环，那我觉得对你理解模型这件

事情也是会更有帮助的。

曲凯34:06

所以未来你是不是也觉得每个人真的就是会变成全栈？

丁丁34:10

我觉得是。

曲凯34:11

你自己会看论文吗？因为之前 HiClaud 在我们做了一期博客嘛，那期其实也很多人听。

丁丁34:16

我是那期的忠实用户。

曲凯34:18

对，所以张涛其实他讲了很多点，就是说他自己会日常去看那些论文。我不知道你觉得这个是 AI 产品经理的必备的一个东西吗？

丁丁34:26

我觉得是，因为我觉得这个习惯是非常非常重要的，因为我觉得你去理解那个原理，然后以及你在理解原理的基础上去做验证，它本来就是一体的。

我没有见过说哪个人去用，但哪个人完全不关心原理的实现，你肯定会知道说他为什么会这样，他某些能力做的比较强。

但是我觉得可能不一样的是你理解论文的那个深度跟算法同学理解论文的深度可能是完全不一样的。

然后论文也分很多种类嘛，比如说你如果完全是在讲算法的，我觉得可能我努力看也不一定看得懂，但是在讲一些比如说比较前沿的一些判断的论文，其实你也可以搭配着去看一些。

曲凯35:06

所以从你做过模型产品的这个视角来讲，你觉得创业公司或者说在做 AI 产品的人，他们做哪些事情是不会被模型未来碾压掉的？

能给一些大概的判断标准吗？

丁丁35:21

首先我觉得他可能是有一个很深的领域内的 knowhow，然后他同时又具有对模型的理解，那他可能会在这个阶段成为最快的把这两者结合在一起，然后形成一定的产品壁垒或者说行业认知，然后积累用户的这个公司。

曲凯35:39

然后我们最后还是讲回到你微信那段经历里面，我们稍微回顾一下，你在微信那段经历里面你觉得有哪些印象很深刻的东西吗？

微信经验35:39

曲凯35:46

因为我们前面讲了很多 AI 产品的东西，那段经历反而是大家会认可的说古典产品经理可能很经典的一段经历了。

丁丁35:54

我觉得有一些产品原则吧，一个是先做产品结构，然后才是功能细节，比如说我们会发现微信里面有很多的功能，如果把它都用比如说不同的 tab 来表现，不做层级的拆分，那可能今天会非常的冗余，然后也会非常的复杂，但是直到今天可能微信还是比较简单的，然后也只有四个 tab。

曲凯36:17

这个真的是张小龙一上来就已经想好的说我要这几个 tab，然后我要怎么做朋友圈，做公众号，再怎么做什么。

丁丁36:24

对，我觉得底层的结构它是从一开始就想的非常清楚的，然后包括它也抽象了像扫码就是一个新的一个入口，扫码提供的背后就是一个服务的一个能力，这些都是甚至是在小程序诞生的两年之前龙哥就已经想好了。

然后另外一个就是功能模块之间是有机联系的，比如说当时很多用户都说要不是只有一个微信头像，你有多个头像。

曲凯36:51

可以左滑右滑的那种感觉吗？

丁丁36:53

对对对，但实际上你会发现用户的背后的需求叫做他想要有更多的头像的照片展示给别人看，所以本质上他的需求应该去被朋友圈去承载，而不是说我要在这个单点上去做设计，所以这个就是刚刚说的功能模块之间是有机联系的。

然后另外一个是我们不会主动强教育用户去一定要用哪个功能，而是可能用户在用这个功能又往下再下钻一层的时候，他发现可能有一些新的体验，然后他才会去触发到这个能力不必要的。

曲凯37:25

所以你后面在其他公司，包括模型产品公司做过以后，你觉得这些东西仍然是适用的吗？

丁丁37:31

我觉得是适用的。

曲凯37:32

就是它底层原理其实还是一样的。

丁丁37:34

对，底层原理是一样的。我觉得微信出来的产品它有一个被培训过的点是大家都会基于一个更全局的视角去真正的想什么是好的体验，但是今天可能在一些公司因为验证一些能力和功能的设计太简单了，然后上 A/B 实验是非常方便的，你可以跑 8 个实验甚至 20 个实验，你只要选那个最终把指标坐正的就可以了。

那你在做这个方案的时候，特别是年轻的同学吧，你就不会去真的想说用户需不需要这个，然后跟全局的联系，然后到底这么做是不是好的，因为我可能只要跑实验就好了。

曲凯38:09

对，你看其实我们刚才讲过好几次古典产品经理，但其实这个概念最早提出来我理解就是说古典产品经理是靠很多他个人的经验和感觉，靠用户感知来做事情，然后它应该最早对应的是更多的 A/B test 和实验型的数据驱动的产品嘛。

这里面比较典型的像美国那边很多大厂其实它是做很多 A/B test 的，字节也是以这个出名的嘛，对吧？

它也做各种 A/B test，然后最终它应该是结果看数据嘛，数据如果好的话，哪怕你解释不清楚这个事情为什么是这样，它也是好的。

我不知道你最后会同意这个说法吗？

丁丁38:46

谈这个问题之前，我觉得可能得要往上说一层，就是我觉得每个产品首先它是有自己的个性的，或者它是有自己的感觉的，比如说微信给人的感觉就是它比较内敛，然后它又极致的简单，然后可能 Instagram 它给人的感觉就是它很时髦，它也很漂亮，它是一个很 fancy 的这个感觉，所以我觉得这个调性肯定是不能通过 A/B 实验去得到的。

曲凯39:11

这个还是很古典产品的视角呀，就是我这个产品打开就是很乱，但是它留存就是比原来高了。

丁丁39:18

所以这是一种价值观的取向，就是你是不是就为了比如说追求指标，我就是能容忍加那么多，但是就比如说微信的取向就是绝对不可以。

然后第二个是关于指标，你选的到底对不对这件事情，因为一旦公司大了以后，你每个部门的指标和每个业务的指标，它其实还是会存在被 hack 的空间的，因为它关注的不是一个统一的一个大指标，它不会去遵循某一个所谓的这个调性或者价值观的体现，它可能只要坐正我这个业务的指标就可以了，即使它可能非常违反直觉和到最后对大指标来讲，

它可能甚至是负的。

招人标准39:52

曲凯39:52

明白。好，那我们最后一个问题就是现在如果一个创业公司他想要找一个好的 AI 产品经理，因为现在其实挺难找的，对吧？

没有一个画像是典型的说这个人就是可以做 AI 产品经理的，你觉得到底大家要怎么找这个人或者怎么培养这个人？

丁丁40:08

首先如果从一些背景上来讲，我觉得可能我确实会更偏好初创的模型产品或者更小公司里面就是完成这个从 0 到 1 或者端到端的这个同学。

曲凯40:19

就是更全栈，更自己从头到尾做过一些东西。

丁丁40:23

对对，然后第二个是因为我也看到过有些同学他会用自己的业余的时间，他会去做一些小的 demo 或者小的产品出来，然后我觉得这是一个非常好的信号，因为如果你是一个好的 AI 产品经理，你本身就像你说的，它可能是个全栈，你这个产品可能不用特别突出，但是你肯定自己一定跑过一些东西，验证过一些东西。

然后第三是我觉得确实你可以直接问他，就是说你最喜欢的模型是哪个，你平时用的最多的模型是什么，你一般在什么场景下用，然后为什么你用那些，即使可能他前面那两条没有满足的话，其实从第三点你也可以看出他对整个行业的理解，包括热情，包括整个的这个专注度。

曲凯41:00

好，感谢丁丁。

丁丁41:02

谢谢曲老师

。