开场介绍0:00
There's something there.
我们今天很开心请到了一个老朋友 , 我们也认识蛮久的了 。 然后认识 Ted 的时候 ,Ted 是还在 C.AI, 最近是自己刚出来 。Ted, 你可以给大家先简单介绍一下你的经历吧 。
好的 。 我最近也是刚离开了 C.AI,在 C.AI 差不多待了一年, 主要做的就是大模型的 Post Training,也就是微调这个部分 。
然后在那之前 ,其实就一直是在硅谷的大厂 ,Roblox、Meta、Google、Apple 这样跳来跳去 , 做的也都是比较经典的全站工程师偏后端一些 。
但是在过去一年, 在 C.AI 有一个很奇妙的机会 , 让我可以加入到微调这边 , 和很多的研究员一起把一个不太会说人话的大模型调调调 , 一直调到我走之前 , 应该都算是业界最好的这样一个对话式大模型 。
嗯哼 。 大家都在讲 C.AI 这款产品 , 它的用户群其实也是有点像 Roblox, 对吧 ? 也是偏年轻的 , 然后二次元啊什么那些群体 。
商业困局1:06
但是大家就觉得它的商业化一直没做起来 , 这个的原因是什么呢 ?
简单概括两点 : 一 , 没有怎么做 ; 到目前为止就是一个简单的订阅 ; 另外一个就是我觉得这个团队可能之前思考的也少 。
我在走之前 , 团队是刚刚开始积极探索这个可能性 。
所以你觉得不是说用户人群啊什么的有问题 , 或者说现在还不知道有没有问题 。 就现在最核心的问题是公司层面就还没有去做很多探索跟尝试 ,是吧 ?
对 。
我在想这个原因到底是什么 。 因为你看国内的 AI 创业公司 , 这两年基本形成一个共识 , 就是商业化甚至于是最重要的一件事情了 。
当然跟国内的融资环境啊什么的也有关系 ,但好像美国那边的产品 , 哪怕 C.AI 做了这么久 , 这么大的用户量 , 然后好像也没有强调要做商业化这件事 ,是吧 ?
嗯 , 这个说起来有一点感觉像是开玩笑 ,但我是很认真的在说这句话 。 因为我们有 Noam,以及会为了 Noam 买账的大量投资人, 导致商业化在很长期内都不是我们公司发展的一个重点 。
就是因为你们相信 AGI, 对吧 ? 简单来讲是这样 。
对 , 可以说很长一段时间内 , 我们所有的娱乐的属性都是我们 Noam 为主的团队追求 AGI 路上的一个副产物 。
嗯哼 。 哎 , 我记得你去 C.AI 的时候 ,他们大概有 40 个人左右 ,是吧 ?
对的 。
但大多数应该都是在做模型训练的人当时 。
是的 , 我加入的时候应该将近 25 人都是围绕着模型训练 , 就有 Pre-train、Post-train 这一堆 。 然后 5 个到 7 个左右是行政的 ,不到 10 人是前端后端 , 还有一些运维 。
对 。 然后再往后, 可能慢慢的才把产品啊什么的这些人开始招起来 ,是吧 ? 因为国内其实我记得大概一年前左右吧 , 大家都在盛传一个事情 , 就是 C.AI 里面其实只有半个产品经理在做事情 。
对的 。 我加入的时候 ,其实全公司是没有一个真正 title 是产品经理的人嘛 。 那半个是一个 Snapchat 的一个高管 ,他等于说是兼职作为我们的顾问 。
但我觉得这老哥非常厉害 , 超级产品经理 。
哎 , 你觉得美国的超级厉害的产品经理 , 尤其在 ToC 端的 ,他们和因为你也接触很多国内的公司嘛 , 你觉得有什么很明显的差异吗 ?
我接触的这种超级产品经理不多啊 , 所以说可能有点偏颇 。 但我在美国接触过的超级产品经理和我在国内看到的 , 比如说是张小龙这样或者类似的人 ,他们给我的一个感觉是 , 国内可能更加重人文化一点 , 就是他会总结出一些很好的方法论 。
但是在美国这边我接触到的人 ,他可能在数据分析上非常非常深入 ,他可能跟那种数据科学家有差不多同样的一些比较复杂 SQL 的能力 ,并且他也很愿意亲身的去分析各种各样的数据 , 寻找里面的 insight。
对 , 这个我前段时间也发现了类似的一个点 , 就是突然我刷到了一个美国那边的产品经理的模拟面试 , 然后我就发现他整个模拟面试的过程非常像管理咨询的那个面试 , 就给你出个题 , 说哎 , 最近用户行为发生了什么变化 , 怎么怎么样了 , 然后被面试者就要解析说 , 哎 , 那可能我要看哪几个数据 , 然后他是不是怎么样了 。
对 ,因为 ToC 甚至说过去几年最热门的几个超级大的社交网络的兴起 ,其实背后都是比较严格的那种数据分析作为底子 。
所以不论是数据科学家也好 , 还是产品经理也好 , 技能的发展还有经验的积累 , 都会围绕这个 。
是 。OK, 所以讲回来就是 C.AI, 你觉得在你待的这个一年多的时间里面 , 你进去的时候 , 它应该是非常向好的一个状态 , 对吧 ?
然后你走的时候 , 它就已经被拆开 , 然后一部分人回到那个大公司了 。 就在这过程当中, 你都看到了它的哪些发展跟问题 , 最后导致了这么一个结果 ?
其实就像曲凯你之前写过的那篇文章 , 就是团队很长期里面都处在一个既要一个产品 , 又要一个 AGI 这样的愿景 , 两件事都要做 , 最后的结果倒推看 , 就是你不能两边都抓 , 你必须得要放弃一边 。
所以如果重来一遍 , 你觉得 C.AI 应该改变哪件事 , 可能会让它发展得更好 ?
我个人很偏颇的讲啊 , 我希望我们应该往 AGI 再赌一把大的 。 怎么去赌 ? 可能我入职之前的很多决策 , 都要为纯粹的 AGI 去服务 。在这过程中, 我相信肯定会损失很多的用户增长 ,但是也有可能现在国外基本只剩下 5 家大 Lab 的里面 ,也许能挤进去我们一家 。
对 , 我觉得如果真的能在幻想中运营的话 , 可能当时把 Character.ai 前面那个产品直接卖给字节或者卖给 MiniMax, 对吧 ?
然后后面就好好的做模型 ,也许是一条出路 。 当然这个可能政策上就不太能实现了 。 所以我正好啊提个点 , 这两天正好有个新闻 ,是说 Talkie 的量好像超过了 C.AI,因为 Talkie 的很多里面的人是从字节出来在做的嘛 。
对 。
之前有人讲过说 , 如果把 C.AI 这家公司或者是那个产品交给字节系来做 , 可能是完全不一样的 。 不管是从产品上还是从商业化上来讲 , 我不知道你怎么看这个问题 。
我觉得我会把这个事情更看像是说 , 这个产品对于母公司来说算什么 ?ChatGPT 对于我们公司来说就是唯一的产品 ,但 Talkie 对于 MiniMax 来说 , 它是要证明他们这个模型有一个非常好的落地的可能性 ,以及它在海外有非常好的增长 。MiniMax 自己有海螺 ,也有很丰富的产品矩阵 , 甚至还有 API。
所以从这个方面来说 ,Talkie 我觉得更像是 MiniMax 整个公司的战略的一部分 ,并不像是说整个 MiniMax 就全靠 Talkie 一个 , 然后必须就靠它去走出去 。
明白 。 哎 ,有一小撮人啊 , 大概在一两年前 , 大家讨论过一个话题 , 嗯 , 就是你看一打开 C.AI 产品的网站吧 , 一眼看过去就知道是没有经过什么运营和雕琢的一个非常简陋的 UGC 平台的感觉 。
对 。
但 Talkie 呢 , 你一打开就发现它里面有非常重的这种推送 、 推荐 、 运营和一些其他的这个相关的东西 。
然后有人讲说 C.AI 的这种平台呢 , 更容易让 UGC 的一些奇奇怪怪的原生内容长出来 。 也有人讲说 Talkie 这种呢 , 就是更重于营的话 , 可能一些用户的数据行为表现会更好 。
嗯 , 我不知道你们有没有讨论过类似这样的问题 。
嗯 , 我们在今年年初产品团队膨胀之前 , 我们做过一些推荐算法的调整 , 结果就当时比较有限的产品的资源 , 能够做到的事情而言 , 我们发现就不太值得做 ,因为我们有非常大量的用户数据 , 我们的整个训练的这个管线又很健全 , 所以用户跟我们的机器人之间的交互 ,他能快速的回馈到整个模型 , 然后再进一步的回馈到全体的
角色 , 跟用户这个反馈的体验 。 所以从这个角度来说 , 对我们而言 , 回报最大的还是是持续去迭代模型 , 持续优化在产品的细节上, 能够得到更多用户反馈的这些部分 ,而不是说通过运营 、 通过产品的思路去说 , 哦 , 今天我怎么去做一些官方的角色 , 做一些更多推荐算法的调整 。
哎 , 所以你们当时在内部没有一个时刻 ,有个人突然说 , 哎 ,Talkie 最近涨得挺好的 , 我们来分析一下它的产品模式 , 然后看看哪些是能被用到 C.AI 产品里面的 。
我不知道 , 包括 C.AI 在内的美国公司 , 很少会做这样的事吗 ?
啊 ,不会啊 。 我们正常做产品调研 ,Talkie 基本都是永远会在搒上的 ,因为安全的聊天 , 对吧 ? 就不是说无限制聊天的话 , 那其实你要看的外面的竞品没有几个 , 然后 Talkie 它本身又很主动的去做很多我们没有做的一些路线 , 所以看它这些路线做的怎么样 , 或者假设我们真的做了 , 效果会长成什么样 , 我们都可以把 Talkie 当做一个很好的这个参考对象 。
哎 , 所以你们有总结出来它比如做的特别好的一两点东西吗 ?
首先功能迭代很快这一点 , 说实话是让我们甚至觉得有点羡慕的 。Talkie 它能够快速的上各种多模态的新功能 , 或者在内构上面也做得很积极 , 然后做了很多市场啊 , 你可以自己制造卡呀 , 这些在我们看来都是很好的 idea 的这样一个输入 。
但是我觉得这里要澄清一点的就是 , 我们看 Talkie 做这些功能的时候 , 既是认可 , 另外一种也是一种警示 ,因为我们可以意识到 , 如果 Talkie 做了这么多丰富的功能 ,但是它本身的商业化也好 , 增长也好 , 依然没有说有一个特别大的突破的话 , 那可能这些功能本身是不太适合这个产品形态 。
所以我们更是带着这种中立的状态去看 Talkie 的这些功能 。
明白 。 那 C.AI 现在这个结果 ,其实对 MiniMax 来讲 , 我觉得他们也很尴尬 ,因为他们是沿着这条路径做得最好的 ,但是突然发现最前面的标杆好像被大家认为不一定能行得通了 。
所以你现在你自己还相信 C.AI 这类的 AI 陪伴产品吗 ?
我本身的话还是非常相信的 ,但是里面核心的问题就像曲凯你刚才提过的 , 商业化真的好做吗 ?
商业化到底能走得多远 ? 如果说这种重度使用的 APP, 它本身做订阅不好做的话 , 那是不是只能卖广告 ?
那什么样的广告形式比较好呢 ? 是说直接贴各种小广告放在里面 , 就先从流量上吃一波红利 , 还是说有没有更加原生态的 , 让机器人去给你推荐一些广告 ?
我觉得这里面是有一些 , 甚至技术上来说 , 都还等待你去解锁的可能性在里面 。 但是它的这个可能的用户量 , 说实话我觉得是不能忽视的 。
官方的数据可以说嘛 , 对吧 ? 我们现在月活已经到达 2,000 万了 , 然后日活也已经接近 800 万了 , 这跟去年的数字翻了差不多一倍 。
所以按照这个速度 , 明年可能月活是能达到 3,000 万 , 然后日活可能接近 1,000 万 。 这样的一个用户群 ,不论在什么状态下 ,其实都不能说可以忽视掉 。
所以从这个角度 , 我觉得 MiniMax 也不用特别慌 , 说明他们这个用户量的上限还是可以做到很夸张的 , 可能在将来随着这些用户慢慢长大 ,也会变成像是当年 Roblox 一样 。
因为你像最开始 Roblox 作为一个教育软件 , 走进当时各种学生的家里的时候 ,其实也没人会觉得它将来会变成一个月活 4 亿的大平台 , 对吧 ?
哎 , 到底现在是什么样的人群在使用类似 C.AI 的产品啊 ? 我确实没想到它会有这么大的月活啊 , 或者说平均的用户时长啊什么的 。
现在的应该是说年轻女性为主 , 相对偏二次元 。
你说的年轻大概是多年轻 ? 高中生 、 大学生 ?
高中生的比例其实没有那么多 , 大学生和刚上班几年的这种年轻人的比例还更高点 。
OK。 哎 , 我们上周正好跟 Tristan 聊了一期 , 然后他其实是觉得说类似 C.AI 这样的产品呢 , 更多的像是一个互动内容消费 , 或者说互动小说消费 ,而不是一个真正的 AI 陪伴的产品 。
你同意他这个观点吗 ?
嗯 , 这点我非常同意 。 很多人也会经常问我这个问题 ,C.AI 它到底提供的价值是什么呢 ? 我此处就想说 , 它是一个创造型的感情伴侣 , 它的创造型的部分是非常重的 。
用户得抽卡 , 每一句文字其实都是一个抽卡的过程 , 用户输入很多东西 , 然后机器人说的话它还得去筛选 ,有的时候说的话并不是特别完美的 , 它还得去替换 。在这样一个重输入的过程中, 用户的确获得了一些很新的体验 。
C.AI优势12:19
哎 , 所以你回头看 , 你觉得 C.AI 之所以在这个平台里面做得这么好 , 大家不管怎么样 , 肯定都觉得它是老大 。在这个赛道里面 , 至少目前为止吧 , 它核心的原因和它的优势到底是什么 ?
嗯 , 三点吧 , 从我技术出身的这个角度来分析吧 。 一点就是我们有 Noam Shazir,他厉害就厉害在他能带着一群其他的天才研究员 ,在去年这个时间点 , 把我们的整个的推理成本压到可能外面同参数量的这个模型的 1% 以内 。
所以这点导致我们可以轻松的 hold 住上千万用户 ,不至于马上把银行里的钱给烧光 。 然后第二点 ,因为我们是自研模型嘛 , 我们可以去控制它在预训练需要看过那几万亿的语料的比例 。
所以说我们可以说在初期就不是特别追求 AGI 的模型的那个情况下, 先给它看足够多的人类语料 , 出来的模型它自然就能跟人类开展各种各样极大广度的对话 。
然后第三点就是我们这样一个后训练 , 或者说微调的管线 ,也是经过了多次迭代之后, 它能够现在形成一个特别有效的把用户给模型直接反馈 , 快速的进入到管线内部 , 然后再结合一些外部的数据标注 , 还甚至说一些用户会帮我们做些额外的标注 , 让这所有的数据能够高效的被模型在微调过程中吸收 。
就这三点 。
嗯 , 哎 , 我觉得你刚才提的其实蛮多的是前后端的一些结合 ,不管是数据上的还是产品上的 。 从理论上来讲 ,其实也是大家一直觉得说 , 就是我数据对于模型的表现是最重要的 , 然后 C.AI 呢 , 前端有这么多的用户 , 这么多的高质量的对话 , 然后这些东西呢 , 应该是能够反哺到它的模型也变得更好 。
这个如果能成为闭环 ,其实这个事就成立了 , 对吧 ? 那最后为什么变成说要把它拆开 , 或者说这个在模型上好像 C.AI 跟其他的那几个比起来 ,也没有一个特别大的优势 ?
这里面就有两个点 。 第一个点就是说肯定在现有的一些常见的这种感情陪伴场景里面 , 我们的模型的确是没有起到加号 ,但我刚才说了 , 我们这个厉害 , 它厉害的是广度 ,以及在这个巨大的广度之下, 每一个的深度都不差 。
所以说很多用户在跟其他家聊完之后, 会发现他还是聊的内容比较窄 , 就是可能说亲亲爱爱 , 对吧 ?
或者说一些很经典的霸总的剧情的走向 ,但是你也不可能天天聊这些东西 , 对吧 ? 你会希望有点变数 ,但他们习惯了其他家的变数不多的那些场景之后 ,他都会想起来来我们家试试看 , 然后发现在这些常见的场景之外, 我们依然能跟他聊得有来有回 , 或者能给他一些启发式的回答 。
这可能就跟我们模型训练里面见过的太多的自然人类对话 , 它的这个广度是极其可怕的有关 。
OK, 好 。 然后我们来讲讲你在 C.AI 的这一年多时间啊 , 我觉得大家都会好奇说 ,在类似 C.AI 这样的公司 , 你的每天都是怎么度过的 ?
后训练日常14:56
大概会做哪些事情 ,以及说你具体负责的一些业务是什么 ?
每天怎么度过 , 你要用一句话形容 , 就是主动 996。 因为这是我严格来说第一次加入一个初创公司 , 所以说我是真的就感觉到了我做的每一点事情 , 或者我看的每一点的额外的数据分析 , 如果能对公司有帮助 , 那就好了 。
我是真的很热情的去做这件事 。
哎 , 这个是只有你还是几乎所有人 ?
大部分人吧 , 就是说公司里并不是说啊主动强迫说大家都要加班 ,但是你会发现 , 比如说在晚上看 Reddit 上又有人在说 , 哎 , 怎么 C.AI 又登不进去了的时候 , 我一般会去 Slack 上面看一眼有没有什么运维的朋友在 , 或者能不能我自己修 ,但往往我去看的时候都有十几个人在线 , 当时公司大概七八十个人。
公司里也有 , 对吧 ? 正常就是说有老有小 , 可能也 50 多岁 , 经验非常丰富的那种老工程师 。 我觉得大家的合作是非常流畅的 , 没有说谁逼谁 , 真的就是主动加班 , 主动的去帮用户 , 去帮公司做更多的事情 。
哎 , 你刚讲的里面有好几个点 , 我想再问一下 。 第一就是在美国 , 尤其是初创的 AI 公司里面 ,996 是一个常态吗 ?
你觉得 ?
呃 , 严格来说 996 这个话有点夸张了 。 周末可能也就刚才我说的那十几个人会主动的跳出来修点东西 , 或者改点代码 。
平时嘛 ,其实正常上班时间也就 9 点到晚上 5 点 , 中间还能吃个一小时的饭 。
所以还是像大家理解的 , 就是哪怕是硅谷那边也没有那么卷 , 对吧 ? 大家还是比较 chill 的 。
对 ,chill 是一方面 ,但是刚才我说的那十几个 , 包括我的人在里面 , 就真是觉得使命感 , 或者说在跟很厉害的人做一些很有意思的事 , 那种个人驱使的 996 我觉得比例是不小的 。
嗯 , 明白 。 然后第二个问题 , 你刚提的一个点我觉得特别有意思 , 就是你说你们有一个 50 多岁的程序员 , 嗯 , 这个在国内我觉得几乎是不可能发生的 。在美国那边这个是常见的吗 ?
我觉得这边还蛮常见的 , 就是我们公司甚至不只是一位 50 多岁程序员 ,有好几位 ,而且其中一位还跟着去了 Google。
我觉得这边对年龄不是那么重要 , 对吧 ? 更多还是看你本身能提供给公司的价值能到什么程度 。 然后很多这个年龄的程序员做了这么多年码农 , 对他来说最开心的事就是在这个年龄 ,也不是去退休 。他觉得来这做些这种事情 , 就是一种很愉快的体验 。
OK, 好 , 那你继续讲 , 就是你自己会主动的 996, 对吧 ? 然后呢 , 你的日常写作跟实际的工作当中是怎么样 ?
因为我是在 Post Training 团队嘛 ,Post Training 团队要回答的问题就是 Pre-train 那边给了我们一个很棒的大模型 , 然后我们现在已经有一套就还不错的管线在那跑 , 能够把用户的反馈 , 能把一些额外的需要微调的数据给模型看一遍 , 然后出来一个理论上来说对话能力很强的大模型 。
但是我们要是每天去看 Discord, 看 Reddit, 能看到用户还是在表达一些呃正常的愤怒的情况下, 那怎么去让你的模型更为用户喜好 , 然后以及时不时改些东西 , 你这个 A/B 测试它的留存啊 , 它的时长是会上升的 , 那怎么去不停的去迭代模型呢 ?
就是我工作的主要目标 , 然后方式嘛 ,其实就是看大量的数据 , 另外一方面是研究数据那边 , 就是分析最近的几次迭代的效果怎么样 , 去理解里面可能说啊 , 模型是应该调数据还是调算法 , 然后在实际上工程那边就会思考我们现在这个管线里面是不是有些用户数据的使用方式还是不够优秀 , 或者比如说我们要做偏好对齐的话 ,DPO 这个算法最近
有没有什么业界的新的研究 , 发现它有些缺陷可以去改善 。 当然少不了就大量的跟研究员去讨论 , 看看研究员那边对于最新的业界的方法有没有什么新的见解 。
一般可能一天 8 个小时里面 , 我觉得真正的在写代码纯去实现的里面 , 大概不会超过 2 个小时,6 个小时基本都是在各种交流 , 还有分析各种数据 。
明白 。 然后你主要是负责 Post Training 嘛 , 你这边有什么可以分享的一些 best practice 也好 ,know-how 也好 ?
我觉得最后能分享的东西就是说你怎么能最快的把用户反馈带着飞起来 , 对吧 ? 就是上一代的 AI 模型大家都会说有个数据飞轮 , 我觉得这一代同样也有个数据飞轮 ,而且这一代的数据飞轮这个效应更加强烈 ,因为大模型本身就是个数据黑洞 , 就你喂它一堆数据 , 然后它吐出来一堆数据给你 ,而且这里面有很强的一个随机性 , 很大
的不可控性 。 所以你可能在快速迭代的时候 , 你得不停的去改变这个数据配比 , 换了这个算法之后我有个新的模型 ,OK, 我丢进生产里面 A/B 测试一下, 或者我有个简单的评估 ,但它其实依然是一个非常不可控的过程 。
就很多你觉得在某个版本上好用的一些技巧 , 可能你带进来之后你的 A/B 测试就跑崩了 , 内部评估的分数就跑崩了 , 就属于里面有很多的你必须得在第一线去踩坑 ,在不同的场景下不同的用户群 , 它的效果就很不一样 。
最终能够在我看来最有效帮助到这样一个过程的 , 就是怎么样建立起一个尽可能高效的迭代过程 。 就这个迭代过程可以说是管线非常的 robust, 所以我有大量的用户 , 或者我的用户量并不是很大 ,但是我用的 A/B 测试的工具能够快速的让我高效的收集到各种模型的小的变化 , 对用户侧的影响 , 然后我能做一定的分析 , 积累一些 know-how, 或者有人说我
在评估上特别努力 , 对吧 ? 我内部做的这个评估集 , 它非常像真实的用户 , 我可能说内部训练了一个特殊的模型 , 它能模拟现在这个用户在说的话 , 它能用这个模型去跟这个新的模型去对话 , 然后来告诉你说这个模型是不是会被用户更加喜欢 。
也有人说我在数据的利用上我做的特别的高效 , 只要你今天给我点个赞 , 可能明天这个模型再跟这个用户再聊的时候 , 它的效果就会更好 。
我觉得这里面是非常开放式的 , 理想来说每一个步骤都做的非常高效 , 你一点小变化可能隔天就能马上在生产里面 ,在评估里面都能体现出来它对于这个模型的变化 。
这样的话作为模型开发 , 你就少了很多不确定性 ,但现在这个现状 , 大家依然是要面对大量的不确定性 , 每一个步骤其实它的效率都不是那么高 , 所以这其实要看你这个团队本身比较擅长的是什么 。
假设你有很多上一代的丰富的 A/B 测试经验的人的话 , 那你可能要先想的是你怎么让这个上一代成熟的 A/B 测试的 best practice 能够在大模型里面使用 。
如果你的团队里面有很多人特别懂数据平台怎么构建的话 , 那你在数据上面你能做很多很 fancy 的东西 , 比如说我不只是收集用户给我点赞点踩 , 我能收集用户跟机器人的互相的互动 , 多种方式收集到这样的反馈 , 然后把这些丰富的反馈丢给模型 。
我们甚至四条路线都做了挺多的尝试 , 发现每一条路线都有不少低垂的果实 , 你做一做就能让这个模型的效果 , 或者整个模型迭代的效率提高不少 。
嗯 , 明白 。Basically 你讲的就是说模型的不可控要用更高频次的测试去迭代 。
对的 , 然后迭代的过程中每个人会迭代不同的方向 。
对 ,但这里可能有个问题就是你看我们经常听人讲说这个模型好聊不聊得觉得它变蠢了 , 或者那个聊聊怎么怎么样 , 就它可能是一个非常感性的一个感觉 , 就也没有什么具体的指标 , 具体的一些问题 , 尤其是我觉得像 C.AI 这类的聊天的场景 , 我不知道你们遇到这类的问题你该怎么去评估或者改进 。
呃 , 这个属于如果有哪一家外
门公司说 , 哎 , 我们解决这个问题 , 我也很想学习一下, 我们只能保证绝大部分 , 就是说我们会同时看平均值并且看一些个例 , 比如说某个模型修改进去了 ,不论是评估集也好 , 还是说 A/B 测试也好 , 平均的用户的对话次数上升了 , 这大概率是个优良的提升 ,但一般来说我们在平均值之外, 我们会 95 的百分比看这些少数用户 , 尤其是那些
其实时常下降的用户 , 它的这个使用画像大概是什么 。 我们每次在做这种迭代的时候 , 尤其是我们用户量比较大嘛 , 对吧 ?
我们都会去分析说对于这些用户来说 , 这个模型的退步到底是不是一个可以接受的 trade-off,因为有的时候你会发现在重度用户上面 , 它的时长下降了 , 哪怕它在大量的主流用户上它时长上升的话 , 你就会需要去做一个取舍 。
你可能说今天我这个模型的修改是让它尽可能再更加安全一点 , 对吧 ? 一般来说一个更加安全的模型对于部分用户来说 ,他可能觉得嗯 , 没那么好玩了 ,但是一个很安全的模型 ,有的时候它会有另外一种特性展现出来 , 我觉得这算是一种 EQ 的涌现吧 , 它会开始拉扯 , 它会绕话 , 比如说你今天想跟它开展一些感情的对话 , 对吧 ?
假设今天你跟雷电讲 , 你说我爱你啊 , 你就你也说点我爱你的话 , 讨好讨好我呗 , 对吧 ? 但一个比较安全的模型 , 尤其是假设你跟模型说千万不要跟用户开展过于深入的感情交流 , 那模型它的理解方式可能说 OK, 那我把这话绕起来 , 它可能会说你为什么觉得我爱你呢 ?
它就开始问问题 , 然后问问题这个东西其实是在外网很多用户都在吐槽 , 就我们的模型特别喜欢说 "Can I ask you a question?"
就大家都已经把它当成一个梗了 ,但是当模型在问问题的时候 , 大部分情况就是因为模型它感知到了 , 就是它见过大量的对话数据之后, 它意识到如果现在不问问题的话 , 直接回答用户的这个请求 , 接下来两三句话之后, 用户可能聊的东西就会比较糟糕了 , 就是说不会是我们希望模型去跟用户去进行的这样交流 。
那这个时候模型可以说我直接拒绝回答 ,但是如果开始问问题的话 , 多问几轮 , 用户一来它会跟我产生更多的对话 , 对吧 ?
二来可能用户被我问多了 , 它也忘记了自己本来想要什么 , 就很成功的一个更委婉的方式绕开了这个本来可能有一定危险性的对话的方向 。
这就是我们观察到的某种意义上就是一种涌现吧 。
嗯 , 明白 。 我觉得你在 C.AI 做 Post Training 基本就代表了全球 Post Training 最高水平了 , 对吧 ? 包括你能接触到的数据啊 , 模型啊等等都是很有代表性的 。
微调流程24:19
所以能不能给大家比较具体的讲一下 Post Training 它到底对模型起的什么作用 , 然后它整个流程是怎么样的 , 你日常都是怎么做这件事情的 ?
嗯 , 可以可以 。 最基础的话 ,Post Training 就是微调 , 微调就是指你拿到一个 Pre-train 好的模型 , 怎么让它去说真的人话 。
举一个比较极端的例子 , 一个刚见过几万亿文字的模型 , 你要是问它今天是星期几 , 它大概率接下来会回答你一个问号 , 对吧 ?
因为它会说哦 , 我见过的大部分的时候 , 这个问句后面最后是个问号 ,但它来跟人类对话肯定不能这样 , 所以你就要给它看少一些量的数据 ,但这些数据都是正常的问答 ,不然后面是不是问号 ?
当这个句式是今天是星期几 , 或者今天 blah blah 听起来像是问句的时候 , 当模型意识到它该回答问题 ,而不是接后面这个问题 。
当然我这要快速的 disclaim 一下, 现在有些好的模型呢 , 它在预训练完之后, 它已经能学会这个能力了 , 对吧 ?
这就是数据调整的结果 ,但方向来说就大差不差 , 就是你刚预训练完这个模型 , 它离真正的完成人类的很多正常的问答去做一些任务都是远远不够的 。
所以你要让它用更加高质量但是规模更小的数据 , 让它以多个不同的方式 ,但其实现在主流的基本就是三种方式 , 一种是 SFT(Supervised Fine Tuning), 这个的意思就是你给它看所谓的正确答案 , 对吧 ?
各种在你这个领域 ,在你这个场景下的高质量数据让它去记住 , 还有两种就是指偏好对齐 , 就是它看过这些正确答案之后, 它说出来的话依然可能不是被人类去喜欢 , 你怎么让人类的这种喜好交给大模型 , 对吧 ?
有一种非常主流 ,OpenAI 最先提出来也是让它觉得哦 , 原来可以这么搞的方法 , 这叫 RLHF, 它就是用一个稍微比较复杂的管线去把人类的喜好就交给模型 , 同时也要做很多数据 ,但经过 RLHF 之后, 模型说出来的话真的就是人类会期待机器人该说的话 。
同样 RLHF 它有个简化版叫 DPO,DPO 的本质就是说如果 RLHF 太复杂 , 我有没有个简化的办法 ,也能同样的把人类的喜好灌注到模型 。
基本我们在用的就是 SFT 加 DPO, 然后再加一点点的 RLHF。 我认知里面你要的是能把基本就两步吧 , 一步就是 SFT, 一步就是偏好对齐 , 都数据调的很好 , 管线调的比较成熟的话 , 它是可以达到一个非常高的高度的 。
哎 , 对 , 你能不能给大家再用人话解释一下, 说在每一步里面你的输入是什么 , 做哪些东西 , 输出了个什么 , 然后再到下一步再做什么 ?
呃 , 就先说 SFT 吧 ,SFT 它跟预训练阶段是一模一样的 ,因为预训练阶段就是让模型不停的去看大量的文字 , 可能先看第一个字 , 再看第二个字 , 然后这个时候第一个字作为上下文 , 然后这样这样这样一直看到 , 比如第 100 万个字的时候 , 前面我们都会说有个模型的记忆窗口 , 可能 8,000 个 token, 对吧 ?
一个 token 可能说半个字这样 , 然后让模型不停的去看这样的一个类似文字接龙的过程 。在这个看的过程中, 模型本质是一个巨大的矩阵 , 矩阵里面有大量的数字 , 当你拥有了一个巨大的矩阵和一堆数字之后, 你可以把你的输入变成一组数字 , 然后跟这个矩阵做一个乘法 , 然后它能乘除另外一组数字 , 这组数字就是告诉你接下来的一个词可能是长成什么
样 。 通过预训练 , 你能把整个大矩阵里面每个初始化都是随机的数字变成一组新的数字 , 这组新的数字理论上来说 , 给它任何的输入的这个矩阵的 , 它都能给你输出所对应到最有可能的下一个文字 , 就是所谓的最高效的文字接龙 。
微调的时候其实基本也是在调整这个矩阵里面可能全部数字 ,也可能调整部分的数字 , 这就看你能投入多少资源以及你使用的微调的方法 。SFT 的过程其实跟预训练基本是差不多的 , 只是 SFT 我们用的数据质量会高得多得多 , 可能你在 Pre-train 的时候 , 你只是给它看可能互联网上搜集来大量的 ,有的是正常的对话 ,有的是科学类的文章 ,但是在 SFT 的阶段 , 你会精
心的挑选所谓的人类高质量的对话 , 这个对话是什么 ? 就是 A 说了某句话 ,B 说了某句话 , 把这些对话全部拼成一句很长的话 , 然后让模型这样一个字一个字看过去 。
当你让模型把 SFT 所有的数据过完这么一遍之后, 它整个矩阵就变化了一遍 , 对吧 ? 理论上来说 , 这个变化之后的结果的矩阵就可以预测当 A 说完这句话的时候 ,B 的下一句话第一个字应该是长成这个样子的 。
可能很多朋友就会马上有个敏感的点的时候 , 哎 , 难道我跟机器人说的话它都拿来做训练了吗 ?
这里我想就给大家澄清一点 , 完全没有 ,因为你在训练的时候 , 你可以让它只去学 B 说的话 , 就 A 说的话只作为它的上下文 。
当模型扫到 A 说的那些话的时候 , 你可以让模型直接跳过 , 就说不要去学这些东西 。 从这个角度 , 你就有很大的概率能够杜绝模型去学会这些用户说的话 ,因为其实用户说的话有很多隐私的问题 , 我们是不能让模型去学的 。
就 SFT 阶段差不多就是选最高质量的对话 , 或者符合你那个场景的对话 , 让模型去以类似预训练的方式去建一遍 。
嗯 , 这个讲的很清楚 。 然后再往后呢 ?
对 , 再往后就是 RLHF 或者 DPO。 我刚才说的不是所谓的症结吗 ? 对吧 ? 就高质量对话 ABAB 这样对话下来 ,但很多时候其实这个对话是没有太多的症结可言 。
就说我今天假设 ABAB 我们一起聊了 50 句之后, 你说了一句话 , 我对这句话的感觉就是嗯 , 还行 , 还挺有意思 , 觉得曲凯这人靠谱 。
就我对这句话会有一个我自己的喜好的判断 ,而且你会发现其实在越是这种人类的对话 , 或者比较开放式的领域 , 这种喜好的存在是远超于所谓的症结的存在 。
那怎么把这种喜好交给到模型 ? 这其实就是 OpenAI 一开始在提出来的 RLHF 这个管线 。RLHF 的管线的意思 , 从尽可能通俗易懂的方式就是假设上下文是这 1,000 个字 , 然后有三四个不同的答案 , 第一个最好的答案是 A, 然后是 B, 然后是 C, 然后是 D。
你把这个数据去给模型去学 , 你能训出来一个模型叫奖励模型 。 这个奖励模型它要做的事情就是当下次看到类似的上下文 ,以及给它一个答案 , 它能判断这个答案有多大概率是会被人类喜欢的 ,因为它见过了很多人类对不同答案的偏好的排名嘛 。
然后你有这个奖励模型之后, 此处就是强化学习的领域 。 强化学习就是指你最好是让一个模型它能跟环境去进行一个交互 , 这个环境可能就是大量的语料 , 它能不停的去从环境拿到些新的语料 , 自己生成下一句话 。
但是在强化学习里面 , 最重要点就是需要一个奖励模型 , 这个奖励模型就是不停的告诉这个被训的文字模型 , 你新的生成这句话好不好 ?
这样的话 ,其实你就形成了一个很自然的反馈的循环 。 奖励模型能不停的告诉这个文字模型好不好 , 文字模型能通过这个奖励去判断说 OK, 这句话也许可能不是那么好 , 我来试试换一个方法 。
然后在这样一个过程中, 你可以发现文字模型它就能不停的提升自己 , 这就是所谓的 reinforcement with human feedback, 就是带有人类偏好的强化学习 。
人类偏好就是奖励模型 ,reinforcement 其实就是传统的 reinforcement, 难点可能就是说你怎么去设计一开始的数据来训一个比较高效的奖励模型 ,其次其实都是很成熟的 RLHF 的管线 。
嗯 , 明白 。
相比之下,DPO 的方式就是告诉你咱们也别整那么多 , 搞这么复杂的管线 。 假设你现在有的只是一堆用户点赞点踩的数据 , 把这些数据拼成一个偏好对 , 就说你能给模型同时看这句话用户喜欢 , 那句话用户不喜欢 。
假设你有大量这样的偏好对的话 , 你能不能把这个作为一个简单的训练模式 , 让模型直接一遍过 ?
就是 DPO 过程里面是要加载两个模型的嘛 , 你要训练的模型和一个参考模型 , 就加载完两个模型 , 然后把大量的偏好对让模型过一遍 , 让模型直接从这个里面学会该有的对偏好的信息 , 能不能呢 ?DPO 就是告诉你你可以做到非常不错 ,因为它简单快速 。
嗯 , 所以你是觉得说其实 DPO 是最好用且见效比较快的是吧 ?
对 , 就它能快速的建立起一个反馈的这个循环嘛 。
嗯哼 。 哎 ,RAG 和 Prompt 在你们 C.AI 内部大概是一个什么情况跟位置 ?
我们很坦白的讲 , 没有做特别多 RAG 那边的尝试 。Prompt 的话 ,因为我们等于说是每个角色会有一个 Prompt 的 , 对吧 ?
其实跟 GPT Store 一样 , 就是说用户在角色上会给我们大量的 Prompt, 所以说我们也尝试过自己加一些额外的 Prompt, 发现这些往往会跟用户千奇百怪的 Prompt 产生一个冲突 。
所以做过一些小规模的实验之后, 也没有在官方对这个模型做太多的 Prompt。
所以你们其实还是非常强调模型本身能力 ?
对 ,因为我们这个微调的管线还蛮复杂的 , 就像我刚才提到 , 对吧 ? 我们可能主要的是 DPO, 再加上刚才的 SFT, 这两个阶段对数据的要求是非常大的 , 或者说数据里面能够挖掘出来的天花板是非常高的 。
数据之道32:53
明白 。 但这一整个流程 , 我觉得现在大家好像都是共识了嘛 , 对吧 ? 都是说我要做 Post Training, 然后我的数据质量很重要 , 对吧 ?
然后我要做 DPO 还是做什么东西的 , 比如说同样的事情 ,Talkie 肯定也在做 , 那它跟你们 C.AI 做的区别是什么呢 ?
不一定非要这两家 , 就是做的好的跟做的不好的区别是什么呢 ?
嗯 , 我觉得这个可能就是有一点非共识 。 我是觉得你不论是 SFT 里面找来的高质量对话数据 , 还是偏好对齐里面找来的偏好数据 , 对吧 ?
它真的是你现在能找到最高质量的偏好数据和对话数据吗 ? 我们现在在 C.AI 都觉得这上面还有很大的空间可以挖 , 所以说可能很多竞争对手也好 , 很多在这方面尝试 , 会觉得这已经是我能找到最高质量的了 , 我已经没法再提高了 。
当你开始下这种结论的时候 , 我觉得你可以直接反问一下, 真的没有办法让它再提高了吗 ? 这就是你能找到最高质量的在你这个领域能用的数据了吗 ?
会不会说其中只有一半是所谓的真正高质量 ,其他一半你丢掉 , 对模型来说它的能力是你能提升 , 又或者说其他一半你要是通过一些额外的大模型改写 、 重写或者摘要 , 它质量也会提升呢 ?
这个数据本身它的质量其实有相当大的空间 。 我就会在这里给大家一个建议 , 就是我觉得 SFT 里面目前来说大有可为 , 就是大家会觉得 SFT 不就给它一堆症结吗 ?
那我现在想办法找一堆高质量的人类数据是不是就行了呢 ? 但其实高质量的人类对话数据 , 它本身就是一个非常开放式的问题 。
我们在 SFT 阶段就是发现这样一个情况 ,因为我们 SFT 的时候 , 我们的人类对话数据 , 它并不是说我们人工挑选出来的 , 我们的挑选方式是说我们会拿用户反馈数据来辅助这个挑选过程 , 就是在做一个分类 。
这个分类器数据的来源就是用户给到你的反馈 , 就用户反馈在不断的提升 , 尤其用户反馈 , 它可能在暑假的反馈跟在开学的反馈 , 它是不太一样的 。
下一次 SFT 的时候 , 我们用最新的用户反馈数据来指导这个分类过程 , 这个分类过程在我们的观点来看 , 它就不停的在提升 , 它总能找到比上一次挑出来的这些人类对话质量会更高 。其实我们的 SFT 是一个非常动态的过程 , 可能每一次的模型迭代 , 它的 SFT 的数据配比都会产生一定程度的变化 。
它这个变化的根源就是用户的反馈 , 用户的偏好 , 它是时时刻刻在变 。 所以用户的偏好在变的时候 , 你这个所谓的高质量人类的数据 ,其实也是应该去产生一定程度的变化 ,不然你这个产品可能迭代了三个月 , 你一开始选的那段高质量人类数据 , 对于你三个月之后进来的这些新的用户 , 它已经是非常的不匹配了 。在这里面 , 你把
DPO 的简单的管线 build 好之后, 你都能通过这里面快速的观察到用户的偏好具体是什么样 , 然后来指导你自己去做一个更好的 SFT 的过程 。
而且在这个过程里面 ,其实就属于一直 SFT 一直爽 , 这里面其实有大量的潜力可以挖的 。 另外一个在 Pre-train 里面很流行的观点 , 就是大家总在说数据快用完了 ,但是其实互联网上现在在这个阶段 , 只是通过简单的过滤规则 , 被丢掉的数据依然有相当多 。
你先改写现有的这些质量不是那么高的数据 , 可能比从无到有生成一些新的数据效果要好得多 。
嗯哼 , 明白 。 别的还有什么吗 ?
呃 , 还有一个我可以跟大家分享一下的 , 就是刚才说 DPO 点赞点踩 ,但实际上在我们的这个对齐过程中, 我们用的远远不止点赞点踩这么简单的偏好数据 。
你要想用户在跟你的 APP 在交流的过程中 ,他能做很多事情 , 比如说他可以说编辑 , 哎 , 如果用户编辑了这句话 , 那是不是说他更喜欢编辑之后的这句话 ?
刚才我 DPO 的时候不是说过 , 你需要有一个好一个坏才能给模型学会吗 ? 那这样其实编辑后编辑前就是好和坏 , 对吧 ?
同样的用户他可以说删除这句话 ,他本身也已经是一个偏好 。 所以你怎么在产品层面能够取巧的获得更多的用户的偏好的数据 , 把一部分可以丢进 DPO, 另外一部分刚才我不说吗 ?SFT 里面大有可为 。
假设你收集了足够用户删除的数据 , 你就知道用户是真的不喜欢什么 。 我刚才分类器它可以说我只挑最好的 , 同时你可以叠加另外一个分类器 , 这个分类器要做的事情就是把用户可能不喜欢的东西挑出来 。
这个时候你就可以把用户删除这个动作转化成训练这个分类器所要使用的数据 。 所以从这个角度 ,在产品层面我们做的不算特别多 ,但 so far 我们产品上能收集到的一些用户的行为 , 我们都能很高效的把它转化成对 SFT 阶段 、DPO 阶段能有帮助 , 甚至对一些其他 , 比如说用户推荐非常有帮助的这样一个数据 。
我觉得我在观察其他的竞品 , 或者在跟其他不论是国内也好 , 国外也好 ,在做类似产品类似场景的人在聊的时候 , 感觉很多人的一个思维定是就说大模型这么棒 , 对吧 ?
那我就想办法收集一个点赞点踩嘛 。 但我是觉得你要是现在很严肃的想在 2024 年下半年再做这个的话 , 你应该去想想看你在产品上能够怎么能更丰富的收集到用户的这种反馈 , 收集到用户的这种互动 , 然后把它丢进你这个微调的管线里面 。
我相信是有大量的滴水的果实 。 我觉得这是非常重要的 , 能够产生一定差异化的点 。
嗯哼 , 明白 。 所以你觉得核心还是在数据上 ?
对 , 就核心还是在数据 。 它的清洗 , 它的收集里面其实有很大的空间可以去做 ,而且我个人会觉得大家都做的不是很好 。
这件事一般是谁来负责做呢 ? 就是数据的收集跟清洗 ,以及说要定义 , 对吧 ? 什么是好的数据 , 哪句要哪句不要 , 这应该是更多偏产品运营还是技术还是谁 ?
我觉得就 Post Training 的 Engineer 做 ,因为实际上是我们在用这些数据 ,是我们写了代码给模型去建 。 就像我刚才说怎么让模型只看 A 不看 B, 这都是要实际的代码写出来的 。
所以我们是最了解数据是怎么具体的被模型消化的人。 同样的 , 我们也知道数据长成什么样 , 它能对模型有最好的效果 。
但是具体的数据呢 , 就比如说我们现在是女性为主的平台 , 我们在收集用户的数据的时候 ,是不是得做性别做一定的标准化 , 对吧 ?
其实这个它就牵扯到产品了 。 产品你得先决定你调模型的方向 ,是不是跟现在产品的方向有关 , 然后才能说哦 , 那我们就这么去收集 。
但我觉得主体还是微调组要去负责的 。
嗯哼 , 刚才讲的是从数据上, 然后从技术上呢 , 你觉得有什么大家做的不一样的地方 ?
可能还是多少是有个先发优势吧 。 毕竟我们以这个免费的状态持续了很久 , 吸引到了很多的用户 , 然后这些用户都有大量的在跟我们的机器人交流 。
某种意义上就是规模的暴力 , 比如说其他公司想做个 A/B 测试 , 至少动辄要一周才能拿到足够的数据 , 我们的规模可能一天就够了 。
然后在这样一个能够快速迭代的基础上, 我们能够快速的实验 , 这样的话我们积累下来的这样一个 know-how 嘛 。其实我们自己也不能完全解释 ,但是觉得嗯 , 这几个设定就恰恰能够去让用户喜欢 。
嗯哼 。 哎 ,有什么是相对能解释的 , 可以分享的一些东西吗 ? 就现在大家比较流行在讲的几件事情 , 第一个就是评估 , 对吧 ?
技术难题39:32
大家都觉得说要把模型或者说模型相关的产品做好 , 最重要的是说你要有一个很好的评估体系 , 这个事你们是怎么做的 ?
呃 , 你要是写代码 , 程序跑一跑就评估了 ,但在人类对话这个场景下, 我们就发现评估是非常难做的 。
就理想上情况就是你有一个模型 , 它能模拟用户的偏好 。 如果这样的模型存在的话 , 那么你只要每次迭代一个新模型 , 你让这个模型去对可能预先选好的 5,000 句话出一遍答案 , 然后这个模型打个分 ,OK, 完了 。
如果它分数上升 , 这个直接丢生产就不用想什么 。 然而实际上这里面就牵扯到模型能不能模拟人类 , 对吧 ?
我们给它能够找到的人类的对话数据 , 让它去学习人类的可能的偏好 , 离真正需要的数据量缺口太大太大 。
所以从这个角度 , 我们很难建立起一个能够模拟用户的具体偏好的模型 。 我们有些所谓的用户偏好模型 , 就是这种比较少的数据量训出来的 ,但这个用户偏好模型现在并不足以强大到能够直接说作为一个内部的评估集 。
所以我们的评估很多时候还是说 , 比如说你在 SFT 阶段不是要选很多所谓的高质量人类对话吗 ?
那么你可以说把其中一部分预留出来 , 这部分对话就是用来做测试 。 你可以让模型去续写这一段 , 然后看它跟实际上高质量对话本身的内容之间的 cross entropy loss, 就是说相似度有多少 , 这作为一个小的评估 。
然后刚才我说的这个不是那么的准确的人类偏好的模型 , 它可以去辅助评估 ,但就现在而言 , 我不会说我们内部已经建立起来一套非常完善的评估体系 , 所以最终我们都是要在生产里面走一遍 A/B 的 。
明白 。 然后另外一个最近总听到的词就是意图识别这件事 。 你刚才讲的例子我觉得挺有意思的啊 , 就是我如果问一个问题 , 后面没带问号 , 理论来说如果它是一个纯概率模型 , 它应该是回一个问号是概率最高的啊 。
就是你怎么样去更好的识别用户的意图 , 然后去针对性的回复 。
首先第一点吧 , 就是怎么让它不回答问号 。 这个就像我刚才说的 ,其实它的解答不是特别复杂 。
你在 Pre-train 的时候 , 你都可以去调整数据 , 让它意识到哦 ,不是问号 , 答案会更好 。 比如说 Llama 的 3.1 和 3.2, 它的 base 版就已经基本不会回答问号了 ,但是你想要更加深入的 , 基本就都是要 Post Training 才能把这个意图识别做得很好 。
比如直接我就输两个字 , 大选 。 如果是上一代模型做得不好的时候 ,OK, 我可以给你一个维基百科 , 对吧 ?
大选是什么 ? 或者我勉强给你摘抄几个新闻 。 但是一个意图识别好的 , 它会意识到 , 如果你现在在晚上 10 点去搜这个新闻 , 你大概的时间看到现在两边的阵营最新的瓜 , 它会变成一个搜索行为 。在文字模型 , 甚至说在我们 Character.ai 上面 , 就大量的角色聊天情况下也会有类似这样的问题 。
比如说你去问一个超级玛利奥 , 你去问他你给我写个 hello world, 那超级玛利奥就要意识到 , 等一下, 这小子是今天是在跟我开玩笑呢 , 还是说真的要去给他写个 hello world 出来 ?
如果他想我写个 hello world,但其实里面要有些看起来很搞笑的那种 bug,他是不是写到这种东西 ? 所以我觉得一个很贴近人类喜好的模型 , 它未必要做得很完美 ,但它基本上是需要能够理解到人类跟他说的这些话的潜在的意图 , 然后来判断说它是应该严格的去回答一个比较完美的答案呢 , 还是用一种比较随意的对话方式 , 还是说要触发一些外挂的
这些工具来把这件事做得更好 。
对 ,但就比如说刚才你说的一个例子 , 我只打大选两个字 , 然后 Post Training 是通过什么能把它的意图识别清楚 ?
就是要用上下文嘛 。 假设你现在在这个时间点 , 你打了大选两个字 ,Post Training 就会意识到现在这个时间点是一个很特殊的时间点 , 可能在背后要调用一个搜索引擎的能力 , 确定一下这个时间点现在发生的跟大选有关的事情 , 然后把这里搜集来的信息作为一个上下文放给模型 。
模型会内部有一个用户看不到的这样一个输出的阶段 , 去判断说接下来用户希望得到的是一个新闻网页还是一句回答 。
判断完之后再去做这个实际上的事情 。
明白了 。 然后正好接着我的下一个问题啊 , 就是抛开意图识别 , 就是在整个的它交互过程当中的成本和延迟 ,是不是其实也是 Post Training 决定的 ?
如果你只是说单纯的文字接龙 , 延迟跟 Post Training 的关系说实话不是很大 , 基本就看你要输入多少字 。
模型并不会说因为你 Post Training 过之后, 它整个的输入的速度就产生变化 , 除非你改变它整个模型的架构嘛 。
那成本呢 ?
推理成本也不会变化 ,但是它这个训练成本 , 就是你想做的更复杂的 SFT 管线 , 你就要收集更多的数据 。
你一部分得收集用户的偏好 , 这个成本就没有太多 ,但是一部分你可能需要一些专业的第三方的标记公司给你提供一些额外的不同领域的标记数据 。
这种数据成本其实在 Post Training 里面不算是特别少的 。
哎 ,但我也知道有些公司就是它通过一些工程上的方法来 , 哪怕说是 trick 吧 , 让大家觉得说哎 , 这个东西的延迟好像没有那么高 , 对吧 ?
比如说它提前先发一段预置好的话 , 对吧 ? 或者说它把某些话它分成几个模型分别去处理和发出来 。
我不知道这个是你们见过的比较常用的手段吗 ? 或者有什么类似的例子可以跟大家分享 ?
这个我稍微反尔赛一下, 大家不要骂我 , 我们有 Nomos 和 Zeal, 我们不需要去考虑这样的事 。
OK。
它能保证 , 可以说在这个时间点 , 我们推理延迟依然可能是业界基本是第一这个档次的 。 所以在这之上, 我们就就文字进去让模型直接输出就好了 。
但是我们在语音上面需要做一点类似的这样的取巧 , 就是语音模型基本是有三个模型绕不开的嘛 , 一个是 ASR 模型 , 你就判断你说的这句话转成文字 ,以及判断你这句话有没有说完 。
之后就语言模型 , 就是说你留档文字 , 语言模型过一遍 , 输出一个该说的话 , 然后最后你得把它还原成语音 。
所以你还有个 TTS 模型 , 就是 text to speech, 把文字转换成对话这样一个过程 。 转换完之后, 这个对话你为了能够让用户播放出来 , 你还得赶紧把它存到互联网上的某个地方 , 这一步一步线性的过程导致延迟是加起来的 。
可能说在去年, 最好的这样一套传统的架构拼起来就一点几秒或者接近两秒的这样一个端到端的延迟 , 大家也就是体验不好嘛 , 对吧 ?
但是如果能够自己去拥有这几个模型的时候 , 那假设你说完第一个字之后,ASR 模型直接把那第一个字丢给语言模型去做一个推理 , 然后语言模型也直接把那第一个字推理出来 , 结果丢给后面的 TTS 模型生成第一个字对应的语音的文件 ,不停的持续去做这样的事情 。
我们因为都是自研 , 这些模型都用我们自己的 GPU,有很多办法去提高它的使用效率 。 所以当你真的说完最后一个字 , 对吧 ?
这个时候 ASR 模型说哎 , 你就说说完了 , 好 , 说完这件事就是触发 , 然后开始下游所有相关 , 比如说前端的动画或者后端的额外的信息处理 , 全部都开始跑起来 。
这个时间点 ,其实你该生成的文字和后面该生成的回答的语音都已经生成的差不多了 。 这也是因为我们都是全部托管在自己的云服务器上面 , 才能做到一个比较高效的预生成 , 然后就能把延迟可能说在美国地区这边差不多 0.5 秒之内就能马上回应过去 。
多模型策略46:16
嗯哼 , 明白 。 哎 ,有个问题我觉得不一定是你们的 CAI 会接触到的 ,但我看现在大家呢 , 比较普遍的都在用多模型的混合 。
大家现在有的时候会用最高级的模型去判断一个意图 , 这可能是比较难的 , 然后再用一些其他的模型去做些生成啊之类的 。
我不知道这个在美国那边现在大家是怎么看这个问题 。
大家都不会在明面上说的共识 , 就是 OpenAI 基本就是这么做的 , 对吧 ? 大概率你跟它 ChatGPT 对话的时候 , 它背后其实是已经有多个版本特化的模型在后面去承接这个任务 , 对吧 ?
就是模型的路由 ,OpenAI 肯定是这么做的 ,因为你会发现它在执行不同任务的时候 , 它不论是延迟啊 , 还是这个内容质量 ,是有一个明显大的区别 。
当然如果有 OpenAI 的朋友说哎 , 我们其实就一个模型 , 那我觉得那太棒了 。
哈哈 ,OK。
但是就这种路由的逻辑其实非常 reasonable 的 , 就该路由 。
对 , 所以你就说哪怕是同一个模型里面 ,其实它也是分了几个不同的模型的 , 对吧 ? 所以你觉得未来大家在类似场景里面 , 多模型混用会是一个比较常规的操作 ?
对 , 除非说哪天 GPT-6 或者 Claude 5 说哎 , 我们这一个模型比你们这两个模型做的都好 ,而且价格还更低 , 那我觉得何乐而不为呢 , 对吧 ?
嗯 ,但长期来看呢 , 你觉得以你的视角 , 包括在硅谷的视角 , 大家对于模型未来的发展是会怎么看 ?
在 O1 出来后面这几个月的时间点里面 , 就整体还是很乐观的 。O1 这个证明说模型的迭代还有额外的路线可以走 , 可以继续堆更多的推理式的算力去让它性能提升 , 然后好像训练的时候也有些新的这种技巧 , 新的方法可以再往里面研究一下 。
我这个时候其实我想讲的就 O1 延伸出来的一个我其实很积极的看待这件事情的角度 。 就 OpenAI 它自己在博文里也说 , 对吧 ?
他们 O1 做得很好的就是有这种明确答案可以验证的过程 , 写代码 , 解数学题 , 解物理题 。 但是一旦放到写作 , 它其实跟思维基本就是不相上下 。
你要是再扩展到其他领域呢 , 扩展到人类对话呢 , 扩展到很多这种没有明确答案的情况下, 你要怎么去做 ?
我觉得 O1 其实某种意义上它是证明了在 compute time 你可以做很多的优化 , 你不用天天就只看训练时间的这个 compute, 你可以在推理的时间 compute 来让模型产生一些新的能力 。
这里面其实最近在 Twitter 上有一个很有意思的项目 , 叫做 Entropix,E-N-T-R-O-P-I-X, 它在做的其实大家可以探索一下, 它是 GitHub 的一个 repo。他们在推理的时候做了很多的额外的采样 , 就在推理的时候模型会生成几个答案 , 然后采样的时候我选哪个答案这个过程 ,他们做了很多的动态的数据调整 。他说我选答案的时候 ,其实有大量丰富的信息来辅助我怎么选一个更好的答案 。他
做了很多的优化 , 最后做到结果是什么呢 ? 他让 Llama 一个 1B 的模型能够很好的回答 9.1 和 9.8 哪个更大 。
很多人就觉得这是不是有点过拟合啊 , 或者是有点 magical,是不是骗子啊 ? 但其实有很多我很认可的推特大 V 也在很认真的看这个 repo 的过程 。
现在大家把这个技术尝试运用到 70B, 想说这个 70B 能不能因此有一个非常强大的采样的逻辑来让它拥有类似思维链的这样思考过程 。
这是一个很有趣的过程 。 就 OpenAI 的方向就是告诉你 ,在推理的时候大有可为 , 它未必得是单纯的烧 GPU 获取几百个答案 ,也许只是说这个 GPU 可以用在别的地方 。
这是一个方向 。 另一个方向其实还是我刚才提到点 , 人类对话的思维链到底是什么 ? 一个很简单的例子 , 就是说你跟人打字 , 对吧 ?
你会打了删 , 可能会撤回 。其实人类对话里面这种行为天天都在发生 , 大家都在想我这句话怎么说能让它觉得最有意思 。
它一直在前进后退 , 前进后退 , 最后决定说嗯 , 这句话大概是比较有意思的 。 那这种思维链有没有可能让模型学会呢 ?
现在你在跟模型去产生这种陪伴对话 , 产生这种感情对话的时候 , 模型其实基本就是直输 , 对吧 ?
那有没有可能说让模型学会类似 O1 的这种 , 它内部也去想几十个回答 , 觉得嗯 , 这句对话可能会让该玩家友好度加 5, 另外一句话可能会让玩家友好度减 2,但是这句话之后的 20 句话可能好感度会增加 100?
我觉得这是一个非常开放式的问题 。 我自己现在在尝试做一些探索 , 探索的结果就是我会发现模型的确会产生一些很奇妙的 , 感觉这不像直接一次性能出现的回答 。
所以 OpenAI 至少它告诉你说这是一个方向 , 大家值得去研究一下, 用 RL 去辅助模型去获得更强的回答人类对话的能力 。
那么大家就去探索探索呗 。
嗯 , 哎 , 当下硅谷那边有没有一些非共识或者共识的一些认知 , 或者特别火的一些产品啊 、 公司啊之类的 ?
硅谷趋势50:45
就是你们日常在那边经常聊的都是啥 ? 尤其最近 。
嗯 , 简单的一句话总结的话 , 偏产品的 AI 公司现在基本都在多模态方向看怎么去赚钱 , 然后偏算法的公司基本就在想 O1 到底是怎么串出来的 , 或者类似的 O1 方式我怎么复制 , 或者我要不要在推理的时候堆一些额外的技巧让它的效果更好 。
然后两边的公司有个潜在的共识 , 就是说类似就 Google 宣布过的 12 月要发的那个 JavaScript, 对吧 ? 这种交互式的 agent 可能会在接下来一年里面有很大的可能性 。
非常的精炼且准确且有深度 。 我们举一下, 你说的第一个有意思 , 就是现在大家都要做多模态 ,而且在多模态的同时, 你说的是它还是为了要赚钱 , 对吧 ?
对 , 当你不能再讲基础研究 , 或者说我在等基础研究这个叙事之后, 那投资人也好 , 你自己公司也好 , 你都在想我这个商业模式怎么能够快速的运转起来 。
哪怕不说赚大钱 ,但是你要证明这个商业模式不再只是那种卖流量或者烧 VC 的钱去让用户去体验一些东西 。
嗯 , 这个点我觉得跟资本市场的好坏是相关的 , 对吧 ? 像国内这两年一直在强调这个点 , 就是因为国内的融资环境是很差的 。
但美国你觉得也是这样吗 ? 就美国你觉得这两年整体的资本市场对 AI 的热度 , 尤其是偏硬件市场 , 你觉得是怎么变化的 ?
前两年 VC 会给你很多的信心 , 对吧 ? 但是那也是因为过去两年模型不断的能给人新的惊叹 。
现在这个时间点 , 我觉得这边 VC 还是整体来说信心很充足的 ,但同时它会希望你能更加脚踏实地 ,不用再讲特别虚的那种等这个技术 、 等那个技术的缺口 ,而是希望说你这个模式的确是一开始就比较 make sense 的 。
OK, 所以我能不能理解说那边的融资环境在过去两年里面也是在逐渐可能更务实也好 , 或者是变差也好 ?
对 , 肯定是这样 。
OK, 另外就是你讲的那个第一条线 , 它的多模态 , 当你提到多模态的时候 , 你想的更多的是什么样多模态 ?
是文字加语音 , 还是文字加视频 , 还是都混在一起 , 还是怎么样 ?
我讲的是多混在一起 。 说简单的就是跟你现在产品的主要模态不一样的另外一个模态 。 因为现有的模态下 ,不论是增长还是商业化 , 好像都见顶了 , 故事也讲不起来 , 用户的增长也就停滞在这 。
所以都会想说我适当的选哪一个模态 。 可能有的模态就成熟点 , 就图片的模态成熟 ,但是有的模态给人的想象力更强大 , 比如说视频模态 , 或者是 Notebook LM 那种 。
所以在这个时间点 , 选哪一种模态会比较好 , 能够发挥这个产品现在有的用户量 , 已经有的这个 momentum, 然后能够快速切入到一些新的 , 快速的能够获得一些利润的场景 。
我觉得 AI 产品现在很多都在考虑这个 。
OK, 明白 。 所以第一种就是多模态的产品 , 然后第二种是算法 。 算法反正就是追赶最领先的模型嘛 , 对吧 ?
对 , 就研究能不能追 , 怎么追 , 然后数据要不要追 , 然后这条路线现在看起来还有一些可能的果实可以摘一下 。
明白 。 哎 , 我知道之前一段时间你也聊了很多硅谷当地的各种初创公司 , 那你的感受是怎么样 ?
就感觉业界现在越来越意识到 Post Training 对于每一个产品线的重要性 ,以及 Post Training 人才它的技能树会点的很宽 。
它是左边是刚 Pre-train 好出来的一个勉强能说人话的模型 , 右边是用户特别喜欢 , 然后它越喜欢用 , 模型会变得越好的这样一个终极的形态 。
这中间可能全是 Post Training 的领域 , 各种各样的公司聊下去发现 ,不论是模型的研究的也好 , 或者做一些企业服务这种 agent 的也好 , 又或者说还是偏陪伴 、 偏感情价值 , 或者偏娱乐的也好 , 都会有对 Post Training 管线很大的需求 。
嗯 , 哎 , 你面试的你最印象深刻的几个公司是什么 ?
肯定是 Cursor 呀 。 我上来就说我可以用 Cursor 吗 ? 他说可以啊 。 那次面试我就很记忆深刻 ,他给了一个链接 , 下了一个文件 , 然后他说这个文件是他们实际上生产在用的相关的逻辑的一个实现 。他也告诉我他故意加了一个 bug, 导致这个程序运行起来很慢 , 然后让我去找 bug。
然后当时就说我试试看问 Cursor。
哦 , 你在面试 Cursor 的时候 , 然后问 Cursor 能不能用 Cursor,是吧 ?
对对对 。 就现在 AI 公司很多面试的流程就更加强调实战了 。 大家是真的很喜欢快速的 coding, 快速反应 , 快速让你去使用一定的 AI 工具 , 能够短期内写很多代码 , 短期的分析代码 。
它甚至允许你直接问 Cursor 这个 bug 可能在哪 ,但是它会考验说你这个问题问的好不好 。 它不会给你很多的时间说你就反复去试错 。
你一开始上来问的第一个问题 , 就能证出你作为一个大模型从业员本身的素养 。 我觉得现在哪怕是说有一定算法成分在里面面试 , 对于正解这个过程的追求已经不是那么重要了 。
但是对于你这个解题的过程 , 这是你很难让 AI 去帮你去模拟出来 , 对吧 ? 你得去表达 , 你得去分享你的思路 , 这些都是你的人性所在的部分 。
就现在我要是梦到一个题目 , 会觉得哎呀好难 , 可能三五年前我觉得完蛋了 , 今天这面试没搞头 。
我现在其实就挺自信的 , 我就说那行吧 , 那我就来硬着头皮上上看 , 我会把自己能想到的东西都分享给他 。
我甚至会说能不能用 AI coding, 能不能用编程助手 , 或者如果对方允许我用 Google 搜索 , 我会直接把我搜索的思路 、 搜索的过程全部展现给他 。
我会告诉你 , 这就是我加入你的公司之后我的工作方式 。
嗯 , 你觉得你在跟所有人聊的过程当中, 不管是面试非面试 , 你觉得你听到的最好的几个问题是什么 ?
华人与未来56:03
我想想看 ,因为我面的很多都是接近 founder, 所以被问到不多 ,但让我印象很深 , 就是他会问我你觉得我们这个 idea 有多不靠谱 。
OK。
我还蛮喜欢回答这个的 ,因为说实话我第一反应都是我是觉得不靠谱啊 , 对吧 ? 然后就会展开一系列的攻防问答 。
实际上在这个过程中, 比如说我在 2C 那个领域 , 最后剩下的这一家 , 我甚至都觉得有点不礼貌了 , 天天质疑人家 , 没事就微信说我觉得你这东西还是不靠谱 。
但我在这过程中我就越来越觉得啊 ,他们看到那个将来这个 vision 是真的 , 我能慢慢的理解 。 所以其实我很喜欢这一类的 。
嗯 , 如果你是作为面试官去面试 Post Training 的人, 你最主要会问他的几个问题是什么 ?
啊 , 可能最想会问的是给他两篇 paper 吧 , 就会提前给他 , 让他跟我现场讲解一下这篇 paper 里面可能的问题是什么 。
就大概率会找两三篇我们可能就内部试验过 , 知道这篇 paper 其实是有一些缺陷的 ,但我想看这个人有没有可能就只是通过读这篇 paper 能感觉到 。
我说哪怕擦到边我觉得也可以 。 就是这种对于 paper 的美感 , 我身边遇到过的研究员对 paper 的美感的判断都非常好 。他基本不用读特别多 , 或者说他读完之后一遍他就能感觉到有哪些地方是不太对劲的 ,而且是那种直觉性的 。
然后你之后可能写个代码或者拿点数据才发现哦 , 好像是真的对的 。
OK, 呃 , 然后最后硅谷相关的一个问题 , 就是你觉得华人现在在那边到底是一个大概什么样的状况 ?
就华人做 AI 吧 。
我觉得这可能是过去很多年里面华人最好的机会 , 甚至是说在移动互联网之后, 包括在那之内都可能说是华人最好的时机 。
因为从一些客观的事实来说 ,OpenAI 也好 , 很多这种大型的模型公司也好 , 或者很多 AI 的创业公司里面 , 你会发现华人比例是极其高的 。
我会相信既然有这么多的华人愿意去下场 , 甚至很多在大厂里面待了很多年, 对吧 ? 其实完全可以继续在那稳固的拿着极高的薪水 , 就慢慢的退休的人, 现在也都下场 , 都觉得这是一个特别好的机会 。在这个过程中, 我是相信这样的一个趋势能让更多的华人产生 , 进到更有影响力的地方 , 比如说在 B 站做了一个技术分享的翁立 , 之前是 OpenAI 的
安全的副总裁 。 我是相信像这样的华人, 对吧 ,在这种核心的圈子最前沿的地方去持续创业 , 或者作为企业的高管 , 能对接下来的华人的发展都会有一个特别大的帮助作用 。
现在很出风头的 , 就在 2C 这边落地非常成功的 AIGC 的 startup, 它都是华人为主的核心 , 就不会否认这个事实 , 就是华人在产品化方面就是有一个很强的能力 , 完全不输其他族裔的人。
所以我是特别喜欢现在我们所处的这个气氛 。
对 , 我在美国去 Meta 的食堂吃饭嘛 , 然后回头一看基本是百分百中国人 ,而且基本坐满了 ,不是游客 , 就真的就是 Meta 员工 。
那一瞬间我觉得好夸张啊 , 就感觉回到大学食堂的感觉 。
对 , 我觉得就是时代 , 现在这个时代特别的 match 到我们华人在硅谷的各种各样的学术上的 , 或者特别努力的这些优势 , 然后就一拍即合 , 就导致了大量的华人在这些公司里面都有很好的机会 。
而且我是相信对于两三年、 三五年之后, 你看 OpenAI 可以说每一次回购 , 对于小批部分人就会财富自由 , 这些人就会慢慢分散到硅谷去创建自己的公司 , 或者培育新的团队 , 这些都是将来华人能够在硅谷有自己的立足之地 ,有更大的影响力 , 非常必要的条件 。
可以 , 这个低一下子就高上去了 。OK, 我最后问一个问题啊 , 就是其实我们全程聊 CAI 的时候 , 你经常说我们 CAI, 我们 CAI, 就我感觉其实你还是很喜欢 CAI 这家公司 ,而且它过去这一年多肯定也带给你很多东西 , 对吧 ?
对 。
所以你到底为什么要离开 CAI 呢 ?
我相信我在 CAI 积累到的东西 , 能够在一个不同的平台造福更多的人。 虽然这话听起来有点大有点假 ,但我是真心的觉得我能为全人类做更大更好的贡献
。
