AI Infra 定义0:00
There's something there.
我们今天很开心请到了之前字节 AI Infra 负责人, 然后现在亦博是在阶跃做联创和 AI Infra 负责人。 那亦博先给大家简单自我介绍一下 。
大家好 , 我叫朱亦博 , 我现在在阶跃星辰 , 为大模型做 AI Infra。 然后在阶跃之前 , 最早是在微软优越做分布式系统之类的研究的工作 , 然后大概在 2018 年的时候到字节跳动开始负责构建字节跳动的 AI Infra, 做到 2023 年初离开 。
中间有短暂的在谷歌待过 ,但是很快就创立阶跃 , 然后开始做大模型了 。
所以基本上可以讲说你是国内最懂 AI Infra 的人了 ?
不好意思这么说 , 我觉得实战经验算是比较多一点的 ,但是最懂这没有办法比 。
OK, 所以大家经常提 AI Infra,有非常多的概念跟定义 ,有很多公司 。 我觉得只要不是模型 、 不是应用 , 大家基本上就分到 AI Infra 了 。
从你的视角来讲 , 你怎么理解 AI Infra?
我觉得应该说硬件是一块 , 然后软件的话 , 软件有三个层次吧 。
硬件指的就是 GPU 那些 ?
对对对 , 硬件指的 AI 芯片这些东西 , 然后也包括一些网卡的芯片 、 交换机什么 。 然后软件的话 , 我比较喜欢类比云计算 ,有 IS、PaaS、SaaS 三层 。
最下面的 IS 其实是说我有这些卡 , 然后我要把它组装成服务器 , 我要把它们用网络连起来 , 然后怎么运维管控它们 , 就是最基础的 。
然后我个人也喜欢把比如说大规模的存储系统也放在这里头 。 所以计算机系统从科班的角度来说 ,其实就三件事 : 计算 、 通信 、 存储 。Infra 最最底层的 IS 就 cover 这三个 。
然后上面的 PaaS 就 platform service 嘛 , 比较像比如说调度平台 、 资源管控的平台 , 然后你也可以说 model as a service,MaaS 也是一种 PaaS。
然后再往上是比较像 SaaS 的东西 , 你可以说应用啊或什么的 。 但在 AI Infra 里头 , 我个人觉得框架什么的会比较像 SaaS 这一层的东西 , 像训练框架 、 推理框架的优化 。
所以你一上来就是做 AI Infra? 我可以理解 AI Infra 是同时跟传统的互联网的 Infra 是并行在发展的两条线吗 ?
我应该这么说 , 我觉得 AI Infra 这个词在 AlphaGo 之前甚至可以认为是不存在的 。 那时候也许叫 Machine Learning Infra,ML Infra 或 ML Systems 之类的 。在那之前根本就没有这么一个细分领域 , 大家是比较传统的那些其他的 Infra, 比较通用的 CPU 上的为主的 。
发展机遇2:32
对 , 所以其实你的职业生涯正好是跟 AI Infra 的整个发展有点连起来在一块的 ?
我觉得是 , 然后我觉得我算是第二批 。 第一批是包括贾扬清 、 李沐 、 陈天齐 。
他们算第一批啊 ?
他们其实更早 。
OK, 感觉贾扬清也挺年轻的呀 。
他在博士期间就开始接触 ,因为他第一个做的工作叫 Caffe, 是一个框架 , 然后这个框架就是为了支持他博士自己做一些算法研究而做的 。
所以实际上第一批所谓的 AI Infra, 那时候都没有这个词的人, 实际上是有算法背景的人。 因为他们要做先进的算法 , 然后要把 GPU 利用起来 , 于是做了这件事情 。
所以你可以认为那个时候真正做 Infra 的正规军还没有进入 。
所以他们是从无到有把这事做出来的 , 可以这么理解吗 ?
对 , 所以他们是相当于第一批人了 。 那对于我个人来说 , 我可以认为是第二批 , 就是深度学习工业界确实有兴趣要大规模去应用的时候 , 我基本干的是上规模的事 。
就第一批的话还比较多 focus 在单机 ,但这么说可能也不公平 ,他们那时候也看了一些分布式的东西 。 但是真正 serious 的上几千卡什么的 , 然后要这么大规模的去跑一些任务 ,是我这第二代人看的比较多的事 。
OK, 明白 。 所以你的职业经历 , 刚这两年大模型出来 , 应该也是一个特别好的机会吧 ? 就是一下子到主流舞台吗 ?
可以这么讲 ?
是 , 可以这么说 ,也是为什么我觉得一定要 try 创业 , 然后一定要亲身参与其中吧 。 因为对整个 Infra 而言 , 创业都是蛮难的一件事情 ,因为它天生其实是支持应用的 , 尤其是像我们做大规模 Infra 的 。
你可以理解 , 比如说过去美团 、 滴滴 ,他们刚开始做业务的时候 , 业务体量还很小 ,他不会太重视这个 Infra, 这是应该的 。
只有当它量上来了 , 然后又搞高并发这种 , 才会去专注于 Infra, 或者说把 Infra 先克服一步 , 这个时候它才需要比较专业的 Infra 人才进来 。
所以在过往的历史中,Infra 人才比较难参与到一个公司早期创业的过程 。 但是大模型这个确实是一个非常好的机会 。
上次这个机会是在搜索引擎 , 你可以认为 Google 做搜索引擎的时候 , 它第一次面临海量的互联网数据要处理这个数据 , 那它需要世界一流的 Infra。
所以 Google 实际上是一家 Infra 公司 , 从当年开始 , 它的成功是因为它 Infra 特别强 。 那到大模型时代 , 我眼里它是在重复 ,有点类似上一次搜索引擎那个过程 , 就是同样的是你有很大量的数据 , 然后你有很大的算力需求 , 要做的计算和数据量突然比之前的范式高了一个数量级 、 两个数量级 , 只不过现在你在这些数据的处理方法上有了变化 , 用 GPU、
训模型什么的 。 这时候你想做最优秀的事 , 你就要有最优秀的 Infra。 所以对我而言 , 我觉得这是一个非常非常重要的机会 ,也许 10 年、20 年才有一次一个 Infra 能够做到这么核心的角色 。
对 , 你刚才讲那几部分串起来 , 我能不能说其实一切都是由数据来驱动的 , 就不同的数据形态 、 数据量级等等 ?
可以这么看这个问题 , 数据至少是非常非常重要的一方面 。
所以做 Infra 其实每天就是用各种技术去跟数据打交道 ?
服务于对数据的处理 , 对 , 你可以说今天是学习数据 , 然后处理数据 。 我觉得大规模的 Infra 基本上服务于这个目的 。
明白 。 但你觉得移动互联网那套 Infra 跟 AI 的 Infra, 它算是完全并行两条线 , 还是里面有那些异同之类 ?
除了一些比较年轻的入行就是 AI Infra 的人以外 ,其实大部分人都是从传统 Infra 转过来的 。 所以我觉得他们有相当多的共同点 ,也有相当多的不同点 。
从很多问题的本质来说 ,其实他们是一样的 。 我要解决大规模怎么可靠的跑一个任务 , 怎么高效的跑一个任务 , 怎么把计算 、 通信 、 存储 、 有机的结合起来完成这个任务 , 大目标是一致的 。
但是当然到了具体实操的时候有很大的不同 , 比如说 AI Infra 的绝对核心是 GPU, 传统 Infra 绝对核心是 CPU, 那这两个硬件它有不同的特点 , 然后也对比如说刚才说的通信 、 互联的要求 , 对存储的要求都不一样 。
所以基本上可以认为是为 AI 定制化的一套 Infra。在 Infra 的世界太阳底下没有太多的新鲜事 ,但是会在某一个方向上钻得更深 、 更定制 , 然后 AI Infra 在很多方面要做得更极致 。
所以我听起来它底层 、 本质 、 目标什么都是类似的 , 只是一些技术栈和使用的东西不太一样 。
对 。
但这种情况之下要转的话好转吗 ? 就你觉得未来的做 AI Infra 的人更多的会是新一批成长起来的 , 还是老的其实就完全 OK?
我觉得都会有的 。Infra 和算法确实它在这地方是不太一样的 。其实你可以看到算法很多程度是依赖非常年轻的人, 甚至我有算法朋友跟我说 , 算法的人员只有两年的保质期 , 两年后他把他的聪明才智发挥完了 ,他就陷入一个思维定势了 , 然后新的东西反而跟不上了 。
但 Infra 是一个相对强调积累的事情 , 所以我觉得老人也会发挥重要作用 ,但新人当然也会有一些新的 idea 进来 。
对 , 你看我们跟传统做 Infra 的人聊 ,其实大家经常讲的是说我怎么样去提高并发呀之类的这种东西 。
那理论上说 AI Infra 也是类似的 , 对吧 ?
在推理就是线上服务的时候 , 我觉得是类似的 。 对 , 只是它用的东西不一样 , 跑的东西不一样 。
它是用 GPU 在跑 AI 模型 ,但是最终其实有非常非常多类似之处 , 我想说 。
性能指标8:40
对 , 所以你们现在核心服务的一些 ,不管是目标还是数据指标 , 大概会有哪些 ?
其实你可以找到 CPU 或者说传统 APP 对应的东西 , 比如说我们强调你在 Chatbot 上问一个问题 , 那第一个字返回给你的时间就是首字延迟 。
对 , 那你也可以想你点开一个 APP, 它多久你才看到第一个页面 ,其实是类似的 , 对吧 ? 然后回复你的首字延迟 ,以及之后吐字的速度是不是稳定的 ,是不是流畅的 , 这些东西是线上服务的事情 , 然后我还要以尽量低的成本做到 。
那训练那一侧呢 ,其实就比较像大数据 。 以前大数据也是说我 Hadoop 或 Spark, 就是开非常非常多 CPU, 然后处理很大量的数据 , 做一些计算 。
现在就是说我用 GPU 也是处理很多的数据 , 然后去训练一个模型 。 就是从概念上来说是相似的 。
明白 。 但听起来是不是只有量级很大的公司才需要用到 Infra, 包括 AI Infra 也是一样的 ?
应该说所有的业务产品你都要依赖 Infra, 只不过你想不想自己投入一些自己的人力成本也好 , 研发成本也好 , 去把你的 Infra 做出一个领先的水平 , 然后做出这个领先水平对你的产品业务有多重要 。
我觉得这个对不同公司是不一样的 。
对 , 所以以你目前的理解 , 你觉得不同阶段和不同类型的公司对 Infra 的投入应该是怎么样的 ?
其实这个账蛮好算的 。 我举例来说 , 假如说你有 1 万张 GPU, 都是比较贵的卡 ,1 万张 GPU 月租 , 一个月一个亿 , 然后如果你雇了一些人, 优化了 10% 的利用率 , 你就省了 1,000 万 , 或者说挣了 1,000 万 , 对吧 ?
然后你愿意为这 1,000 万一个月雇多少人 ? 这个其实在 Infra 这个账是非常好算的 , 无论是在前思还是在现思 , 基本上如果去算这笔账的话 ,Infra 在每个公司的贡献都是很正很正前的 。
当然是以省钱的角度来说 ,其实要 cover 这个人力成本就非常非常轻松 。 对 , 所以 Infra 是一个非常确定性的事情 , 然后小一些公司没用那么多 Infra, 当然你就会去算这笔账 , 我值不值得雇 10 个人来为我优化百分之多少的性能 。
那如果你觉得不值得 , 外界有个 baseline 嘛 , 就是你去找云厂商啊 ,也会给你有一个比较 general 的一个方案 , 如果规模不是很大也够用了 。
所以这就是现在这些 , 包括 MaaS 啊 , 包括公有云啊 ,他们的价值锚点嘛 , 为你这个规模比较小的公司把这部分省掉 。
对 , 现在也有很多 ,不管是云厂商 , 模型自己也会做很多 Infra 相关的东西 , 对吧 ? 然后也有些第三方的公司 。在这种情况之下, 首先那些做应用或创业公司自己需不需要做 ,其次就是为什么也会有一些第三方公司在做 。
因为我理解这个事其实应该是云厂商跟模型方已经自己做到极致了才对 。
比如说我们就谈 MaaS 这个生意 , 每个模型厂商主要还是 carry 自己的模型 ,以自己的模型做 API 为主 。 那你说会不会有一个像极茂市场 , 然后你可以随意的选择各家 API?
我觉得这是这些 MaaS 厂商他们想要做到一件事情 。 当然你可以说相应的公有云 , 包括阿里云 、 火山云 ,他们也在做类似的服务 ,他们除了 carry 自己家的模型 API 外 ,他们也有其他家的 API。
初期呢得到应用啊 , 说明需求还是在的 ,但是我觉得长期来说更重要的还是说回到你的问题 , 我觉得你的问题可能更多问的是长远来看吧 , 一个第三方的人做这件事有没有独特的价值 。
因为短期你总是可以靠各种各样的推广活动啊 , 降价啊什么的去获客嘛 ,但是如果长期它没有独特的价值 ,其实它是不成立的 。
那我是这么看这个问题 , 就是这个观点我可能后面也会一遍一遍的 reference, 就是 AI Infra 它是夹在模型和硬件之间的 , 它下面是硬件 , 上面是模型 。
如果所有人都能获得硬件和所有人都能获得模型 , 去做中间这一层的话 ,其实价值相对是比较小的 , 会非常非常的卷 。
最后大家就恶性竞争打价格战 ,因为说白了没有人的技术能够好到在 AI Infra 这边拉开多大的区别 。 有先后, 比如说你可能一项技术做得非常好 , 你领先几个月 ,但是人家几个月后也会追上的 , 没有一项技术是几个月后追不上的 。
所以那第三方的价值 , 我觉得要么它和硬件去做垂直整合 , 要么和模型做垂直整合 。 我有时候也打一个比方是 , 比如说 PS5, 你为什么要买 PS5?
因为它上面有独占的游戏 。 那 Steam 也有独占的游戏 , 它其实是个内容分发平台 , 你也可以认为 MaaS 它也是个 API 内容分发的平台 。
除了有一堆大家都有的东西以外, 那让大家留在你这的其实是一些特色的东西 。 那比如说有的 MaaS, 比如说它和某些硬件厂商它有非常深度的合作 , 它可以更便宜拿到算力以及技术支持 , 当然它自己也对这个硬件有非常独到的一些研究 。
那么它在这边就会有它独特的优势 。 那或者说大公有云它是另外一头 , 比如它的上面它有它自己的模型 , 你可以认为这个模型它第一方独占的一个游戏 , 它还 carry 很多其他的游戏 ,但是它独占的东西才是最主要的吸引用户来的内容 。
所以这么讲 ,因为我一直觉得说你看海外有非常多的 Infra 的公司 ,而且很多融了很多钱 , 最后也能很大的估值被卖掉 ,但国内好像 Infra 大家一直没有那么看好 。
倒也没有多大估值吧 。
对 ,但国内的机构可能看法就会跟你刚才讲的有点类似 ,他就觉得 Infra 被夹在中间 , 对吧 ? 两边都会吃你的份额 , 然后你又不好赚钱 , 然后技术上又没有很强的壁垒啊之类 。
是 。
对 , 所以你其实是从本质上来讲更同意这个观点的 。
首先我不反对这个观点 ,但是我觉得每件事情都有两个角度去看 , 一个角度是您说的那个角度 , 另一个角度是对于我个人以及从业者的指导 ,是你就不要去做夹在中间那个人。
像我 , 我选择到模型这一侧 ,也有人可以去选择到硬件那一侧 。AI Infra 在这里其实有非常独特的一个价值 ,是以前 Infra 没有的 ,也就是现在是一个模型和硬件都在追求极致的时刻 。
比如说就举 DeepSeek 为例好了 , 你想要做出在硬件上跑得非常非常有效率 、 性价比非常好的模型 , 你需要很懂硬件 , 你要懂模型 , 然后真的两头都能懂的人是在中间的 Infra 人。
所以你可以反过来看这个问题 , 如果你愿意跨出一步去多和模型去联合的做垂直整合去打通 , 你愿意和硬件去做 coding design, 愿意做什么东西 , 实际上有非常非常多可做的机会 。
但如果你固步自封 ,不去考虑这些事情 , 硬件就硬件 , 模型就模型 , 我中间优化优化 , 我觉得这个确实会很窄 。
对 , 我理解 ,但这里面有个相对有些 challenge 的问题啊 , 就是你跟模型或者跟硬件绑定后, 你万一选错了怎么办 ?
我觉得不是这么被动 , 你是参与者 ,不是当人家东风的 。 重要的是你参与其中, 比如说你能影响硬件的走向 ,因为你比硬件人更懂模型 , 或者你在模型公司 , 你比模型的人更懂硬件 , 你能够去影响这个模型的走向 。
然后如果你在一个足够好的环境 , 你能够影响模型或硬件向着你觉得好的走向去走 , 最后成功当然最好 ,不成功那也是你自己的责任吧 。
模型增效16:16
明白 。 我们刚才其实讲了一些就是 Infra 去做降本增效相关的东西嘛 , 对吧 ? 但它实际上对模型最终训练结果的好坏能起到多大的作用 , 这个怎么评判 ?
其实这就是为什么大模型公司 Infra 非常非常重要 ,因为它实际上也会直接影响模型训练出来的效果 。
大家都在玩同一场比赛 , 这个比赛就是给定算力 , 你怎么训出最好的模型 。 所以从最终结果来说 ,Infra 水平确实会影响模型的效果 。
主要影响的是哪些方面 ? 成本肯定是会影响 。
我举个例子 , 我们都是 5,000 张卡 , 三个月训一个模型 , 更好的 Infra 可以让我比如说效率多 20%, 我就可以多学 20% 的数据 。
三个月后大家把模型拿出来比 , 你因为这多学了 20% 数据 , 你最后模型的效果就会比别人好 , 假设其他的条件都一样的话 。
所以 Infra 它其实是一个能标准化衡量好坏的一个事情 ,是吧 ? 就是有些数据指标是一眼能看出来的 。
是的 ,但是它又是一个复杂的问题 。 就比如说不同的硬件和不同的模型 ,有一个专业名词叫 MFU,MFU 指的是一个硬件做模型训练或推理的时候 , 实际做了多少次运算 , 这个是分子 , 然后分母是总的它理论的算力 , 这个是一个比例 , 这个比例越高 , 显然你对硬件的利用率就越好 。
对 , 我记得当时 DeepSeek 有发这个指标啊 , 说做得很好啊什么的 。
实际上不是的 ,DeepSeek 的训练 MFU 其实是偏低的 。 这件事情就是我想说的 , 它是一个复杂的问题 ,有这样的指标 ,但是它和模型和硬件都相关 , 又和你的优化目标相关 。
我举例子 ,DeepSeek 以及其他所有人, 包括我们 ,在 24 年的优化目标是不一样的 。 我们的优化目标是给定训练算力 , 我怎么训出最好的模型 ;DeepSeek 的目标是我给定推理的成本 , 怎么设计这个模型 , 把这个模型效果做到最好 。
因为这个优化目标不一样 ,在 24 年, 至少上半年,DeepSeek 并不比大家强 , 从基模来说 ,因为我们的优化目标就是针对 pre-train,pre-train 我用几千张卡训几个月 , 训出最好的模型 。
然后 DeepSeek 有时候我知道一些搒单 , 一些公开评测什么 , 它并不在 number one。 那这件事情在什么时候发生改变呢 ?
就是到 24 年 9 月份 ,OpenAI 的 O1 发布了 , 然后您也许听说过什么 test time scaling, 指的是我在推理的时候我多思考一些 , 这样我可能最后得到的结果就会更好 。
然后这种 test time scaling, 或者叫这个推理模型 , 它是靠强化学习训练的 。 强化学习里头很大一部分就是在自己推理 ,因为强化学习是我推理一大段 , 然后我选一个最好的 , 告诉模型给你 reward, 应该要这么回答 。
于是 DeepSeek 的模型就变成了强化学习训练最快的模型 ,因为它推理成本低 , 所以它的那个优化目标更符合强化学习时代的需求 。
它不仅推得快 , 现在训得也快了 , 跟我们其他人的基模比 , 它做强化学习的速度会比我们快好几倍 。
所以这才是它第一个就说 R1 的原因 。 你可以认为是一个大家选了不同优化目标以后的胜利 ,但你可以说这头也许有一些运气 ,因为它开始定这个优化目标的时候 , 大概率没有想到 test time scaling 24 年 9 月后会发生的事情 。
但所有事情都天时地利人和嘛 。 所以就回来说我们确实有很多指标 ,有训练效率的指标 ,有推理效率的指标 ,但是我觉得更重要的是你想清楚你第一优先是什么指标 , 然后这个指标符合整个业界的需求 ,以及未来技术的发展 。
所以当下有比较通用的第一指标吗 ? 是大家现在都差不多了吗 ? 还是也有很多不同的方案和路线 ?
我觉得大家的认知并没有完全统一 。其实从 O1、R1, 然后强化学习这以后, 我觉得最重要的指标就是 decoding 的这种速度 ,decoding 的成本 。
就是推理其实分为两部分 , 一部分是叫 preview, 意思是我处理输入 , 比如说我一个很长的文档丢给模型 , 我处理这一段文档 , 另一部分是输出 , 就是吐字嘛 。
那其实我认为现在最重要的指标就是后面这个输出的速度 ,因为这输出的速度 , 第一对线上业务也是非常直接的成本 , 第二是它直接决定你强化学习的效率 。
如果你输出就很慢的话 , 它获得 reward 的这个速度就比其他模型要慢 。 所以我觉得现在的第一指标是我们叫 decoding, 或者你就可以理解为模型输出的速度 。
但是还有人还停留在上个时代 , 就是所谓的训练 MFU 啊什么的 , 这跟各个公司它训什么模型 ,以及一些团队的状况有关系 。
但假设啊 , 你跟其他类似做模型的 Infra 的人聊 ,其实几句话就能聊出来他们现在的认知和水平怎么样 。
是的 。
就是你们现在最近在优化什么 , 然后大概能做到什么数据 ,其实就知道了 。
没错 。
OK, 那这个还挺有意思的啊 。
是 。
但你觉得大家会有很大的差别吗 ? 还是其实没有特别本质的区别 ?
我觉得区别还是有的 。
但区别更多是方向选择上, 还是就真的是技术水平 ?
最重要的事情永远是方向选择上的 。 就像我刚才说的优化目标 , 就在我眼里 , 如果现在还特别关注 MFU 啊什么的 , 它对现在的状态的技术认知是有问题的 。
那你觉得有没有再下一步的一个新的指标 ? 就是像当年, 比如你说那个 DeepSeek 他们在做新的指标 ,但别人可能没有意识到 , 对吧 ?
你觉得后面还会有这种时刻吗 ? 还是其实就差不多了已经 ?
不好说 , 还是有可能 。
而且你提到说从你的视角做 Infra 是特别懂硬件跟软件 , 然后在中间这个人嘛 , 对吧 ? 那同时算法的人怎么样呢 ?
就是这个东西如果你们遇到一些不同的意见 , 到底谁来主导 ? 你跟算法的人会怎么合作呢 ?
团队协作22:15
其实最简单就是像同一个 team 一样合作 , 共同完成训练这个模型 , 可能有不同的分工 ,有不同的优先级 。 那就是大家一起坐下来 , 一起讨论这些事情 , 该谁给谁让步 ,因为所有事情都是有 trade-off 的 , 都是有权衡的 。
有的事情是我可能会损伤一大半的系统性能 ,但是算法上就提升一点点 ,有的时候是反过来 。 对 , 就是每个权衡都要去两边一起去讨论定下来 。
所以实际合作过程当中就还好 , 大家就是沟通解决 ,也不会有什么问题 。
我觉得这是小团队的优势 , 很多大厂是很难做到这件事情 。
对 , 可以想象到 。
对 , 尤其是 Infra 在大厂来说 , 它就是一个支持性的角色 。 然后很多时候是说 , 模型的人说 , 我设计了一个这个模型 , 你们就去给我优化好 , 把训练和推理的速度调上去 。
我觉得 Infra 其实是没有反向的影响力的 。
对 , 尤其我在想 Infra, 像我刚才讲的 , 它其实核心是降本 。
是 。
对 , 降本这件事情其实在公司里面就是容易 ,不是大家最重要的目标 。
是 , 所以这也是我觉得也是最重要的事情 , 就是也是刚才提到 , 就是说你是只是一个降本的角色 , 还是你是一个能影响到模型效果的角色 ?
你实际上是可以对模型效果有正向影响的 。
听起来就是要发挥主观能动性 。
主观能动性也不够 。 比如说你是一个 Infra team, 然后有一个算法 team, 然后你们俩都汇报给同一个 leader,但这个 leader 只懂算法 , 那会发生什么 ?
对 , 所以好多最后都是组织架构和人的问题 。
对 , 我觉得如果不是今天我在跟你聊的话 , 我听起来也肯定觉得算法是所有的模型里面最核心的人了 。
当然非常核心 , 对 。 我觉得一般的认识也是这样吧 , 就是模型其实是铁三角 , 算法然后系统 , 就是 Infra, 然后是数据 , 这三个都非常非常重要 。
所以你觉得最理想的就是 , 比如今天我们要优化一个什么东西 , 或者我们要做什么事 , 就这三方合起来 , 大家一起讨论 , 然后最后集体讨论出来一个可能互有优劣的那么一个结果 。
是 ,其实有很多事情可能外人的理解反而会有些偏差 。 举例子来说 , 一个模型它的算法效果 ,不是算法人员决定的 ,是数据决定的 。
然后一个模型的效率啊成本 ,是系统决定的 。 那这就得到一个结论 ,因为跟效率成本最相关的是模型结构 , 所以模型结构其实应该系统人设计 , 你才能获得最好的成本 。
模型的点数的效果刷搒应该数据的人负责 。 那算法人负责什么 ? 算法人其实最要做的就是训练的范式 。
听起来很合理啊 , 那现在很多不是这样吗 ?
当然不是这样的 。
现在是怎么样 ?
对 , 比如说设计模型结构 , 基本是算法人在做 , 模型的点数也基本算法人负责 ,但是实际上算法人很多时候他不一定是最适合做这两件事的 。
所以阶跃里面现在是按照你说的这种你觉得最好的方式 。
我觉得更多是像一个 team 一样 , 就像我说的 , 就小公司能做到 , 阶跃也就这么点人嘛 。 大公司的话人多了 , 你也很难说 , 我好像都像同一个 team 一样 , 这个管理起来也非常困难 。
对 , 我们最近也有这个感受 , 就是我觉得很多大厂 , 或者说上个时代继续留下来做 AI 的这些公司 , 它遇到最大阻碍就是组织结构的问题 。
是 。
就现在新的 AI, 那虽然人还是延续那批人 ,但是现在的组织结构可能是很不一样的 。 我觉得你刚才讲的是模型训练那部分 , 然后包括做到应用部分 , 我们也发现可能比如说产品经理他就是得懂些技术 ,他要去参与到数据 。
对 , 我们也碰到这样的问题 , 没错 。
对对对 ,他就是要更全站 。
是 。
但可能一个大厂做一个事一下子就拉进来几十个人, 大家就非常精细化的合作 ,但反而做不出来更好的 。
而且精细化那个分工是按照大家之前的理解去分的 。
是 , 它其实不是适应新时代最好的分工 。 像我说的天生的模型结构 , 它就落在了算法主流 , 这就会导致你的模型结构成本啊这些效率上面会差 。
但你们是一上来就是都是用很正确的方式吗 ? 还是也踩过一些坑 ?
当然 , 当然踩过坑 。
对 , 能不能讲一些踩过的坑 ?
踩坑实录26:28
比如说我们对自己不管是我们的算力还是能力都过于自信 , 所以干了一个巨大的模型 , 我们确实也执行完了 ,但是这个巨大的模型它有一些额外的问题 。
你最大也大不过 Llama 的那个吗 ?
比 Llama 的大 。
比那个还大 ?
对 。
那真的是非常自信了 。
是啊 ,DeepSeek 你交的模型不小 , 我们那个模型不比它小 , 我们比它早了一年做 ,但这些反正后面回头去还是犯了一些错误 。
对 , 我觉得这个是前两年的时候大家都会犯的一些问题 , 包括我现在听很多做应用的创业公司都就那个年代的 , 前两年的 , 对 , 都在反思说当时不应该碰模型 , 对吧 ?
但当时很多人其实是在自己去做些模型训练什么相关的事情 。 但你觉得现在其实你们相对就理得比较顺了 , 对吧 ?
我觉得重要就是说 ,因为我也是过去也是做研究做研发 , 这和做工程还不太一样 , 就是你所有赌的事情都有可能会错 ,但也没有什么呀 。
如果你一直认识到自己以前踩了一些坑 , 那反正爬起来再往前走呗 , 这一局你赢了 , 下一局我干回来 , 就是这样的心态 。
明白 。 那你们后面的一些发展的重点和方向是什么 ?
首先对阶跃而言 , 这个最大的特色还是多模态比较强 , 然后在一些多模态的领域 , 我们就是国内前二吧 , 可以这么说 , 然后也有相应的业务 。
多模态硬件27:41
那围绕着多模态的业务呢 , 我们做的还是真的多模态 , 就大语言模型和视觉啊什么的的融合 。
所以比如说大语言模型的部分也需要持续的研发 , 然后就像我说的 , 我这边也会非常关注语言基座怎么找到一个最高效的结构 。
那像刚才已经提到 ,在我眼里这不是一个纯粹算法的问题 , 甚至我认为是一个系统至少要和算法是五五开的一件事情 , 就是我现在非常关注的事情 , 包括后面公司也会联合一些端侧去做这种协同的一些事情 。
所以我也要考虑端上的这个硬件条件 , 然后以及什么样的模型 , 什么样的部署方式适合 , 这些都是我们下面要比较关注的事情 。
那当然还有一些就是老生常谈啊 , 什么强化学习的 Infra, 还是非常非常复杂 , 所以这边还有大量的工作要去搞定 。
你觉得不管是对于你还是对于所有的做 AI Infra 人来讲 , 现在遇到最大的阻碍或者最核心的突破的问题是什么 ?
有一种阻碍是你看到一条路 , 然后你执行就能完成了 。 有的阻碍是还没有一条很明确的路的 。 对 , 能完成的就像我近受啊 , 一些算力上的问题 , 然后强化学习工程非常非常复杂 , 怎么搞各种各样的环境 ,但是终归都是有路去解决的 。
那更为困难的是一些更加革命性的一些事情 , 这些事情只能走一步看一步 。
比如说呢 , 大概是什么样的 ?
比如说我怎么做到真的模型和硬件的 Code Design,因为现在现状这样的 ,其实所有大家的模型都是针对英伟达卡去优化的 ,Google 其实也是 。TPU 有一些特色 ,但是到了最本质的一些计算范式上, 它还是和 GPU 是一致的 。
所以大家模型其实没有那么大的变化 , 都是根据英伟达的卡去优化的 。 但最近有些 H20。
对 ,H20 终于可以卖进来了 。
对对对 ,有一些这些传言 ,但是 H20 依然是比较弱的卡 。 那有国产芯片的问题 ,也包括说是不是全世界范围有人能够推翻英伟达计算的范式 。
就是说你可以想象 ,有一种新的芯片 , 它的特点和英伟达卡很不一样 , 然后呢 , 又有人利用这个芯片的这个特点 , 做出了高熟人一档的模型 。
那这件事情就会非常非常革命性 。 你可以认为图灵奖就在你眼前 , 或者你可以说如果是一个商业公司做到 , 你就拥有了无人可敌的壁垒 。
那这样的事情都是非常非常困难的 。
是 。 我觉得对于模型来讲 , 上一个 Aha moment 仍然是年初的 DeepSeek, 对吧 ? 然后但最近也一直在传说 GPT-5 终于快发了 , 应该是 , 应该就这几个月 , 那最后也不知道会怎么样 。
然后 RL 这波呢 ,在 DeepSeek 之后好像也没有看到什么特别新的特别大的变化 ,而且同时很多人在讲说是不是 Scaling 都不行啊 , 数据是不是也不够了啊等等 , 就各种各样的问题嘛 。
所以你怎么看未来模型的一些量变和质变的发展 ?
范式的革新不会那么的快 。 你可以认为上一次是在 22 年,GPT-3.5 就 Instruct GPT, 然后这一次是 24 年 9 月 。
O1。
O1, 对 ,DeepSeek 你可以认为是 O1 的一个复现嘛 。
是 。
所以本质上是 O1 的这个范式 , 大概两年一次 。 如果你以这个速度去预计的话 ,也许下一次大范式是 26 年了 。
可以 ,26 年能有已经很好了 , 我觉得 。
是 ,也许吧 ,也许 , 对 。
你们能看到一些大的方向吗 ? 就下一个可能会是什么 ?
我们觉得多模态这边还是有一些突破的可能性的 , 尤其通过多模态的生成和理解的统一 。 现在多模态的状态还是蛮像 , 比如 2020 年的纯语言的状态 , 那时候最流行的模型叫 BERT, 就是做理解的 。
然后可以认为现在出来那个状态 , 就是没有人还真的把理解生成统一做通 。 做通的标志是我这一个模型做理解比只做理解的模型好 , 做生成也比只做生成的模型好 , 就像 GPT-3.5 一样 。
对 , 一下子以前做翻译的专用模型 , 做什么的专用模型通通都退休了 。 我觉得这个还是有希望看到一些曙光吧 。
OK, 最近那个 Google 的 VEO3 什么的 ,其实大家已经觉得效果都非常好了嘛 。
VEO3 还是偏上一代的 , 就是专用的生成模型 , 它确实做了比较多工程的工作 , 把一些功能给融合起来 , 比如说包括配音乐啊什么的 。
技术本质和产品它不是一个线性顺滑的过程 。
所以你觉得它仍然就是把上一代发挥到一个非常强的水平的这种定位 ?
对 ,而且这条路还会继续走的 , 就不止它吧 , 还会有其他公司也在走这条路嘛 。
海外 Infra32:29
对 , 顺便我们提到 Google, 就美国那边其实有很多专门做 Infra 的公司也非常大了嘛 , 对吧 ? 比如说像 Corewave 可能大家听得少一点 ,但其实它是美国那边今年涨了好几倍 , 对吧 ?
对 ,但它更跟那个英伟达的卡绑定挂钩的 , 然后大家可能听得比较多像 Databricks 啊 ,Snowflake 啊这种 。 对 , 你能不能给大家大概讲一下你怎么看这几家公司 ?
这家公司实际上不是 AI Infra 公司 ,但他们现在做一些 AI Infra 相关的产品吧 。其实这些公司本质都是数据管理和处理公司 。
比如说 Snowflake, 我们一般都觉得它商业做得蛮好的 ,但是核心的技术呢 ,其实说得很简单 , 它做的这个产品就是比如说你在云的世界里头 , 你有亚马逊云 , 你有微软云啊等等 , 那它做了一套统一的这个数据的抽象 , 使得你可以在不同云上以一套统一的管理把它管理起来 。
那它作为这个管理数据的入口以后呢 , 它后面可以加其他的这个增值的服务嘛 , 说我可以帮你处理数据这些数据啊 , 算一算一些东西啊 , 我展示一下之类的 。Databricks 相对的有核心技术一些 ,因为它以前是 Spark 这个分布式计算框架的这个主导的公司 ,但是我觉得到了商业化落地的时候 ,其实也大多是以这样的逻辑 , 就是反正你传统企业不太知道数据怎么去
利用起来 , 我来帮你 , 我用最方便的方法把你的数据给存起来 , 管起来 , 算起来 。 当然你可以想象 , 当他们帮助客户把数据管起来以后呢 ,他也可以去做一些 AI 的事情了 ,因为 AI 也是学数据和处理数据嘛 。
是 。
所以他们也在往这方向去转型吧 。
对 , 所以在你看他们其实更偏 , 我们刚才讲三部分 , 就是 Infra、 数据跟算法 ,他们更偏数据那部分 。
不不 ,他们是服务数据的 Infra, 对 。
OK, 所以你觉得现在有没有第三方的公司 ,不管是大的上市的还是初创的 ,是典型的你说的 AI Infra 这种类型的公司 ?
初创公司很多呀 , 你刚才提到 Corewave 也是啊 , 你刚才提到贾扬清也是啊 , 对 , 大家收购了 。 然后国内的话 , 国际邮动 、 无人星球 、 什么路程科技 , 对吧 ?
但基本上这几家都是在做推理加速 , 对吧 ?
我对他们近况不是特别了解 , 无论我理解的是推理为主 ,但我说错了也有可能 , 对 。 路程早年是做训练的 , 然后国际邮动袁进辉老师早年也是做训练 ,但他是上个公司做训练 , 这个公司主要做推理的 , 这跟商业模式有关系 。
就是训练的商业模式 , 我个人觉得是不太成立的 。
所以你觉得对于创业公司来讲 , 或者这种第三方的 Infra 公司来讲 , 还有什么别的机会吗 ? 因为刚才整理几家现在反正都是偏向推理方向 。
是 , 我觉得这是跟时机有关系 。 现在的状况是 , 训模型的主要还是非常非常懂行的专业人士 , 然后专业人士第一钱很不好挣 , 第二呢 , 我们训模型就是为了用模型本身出来竞争的 , 然后意味着我们在训练的时候 , 无论我们做任何的研发 , 都是我们的核心竞争力 。
那我很难把这件事情很早的就告诉第三方 ,但你把训练排掉 , 你只剩推理了呀 。 对 , 所以推理是可以搞的 , 推理相对的比较干净 。
对 , 然后正好问一下, 就是现在其实有很多流行的开源模型嘛 , 这个我不知道对于 AI Infra 市场来讲会有什么影响 ?
开源生态35:52
开源模型很多人觉得说它对 AI Infra 的总体技术还是有促进的 , 我觉得这也是有道理 , 尤其是一些很火的那些开源模型吧 , 然后大家就会去研究怎么把它跑得好 , 然后在这个过程中其实就促进了 AI Infra 的发展 。
但是所有事情都有两面 , 你看你怎么看这个问题 。 也有一种趋势是 ,因为一个开源模型很火 , 大家就会花很多精力在优化它上面 , 反而影响了创新 , 这是更高层面来说的事情 。
比如说 DeepSeek 出来之前很多人, 比如说 Llama 吧 , 优化他们完了以后,DeepSeek 模型很不一样 , 然后经历了好多积累 , 好多时间就废掉了 。
那你说有没有意义 , 我觉得还是有一定的意义 ,但我还想再补充一点是 , 刚才提到这个 Infra 其实也包括硬件 , 比如说 DeepSeek 或千问的模型 , 或者一些其他模型 , 本质上现在都是针对英伟达卡去优化的 。
然后现在我们来说国产芯片替代 , 你会发现国产芯片不是说跑不起来 ,但实际上他们的性价比都是比不过英伟达去跑的 。
然后这些模型又开源 , 又免费使用 , 然后你可能也听过什么一体机啊这些生意 , 然后你做一体机的人 ,他就会发现他拿英伟达的卡做一体机跑 DeepSeek 或千问 , 就是比国产卡要性价比要好 ,有竞争力 。
所以最后反而影响了国产芯片在市场上的竞争力 。
我觉得这是必然的结果嘛 , 对吧 ? 但是它确实是国产替代嘛 , 就是你确实是拿不到英伟达的好的卡嘛 。
那我就是在想 , 我们是不是能够做到改变这边一点点 , 比如说我能不能去为国产的卡去设计一些模型 , 然后它也是 SOTA 的水平 , 可以跑的效率非常的高 。
所以你觉得现在就我们把卡抛出在外, 你觉得国内外 AI Infra 的能力和水平上的差距大吗 ?
还是有相当差距 。
这个怎么讲 , 我能理解算法上大家有差距 , 对吧 ? 但我理解 AI Infra 其实更多 , 刚才听起来是个工程上的东西 ,以及大家是做一些方向的选择啊什么的 , 或者最后优化一些指标 , 这个我觉得理论上来说不应该有那么大的差距 。
一个是规模的差距 。
哦 ,OK。
对 , 你谈 Infra 肯定还是要谈规模 ,1 万卡和 10 万卡碰到的问题才是不一样 。
OK。
对 , 另外还是对上下游的影响吧 。 就比如说 OpenAI 也想自己做芯片 ,Google 自己做芯片 , 就是相对的 ,因为他们无论是资金啊或者人才啊 ,他们更容易比如说做到硬件和模型的整套的 Code Design, 那国内有这个条件的人还是会少非常多 。
有这个条件的似乎没有吧 , 到目前为止 。
就个别大厂吧 ,但是有没有真的组织起来成为一个好的状态也是一个问号 。 有一些大厂也有自研的芯片 ,也有自研的模型 。
所以你觉得 Google 的那种自下而上的 , 真的是全套自己的东西 , 它的训练效率就是会高非常多吗 ?
还是会有明显优势的 , 就是所以 OpenAI 一直以来都是最忌惮 Google 的 ,Google 模型现在确实也蛮猛的 。
所以如果这么讲的话 , 那最终的结果是不是大家都得有自研的芯片 ?
不见得 , 我只是说有这个危险存在 。 如果哪一家把模型和芯片的上下统一做得非常非常好的话 , 会对竞争对手是一个非常非常大的压力 。
对 ,但如果拉长时间来看 , 那必然会有这样的公司嘛 , 比如 Google 长期来看肯定是这样的公司嘛 。
是 。
那别的公司如果他们不走这个路线 , 可能只能从其他地方去突破 , 去差异化的竞争 。
对 。
那这么听起来国内还是任重道远呀 。
对 。
阶跃新模39:28
然后我知道阶跃马上要发一个新的模型嘛 , 这期发的时候可能已经发出来了 , 对吧 ? 你能不能跟我们讲一下关于这个新模型的一些情况 ?
这新模型从算法角度来说 , 它是应该是国内第一个可以由第三方商用的这个几百币的一个视觉推理模型 。
如果你看最近的一些其他模型的发布 ,他们都是纯文本的推理 , 我们是一个真的上规模国际 SOTA 水平的视觉推理模型 。
那这个能不能给大家解释一下视频推理怎么理解 ?
视觉推理其实就是我可以根据视觉信息 , 就比如图片 , 当然视频也可以 , 抽帧啊或什么的 , 输入到模型里头 , 它可以完成推理任务 。
比如说我们有时候会受一个 case,有点像侦探的嘛 , 比如说我随便拍一张照片 , 然后你告诉我这个照片里的是哪里 , 然后更现实的一些任务 , 对产业更重要一些任务 , 比方说你想象你是个机器人, 我跟你说要去柜子里拿个东西 ,但那个东西可能它半遮掩的被什么东西挡住了 , 然后你要能够分析出来我应该一步一步怎么做 , 去完成这样的复杂任
务 。 你可以认为比如一个机器人它有小脑和大脑 , 小脑是控制这个动作平衡的 , 然后大脑就是我刚才说的东西 , 你要拆解一个复杂任务 ,但你对一个机器人而言 , 或者对其他智能设备 , 手机也好 , 车也好 , 它处在一个物理世界里 , 它天生就有这个视觉这个模态 , 那它要根据它周边的环境 , 它看到的东西去决定它怎么完成一个复杂任务 , 这就
是典型视觉推理模型做的事情 。 当然还有一个现在互联网上更常见的应用是拍照解题 ,也是视觉推理模型干的 。
对 ,但这个东西我理解之前那些模型有的也会这么讲嘛 , 包括 SO 啊什么的 ,他们就是我拍张图或者去视频截一张图 , 对吧 ?
然后它应该是说把这个图去理解以后转成文字 , 然后再去做一些推理 。
这个应该说不是真正的视觉推理 。
所以真正的就你们现在出的这个是怎么 ?
我觉得有不同的层次 , 现在来说我们不需要中间那一段转成文字 , 它直接看图推理 。
那这些数据是什么样的数据呢 ? 是它就不转成文字了 ?
就你可以理解为它好像真的看懂了这幅图 。
就是更端到端某种意义上理解 。
是端到端的 , 对 , 还是举刚才例子 , 比如说我要去拿个东西 , 那个东西被一些东西挡着 , 你其实用文字很难描述得非常清楚 ,因为如果东西很多的话 , 你拿到全部列出来 ,他们在物理世界的位置关系怎么去描述呢 ?
但是我就可以看着一张图 , 然后直接说我应该先把这个东西拿开 , 再把那个东西拿开 , 最后拿到这个东西 。
OK。
对 , 那这个是就端到端的好处 ,因为你不是端到端的话 , 你就会丢掉很多中间的信息 。 当然还有一个更高层次的 , 我们是有预言 ,但是现在还没有到这个论文上 。其实听起来就是也是一些很基本的能力 , 比如说走迷宫 , 那走迷宫其实要求你有一个在图上画草稿的过程 。
就 RL 做的事情 。
对 ,RL 做的事情 ,但你可以认为这个解数学题是在文字领域走迷宫 ,但是在视觉领域走迷宫其实还没有那么简单 ,因为你如果用文字推理 , 你其实很难描述得清楚 。
明白 。 然后我看你们发布的是开源的一个方式是吧 ? 这个是一个怎么样的理解和考虑 ?
我们是希望做到一个全国上下产业都获益的一种方式 , 我们决定给所有国产芯片一份免费商用的授权 ,并且把模型权重啊什么都共享给他们 ,并且尽量帮助他们适配好 。
这个模型它这个视觉推理的功能在几百币这个量级是国内唯一的 ,在目前来说 , 所以他们有一些特色产品可以去推 ,而且这个模型我们把它在国产卡上的推理成本做得非常的便宜 ,是通过了一些模型架构的创新 , 所以他们是真的能和用英伟达卡跑其他的一些模型是真的有竞争力的 。
所以我们希望能够帮助他们构建商业竞争力 ,但另一方面希望他们也能够帮助我们推广模型 , 所以这个是一个共生的关系 。
成本与关键43:49
哎 , 对 , 我突然想到一个问题 , 我就问你是不是最合适的 , 就是多模态模型的成本未来到底会以什么速度下降到什么程度 ?
因为我觉得现在其实很大一个问题还是多模态太贵了嘛 。
我觉得多模态理解现在并不算太贵 , 生成还是蛮贵的 , 尤其是视频 , 我对这还是蛮乐观的 , 我觉得会下降得蛮快的 。
大概比如说一年后你觉得会是现在的十分之一能做到吗 ?
十分之一不好说 , 几分之一肯定 。
明白 。 所以你自己做了这么多年 AI Infra, 要把 AI Infra 做好 , 你觉得最关键的是哪几个点 ? 就对于一个个人来说 。
我觉得很难有完全的全才 ,但是我认为除了 Infra 本身的东西你要非常的理解 , 你还要么要蛮懂模型的 , 要么要蛮懂硬件的 , 这样才有可能做得好 。
现在整个市场是不是能容大的 , 真的做 AI Infra 的人其实并不多呀 ,因为必须得到这个量级才需要嘛 。
比起两三年前肯定还是多了很多的 , 对 ,因为包括中厂啊什么的也都在做了 ,但最最顶尖的人还是这么一点点 , 没有特别多 。
对 , 那你觉得未来是不是我们还是拿移动互联网去比 , 就基本上比如说什么 DAU 百万啊什么的 , 它肯定是需要 Infra 的人了 , 对吧 ?
百万不太需要 , 现在你靠云服务百万 DAU 还好 。
OK,但反正那些大的互联网厂商肯定里面一堆做 Infra 的 。
我觉得千万要 。
对 , 就是它要支持高并发呀 , 就是那些东西嘛 , 对吧 ? 所以你觉得未来是不是这些 AI 公司慢慢成长起来也需要更多做 AI Infra 的人了 ?
对 , 我觉得这个需求是必然的 。 从本质来说 , 无论是从应用吧 , 另一方面从计算资源的角度 ,GPU 的算力已经远远甩开 CPU,而且会差越来越大 。
对 , 所以回到刚才说的问题 , 就是说假如说你想象一个老板要招人, 我 90% 的成本投在 GPU 上,10% 投在 CPU 上, 那他要招什么样的人呢 ?90% 的人应该是招为 GPU 工作的人, 所以非常非常明确的 , 我觉得甚至应该说现在不是做 AI Infra 的也应该认真的考虑是不是应该多看一看 。
哎 ,但像你讲的就是因为做 Infra 的人一般就是在后面默默的在做降本的事情 , 那是不是会经常被低估或者被忽视啊 ,在一个公司里面会有这种问题吗 ?
我觉得看你想要做什么样的事情 , 从某种程度上是的 。 以前我们招人的话 ,有些人就说啊我要去做业务 ,不想做离业务这么远的事情 ,但我觉得这个非常看个人的兴趣 。Infra 反正它有它的特色 , 我觉得大模型时代 Infra 还是重要性高了非常多 ,其实就是模型的核心一部分 。
有人说 DeepSeek 做得好就是因为梁文锋是 Infra 的人。
啊 , 这个怎么讲 ? 为什么说梁文锋是 Infra 的人 ?
因为梁文锋自己研究 Infra, 就是因为他已经做量化了嘛 , 量化非常强调低延迟啊这些东西 。
啊 ,OK。
所以梁文锋本身是对 Infra 有研究的人。
就你觉得我们还是讲那三块 , 就是 Infra 数据跟算法来讲 , 你觉得梁文锋其实最擅长的是 Infra。
是的 , 这个应该业界是有共识的 。 我所听到的是 DeepSeek 和 Infra 的工程师数量是大于算法人数的 ,但是在很多大的公司其实是反过来的 , 这个和过去就像你说的一些业务的传统有关系 , 然后也和这个比如说我们过去做 Infra,其实会以我以比较少的人支持很多的业务为骄傲 , 这说明我 Infra 做得通用 , 影响力很大 。
但是大模型现在这个快速发展时代 , 它其实是反过来的 , 它是一个非常垂直整合的事情 , 你就是要对着某个硬件设计模型优化到极致 , 这个时候其实要有大量的 Infra 的人来弄 。
所以这也是一些大厂在过去一段时间比较挣扎 , 我觉得也有部分原因是这样 , 人才和投入力量它是错配的 , 它不适合做这件事情的本质需求 。
嗯 , 哎 , 那还有什么别的具体例子 ,在行业里面大家在做 AI Infra 的时候遇到的一些问题啊 ,是怎么解决的啊 , 或者说就是踩了什么坑之类的吗 ?
我可以说几个例子吧 , 一个是最近有一家不小的公司开源了一个模型 , 它会说我这模型不大 ,但是我的算法效果可以越级去和大一些的模型去比 ,但是实际上这个模型因为它架构设计的问题 , 它实际在硬件上运行的效率会非常的低下, 它可能比它所谓那个大一些的模型运行的效率还要低下 。
这个其实就体现了算法人员他其实并不真的懂硬件 ,并不真的懂 Infra 它怎么运行这个模型 ,因为算法人员所谓的模型架构研究是什么 ,他画一张图 , 横坐标是比如说模型的尺寸或者激活量 , 纵坐标是算法效果 , 然后画完以后他在这个图上说哎我获得了一个很好的一个点 , 这个模型看起来不大 , 然后算法效果还蛮好的 ,但是实际运行是另外一
回事 。 你真正需要的图是横坐标是你实际运行的成本或者效率 , 纵坐标是模型效果 , 你得做各种各样的实验去把这张图画出来 , 然后在这个图上找一个好的点 。
但是这件事情在没有拉通算法系统的团队 ,他做不了这个事情 。 典型的我都可以想象它发生了什么 , 就是算法人他只看参数量那个图 ,他就选那个点 , 完了以后就把这个东西扔给系统去优化了 ,但最后其实结果是蛮糟糕的 , 尤其如果还开源 ,其实大家是看得到的 。
还有一些例子 , 比如说大家听过 MoE 模型 , 我觉得做 MoE 模型的早还是晚 , 直接显示了 Infra 团队在这个大团队里头它的影响力和地位 , 它做得越早 , 说明 Infra 团队影响力越大 ,因为 MoE 这个事情在算法的人眼里它是一个降本的事情 , 它不是提升模型能力上限的事情 。
OK, 哎 , 我记得当时大家讲是 MoE 才能承载那么大的数据量啊什么的这个点 。
我觉得有些事情是大家认可以后去找的一些理由 , 就是还是因为数据量过大训练不了 , 训练不了其实就会回到 Infra 的问题 。
呃 ,不是这样 , 我还是说说当年的一些故事 。
好呀 。
几年前吧 , 我们在前思复现 GPT-3, 然后复现完了以后呢 , 业务看了看这个 demo, 觉得这模型确实能做一些有意义的事情 ,但是又觉得太贵了 。
那当时我就在想怎么能够做到我又是一个大的模型 ,但是业务又不会嫌太贵 。 那个时候因为之前 Google 发了一些 MoE 的 paper, 然后 MoE 又是在这条路上相对比较容易的 ,也就是说我可以把模型尺寸做得很大 ,但最后推理成本其实没有那么大 。
所以我们就那个时候就开始研究 MoE 模型 ,ChatGPT 还没火 , 那时候 22 年初 。
对 , 这个真的很早 , 我都没想到那个时候就有 MoE 了 。
是 ,而且你要知道这是 Infra 团队在主导训这个 MoE 模型 ,不是算法团队哦 。 前几个月吧 , 我去见了一个老朋友 ,他之前负责算法 ,他当时就跟我说当时看着我们在做 MoE,他觉得这不干他的事 ,因为他觉得这不是算法应该做的事情 ,因为你可以这么看这个问题 , 我训一个 100 币的 MoE 模型和一个 100 币非 MoE dense 的模型 , 还是 100 币 dense 的模型强 。
所以你从这个角度看 ,MoE 就是一个省成本的事情 。 只是现在大家知道啊激活参数量对成本很重要了 , 算法人也都知道 ,但当年在他们眼里 ,他们就是看参数量的 , 同样一个 100 币的模型 ,MoE 的还不如 dense 的 , 我为什么要训它 。
所以实际上是系统团队或者 Infra 团队有影响力也有远见的 , 就越早做 MoE 模型 。 比如 DeepSeek,他们一上来就开始做 MoE 了 , 所以这就其实就体现了他们 Infra 团队在这模型结构上的影响力 。
那我们是 23 年 12 月开始训的 , 那是我们的第二代 ,也蛮早的 。
明白 。
回顾与展望52:00
那正好你是什么时候到阶跃的来着 ?
23 年 5 月份 。
对 , 如果我们从 23 年初开始到现在去回顾一下这两年的一些模型的发展 , 你觉得有哪些时刻是让你觉得很大的转变了你的观点或者方向啊之类的 ,有这种吗 ?
我觉得最大的就是 O1 那一下, 就是强化学习 ,其实我们之前也做强化学习 ,但是 RLHF 只是很小的一个阶段 , 后面转变成强化学习对 Infra 各种模型设计 , 刚才说的我们要以推理输出为优化目标 , 我强化学习它训得快 , 然后我的各种基建硬件的选择都会因为强化学习考虑 。
比如强化学习它其实可以用不同的卡型 , 像 EGO, 然后可以更分布式等等这些事情 , 所以对很多以前 AI Infra 或者说大模型 pre-train Infra 的一些假设 , 它都会有一些影响 , 这个是最最大的一个改变 。
嗯 , 最后再问两个小问题吧 , 就你看现在美国那边的模型 , 大家有些在往 coding 发展 , 对吧 ,有些在往 agent 的发展 ,是吧 ,有些可能在往多模态走 ,但是也有它最后可能想都发展合到一起 , 对吧 ?
你觉得未来模型会是一个什么样的发展路径 ? 大家是会有差异化的路线 , 还是就是最后其实都殊途同归 ?
我觉得在现在这个阶段看上去有一定差异化 , 可以明显看出来代码是一个差异化的点了 ,因为你可以看到 Anthropic 做 Claude, 比如它的强化学习并不怎么强 ,但是在强化学习没有那么强的前提下, 它还是能把代码做得一枝独秀 , 就是它投入大量人力去准备去构造去清洗代码相关的数据 , 它比 Google 和 OpenAI 在这方面都做得更专注 , 做得投入的力量更多 , 于是它
代码就最强 。 所以我可以认为说在细分领域的话 , 还是你专门的投入大量人去打磨这个模型 , 还是可以打磨出你特定的优势 ,但是其实客观来说我不知道这样能持续多久 ,也有它的风险 ,也许又发现一些好的训练范式一下又把它碾盖过去了 。
然后 agent 和模型的关系我觉得也蛮微妙的 , 这个是我不知道出路在哪的 。 比如说现在我是个 agent 公司 , 所谓套壳公司 , 我去调模型的 API, 然后我搭了一些 workflow, 然后做出了一个比较好的端到端体验 , 某件事情上有好的体验 ,但这件事情之所以你现在能做出来 , 说明它这件事情本来就是这个模型踮踮脚就能做的 。
模型厂商那边看到了这个应用比较说火了 , 下一代模型这个能力就会是模型原生的能力了 , 然后你 agent 公司怎么办呢 ?
但是你说模型公司它会做得比 agent 公司快吗 ? 它也不会 , 对吧 ? 因为在模型能力没到 , 然后方向不清楚情况下, 肯定还是这些 agent 公司他们找到了场景 , 快速用工程方法让模型踮起了脚尖做到这件事情 。
所以我现在看不清这是一个什么样的生态 , 我感觉有共生但是又在互相杀伤的状态 。
是 。
是 。
所以你对现在比如要转行做 AI Infra 或者正在做 AI Infra 的人有没有什么建议 ?
我觉得建议就是靠近模型 , 靠近硬件 , 这个是做 AI Infra 和其他 Infra 最不一样的地方 , 希望还是打心底对这个东西感兴趣吧 , 然后有足够主观能动性去做各种各样的 code design,因为 AI Infra 它处在这个位置 , 它就是需要垂直的联合的优化才能做出好的功能 。其实我最喜欢的一段文章是那篇 Rich Sutton 的 《The Bitter Lesson》, 那 《The Bitter Lesson》 它当然是站在算法人角度来看这个问题 ,
它其实说的就是最终最能利用计算的方法 , 长远来说才是赢家 , 短期内做的各种各样的一些奇技淫巧吧 ,其实都不本质 。
这篇文章我也是非常希望能全文背诵的 , 就是我是从 Infra 角度来看的 , 我觉得 Infra 的指导意义也非常的重大 , 就是我们怎么样能把硬件的计算发挥出来 , 怎么样设计这个模型能最好的利用上计算 , 这件事情是最最本质的 。
当然我最希望的还是也许有朝一日我们还能影响硬件 ,因为这中间是几十年中间发生非常多事情 , 一个最典型的事情就是这个英伟达的 GPU 翻身了 , 把 X86 以前 Intel AMD 的 CPU 风头都抢了 。GPU 相对 CPU 它就是没有那么灵活 , 它就是做并行计算 , 那做并行计算做得特别强 , 它这本质是换来了摩尔定律的持续 。
如果对硬件有些了解的朋友应该知道可能不止 10 年了 ,CPU 的摩尔定律是大幅放缓了 , 英伟达 GPU 它的摩尔定律还在持续 , 大概每两年算力还在翻翻 , 那其实就和 Rich Sutton 这篇 《The Bitter Lesson》 说的一模一样 , 就是摩尔定律是一开始你觉得没什么的 ,但时间长了以后差距实在是太大 ,因为它指数上升的 , 你就看到英伟达算力是 CPU 的 10 倍 、100 倍 , 最后就会有
人说哎为什么这个 AI 也用英伟达 GPU, 元宇宙也用 , 区块链也用 ,因为你所有新应用想用大算力都得到它上面来 。
所以最重要的还是摩尔定律 , 然后怎么换取摩尔定律的持续 , 然后怎么设计模型和你的系统软件 , 使得你能够跟随着摩尔定律 , 把硬件的性能全部发挥出来 , 这个我觉得是对 Infra 团队也非常非常有指导意义的事情 。
好 , 那我们就感谢亦博今天时间 。
好 , 谢谢 。
谢谢
。
