嘉宾介绍0:00
There's something there.
我们今天很高兴请到了 " 光年之外 " 的产品负责人张涛 , 然后你的网名叫 Hidecloud。
对 ,Hidecloud。
对 , 这个名字比较出名一点 , 可能很多人是熟悉这个名字 。 你来简单介绍一下自己吧 。
OK,OK。 我之前呢 , 过去 10 年的从业经历呢 , 基本上就是从 C 端的互联网产品设计 , 转型到后面做了接近 5 年的 SaaS 行业 。
所以基本上是一个从 toC 到 toB 都搞过 。toB 的时候呢 , 就没有再做产品设计了 。 那个时候我在神策数据那边 , 我主要是负责整个公司的客户成功 、 售前和偏咨询业务这一块 。
就偏业务 。
对对对 , 偏业务导向的这样子的一个角色 。 然后呢 , 去年因为我觉得 AI 是我从业之后 ,因为我入行的时候是做那个塞班手机上的应用嘛 , 算是 Mobile 比较早的一代 。
然后我觉得基本上是我看到的从 Mobile 之后最大的一个行业变化的机会在 AI 这一波 。 所以去年毅然决然的就 all in AI 了 。
到现在差不多 7 个月吧 。
这 7 个月感受怎么样 ? 还是那个结论吗 ? 仍然觉得是塞班之后最大的机会 ?
我仍然觉得是 , 仍然觉得是 。
产品探索1:19
对 , 所以可能外部很多人都在关注 " 光年之外 ", 可能最近一段时间稍微少一点了 , 对吧 ? 就是光年之外最近到底在做些什么 ?
最近我们发布了一个面向儿童的绘画产品 , 叫嘟嘟波 。 你的小朋友他可以上来很方便的涂鸦 , 然后我们会把你的涂鸦给自动优化成一张相对来说比较精美的画面 。
这样子的话比较能激发小孩子的创造力和他的自信心 ,是吧 ? 他随便画点什么都能变得特别好 。
然后在这个事情上我们做了一些小的一些创新吧 , 比如说如果你去体验那个市面上已有的一些那种涂鸦增强产品 , 大部分都是需要你先写一个 prompt, 然后再去绘画 。
但你也知道对于我们的目标的市场 , 比如说 5 岁到 10 岁左右的小朋友 , 你让他在画之前就先去写一个 prompt, 这个是非常不现实 。
我们那个产品如果你去使用的时候 , 你会发现你就直接动笔画就行了 , 你不需要先去想你要画什么 。
所以目前在这种面向小孩子的绘画增强产品里面 , 我觉得做的还是不错的 。
就是你们是不断的试了很多产品 , 对吧 ?
调研了很多方向 , 然后也试了一些不同的一些产品方向 , 然后最后呢 , 就是决定先把这个产品先 deliver 出来 。
对 , 我记得我当时认识你的时候是看到你在神策写的一个那个招聘 。
哦 , 对对对 , 咱俩认识应该是那个时候 。
对对对 , 那个 JD 写的特别好 , 我就觉得靠这个人厉害 , 然后我就来加你 。 所以在我的印象当中, 你就比较擅长思考 , 然后把很多东西解构 ,而且是比较能够融会技术跟产品之间的关系的一个人。
所以我也挺好奇说这半年来你在 AI 这里面 ,因为你这半年算是 all in AI 了 , 试了很多东西 , 我们可以聊一聊说有对于这个技术产品有哪些思考 ,而且很多人现在在谈论说这个时代的产品经理到底应该长什么样子 。
可以可以 , 没问题 。
开源弹药库3:06
先从你这个 AI 的理解开始吧 , 就是实际做了半年, 你觉得跟你当时想象的区别都有哪些 ?
我自己有一个非常大的一个感受就是在于 , 我们一开始可能觉得是只有最顶尖的公司才能做模型 , 才能拥有最顶尖的模型能力 。
行业里面一直有种说法 , 就会说预约模型永远会领先开源模型 ,是吧 ? 但是呢 , 从我们自己的实践里面我们会看到 ,其实开源社区的整个的进展 , 最近半年是异常的夸张 。
我不知道大家反正有没有关注 ,因为我自己是就是天天看 paper, 天天去测 demo, 这过程中我是非常震惊的 。
就是你基本上每个星期都像过节一样 , 就像过春节一样 , 就是那个整个的那种学术界和那个产业界大家贡献出来的新的内容 , 贡献到开源社区的 ,而且绝大部分的能力 , 我觉得已经超过了我在半年之前对于我能够利用的能力的想象 。
当然哈 , 你永远可以说这不算什么 , 碧源的某某某公司他具备更强大的能力 ,但我觉得 so what? 我为什么一定要追求最强大的模型能力呢 ?
如果说在现有的开源社区多模态的领域已经有足够好用的能力的时候 , 我为什么一定要追求最高级的模型能力 ?
是 , 我感觉你讲就是说现在反正各种开源模型 , 各种算法先进的东西 ,其实是产品经理的一个弹药库的感觉 。
对对对 , 你可以这么理解 。
对 , 你可以把各种东西拿出来来用 。 有的人他有原子弹 ,但也无所谓 , 平时反正也用不上, 只要够用就好了 。
所以现在你的弹药库里大概都有哪些东西 ?
对 , 你比如说哈 , 我们先从大家可能最熟悉的语言模型开始 ,是吧 ? 大语言模型 LLM 来说起 。 那这个里面现在整个从开源社区角度上来看 , 比较主流的几个方向 , 一个是 No2, 对吧 ?
一个是那个 Mistral。 这两个基本上现在你会发现市场上大部分的 Fine-Tune 版本都是基于他们两个做的 。 你在它上面去做 Fine-Tune 也好 , 去做 LoRA 也好 ,其实它已经在满足很多的一些目标任务上是完全够用的 。
如果你的使用场景相对明确 , 你的整个 prompt engineering 你也做的相对来说比较好的话 ,其实你有很多的任务场景 , 你甚至都不用用那个最大的 Llama 2 或者 Mistral 版本 。
比如说像我自己经常在我的本机 , 我的 MacBook 上面 , 我就跑个 7B 的 Llama 2, 我有很多的本地任务我是完全可以解决的 。
这是一个方面 。 那比如说像那种视觉语言模型方面 ,也有非常多好用的 。 比如像我刚才提到的那个 LLaVA,是吧 ?
它是基于 LLaMA 的一个视觉语言模型 , 你用它去做一些那种图片描述 , 我觉得这个在半年之前 , 我觉得我们做 PM 的可能都很难想象 。
我们随便现在给它一张图 , 现在的视觉语言模型你能把它描述的 detail 到 , 就有时候我看它描述的那些细节 , 我说啊 , 我说这个图上还有这个细节 , 然后倒过去看 , 发现图上真的有这个细节 , 它已经能描述的非常详细了 。
然后呢 , 你说在那个图像方面 , 去年我觉得比较重要的两个工作就在 Stable Diffusion 那个生态里面 , 一个是 ControlNet, 一个是年底的时候 LCM 那个技术 。Latent Consistency Model 它核心解决的是效率的问题 。
就说以前啊 , 就你哪怕你就算有个 4090 的卡 , 你跑一张图的话 , 基本上也都是以秒计的 。 就是比如说至少跑个什么 10 秒钟 ,但是呢 , 你用了 LCM 之后, 直接就可以把这个时间压缩到毫秒级别 。
就它出图的时间变得异常的快了 , 对吧 ? 那这个东西在我们去年中旬的时候 , 比如说我们去想说 , 哎 , 我们有一些场景可能是跟这个图像的生成有关系 。
但是呢 , 你不得不面临一个很尴尬的一个事情 , 就是在于你大部分需要十几二十秒的延迟 , 这个其实对于交货上有比较大的阻碍 。
但谁能想到半年的时间 , 就已经完全可以做到毫秒级出图了 。 那这个时候的话 ,其实你在产品里面的想象空间就变大了很多 。
是 , 就是延迟低了很多 。
对对对 , 很多人觉得它好像只是一个速度上的提升 ,但我觉得不是 。 我觉得当你的时间从十秒这个级别变成毫秒级别之后, 它就是量变产生的质变 。
比如典型的像我们的就是那种绘图的场景 , 假如说你的每一次的这个生图延迟都是以几十秒计的时候 , 你很难想象你会去做一个绘图增强产品 ,因为你画一笔你要等几十秒才能看到反馈 。
也包括像文生视频 ,是吧 ? 像大家知道就是过年的时候最火的就是皮卡 , 对吧 ? 但实际上皮卡它所用到的大部分的这个模型能力 , 最新的开源能力其实都是具备的 。
当然你可能需要有一些界面上的包装 ,是吧 ? 模型之间的一些微调 。 所以你看就是最顶尖的这种商业产品 ,其实你在开源社区里面也能找到对应的技术 。
那声音就跟我们说了 ,是吧 ? 那最火的 11 Labs, 它的大部分的功能 ,不管是语音生成 、 那种情感情绪语气表达 、 声音克隆 , 那现在开源社区全部都有这个对应的方案 。
对 , 我觉得这几集里面 , 声音其实现在反而可能是最成熟的 ,但大家关注很少 。 我们如果比较一下来说明这个问题 , 就如果你们今天再做一个描压 , 会有什么样的变化 ?
哇 , 那变化太大了 。 你比如说当时还要那个大家排队几个小时生成个 LoRA, 现在的话你用像小红书的那种 Instagram ID 或者腾讯新的那个 Photo Maker, 首先你不需要输入多张图 , 你一张图而且实时的就可以出图 。
首先在交互上就有非常大的不同 ,而且因为你成本下降了嘛 , 对吧 ? 然后所以你整个的这个定价呀 , 各个方面我觉得区别都会比较大吧 。
对 ,但这个就是我下一个问题 。 既然已经有这么多武器了 , 对吧 ? 然后呢 , 像描压这样的事已经能更低成本的 、 更高质量的完成了 。
产品难产8:08
对对 。
那为什么过去半年里面 , 我们仍然没有看到什么类似描压这样的很快的活起来的东西 ?
对对对 , 这个也是非常有意思 。 我自己的一个感知呢 ,是这个样子 。 首先上个周末的时候 , 我做了一个 AI 的行业的一个分享吧 ,是吧 ?
其实你看哈 , 我们那个分享其实分享的对象已经是行业里面比较顶尖的一帮产品人, 我们大家都彼此认识了七八年、 上十年的时间 。
但是呢 , 大家会觉得我的那个分享很有价值 。 但说实话哈 , 我的那个分享其实只是 AI 的一些很基础的一些理念 。
我通过我的实践 , 通过我读大量的 paper, 我对于那个图像领域的一些认知 。 但即使是那样的东西 , 对于我们行业里面现在比较顶尖的同学来说 , 大家仍然会觉得是一个很崭新的认知 。
对 , 这里可以推一下你的公号 。
哦 , 对对对 , 大家如果想去看那个上周末的我的那个分享的话 , 可以去关注我的那个公众号 , 叫潜云思绪 , 潜水的潜 , 云朵的云 , 思考的思 , 绪就是那个思绪的那个绪 , 潜云思绪 。
对 , 我记得你大概一共讲了两个小时左右 。
对对对 。
前面一个多小时其实都是在科普技术相关的 。
对对 ,在科普那个 Stable Diffusion 整体的技术原理和它的整个的生态 , 然后后面那个就是讲说 AI 产品经理到底该怎么样子 , 我学 AI 应该是怎么说 。
对 ,但是呢 , 就是我延续刚刚那个话题啊 , 我觉得有一个非常大的一个点就在于 , 我发现绝大部分的我们行内的同学 , 我觉得大家是保持了一种兴奋 、 震惊 ,但是呢 , 真的去理解整个的工业界或者学术界的进展的从业者是少数 , 非常少数 。
就说这东西非常火 , 火了一年了 ,但是你看有多少人真的入行来搞 AI 了 , 这个人是很少的 。其次呢 , 就是说在没有入行的或者已经入行搞 AI 的人里面 ,有多少人去真的理解了每一个月的技术进展 , 新的那些模型的那个能力边界是什么 , 它的原理是什么 , 这个人就更少了 。
我觉得这一波它可能说不是说 , 就是我站在用户需求和商业的视角上, 我就能把产品做出来的情况 。
它是首先你要去理解新出来的模型能力边界是什么 。 我记得有一次我们跟那个百川的那个王耀川 , 我们交流的时候 , 老任总提过一个概念啊 , 就是他说我们上一代的产品经理 , 我们在解决的问题是 PMF,是 Product Market Fit, 对吧 ?
然后当时他说其实现在就还要先解决一个就是技术跟产品的 Fit。 我其实还是蛮 buy in 这个理论的 。
所以这也是导致你刚刚问的那个问题 , 为什么过去半年间没有出来那么多 ,是因为很多人都不知道进展是什么 。
对 , 这里面我想延展几个问题啊 。 第一个问题是 ,他们是没有去理解底层的这些技术 , 还是他们没有及时的读 paper 去理解最新的技术 ?
我觉得都有 。
是 , 这里还有个问题 , 就是为什么是在现在产品经理是一定需要读这些东西 ? 因为以前其实也有些技术进展 ,但可能这些东西就交给 CTO 什么的去解决就好了 。
对 , 我觉得主要是这个样子 , 就是说首先是现在的产品大部分还比较薄 。 我自己说就现在产品就是 Model as Product,也就是说这个 Model 本身的输入和输出基本决定了你整个产品的交互 。
我们不排除哈 , 未来 AI Native 的产品会做得越做越深 , 可能模型在里面的比例会越来越低 。 比如现在可能我说的这种 Model as Product, 它可能是模型的 90%, 然后呢 , 你自己产品的 System 是 10%,但未来比重可能会降到 60%、50%、30%。
那个时候的话 ,也许哈 , 团队里面可能会有一个偏中态的角色 , 就是说大家把需求提给他 ,他永远都能用 AI 模型解决问题 。
但是至少在当下来说 , 就是很多的模型能力本质上说就跟变戏法一样 , 就是它那个模型能力本身对于用户来说就已经很新鲜 、 很有价值的时候 , 那如果这个时候你作为产品 , 你不能去理解这个模型的能力边界的时候 , 你就很难去把它跟用户的需求连接起来 。
因为我见过这样的团队 , 尤其是在那个大厂里面这种团队比较常见 , 就是产品跟那个技术甚至跟模型分成三家了 , 产品是一家 , 模型是一家 , 工程又是另外一家 , 然后你就发现他们三个人就像在隔空对话 , 产品也不知道模型能干什么 , 只能大概提出一个需求想象 。
然后呢 , 技术同学有时候他可能也不是很清楚产品里面到底想满足什么用户需求 ,因为也没有提炼特别好 。
这个是不是反过来讲也可以解释说 , 为什么现在很多很好的产品是小团队做出来的 ?
你说的非常对 , 就是它的整个的这个开发的产研之间的配合范式是要非常紧密的 。 对对对 。
是 ,但同时就我理解从一个比例来讲 , 肯定有很多人是犯了你刚才说的这个问题 ,不管是从组织结构上也好 , 还是从他日常的学习习惯也好 ,但一定是还是有一小撮人是很优秀的 ,但最终他好像也没有 deliver 出来一个特别好的结果 。
那从实操上来讲 , 你没有看到其他的一些阻碍是什么 ?
我觉得还有一个阻碍的点就是在于说 , 毕竟现在的互联网已经不是 20 年前的互联网了 , 现在一个人不管是在效率方面的需求 , 还是说娱乐方面的需求 ,其实都更加的深度了 ,不是说单一刺激就可以的 。
那也就是说 , 你要去竞争的并不只是另外一个模型 , 你要去竞争的可能是抖音 ,是吧 ? 可能是 Office, 就是有非常庞大的一个体系 。
那我觉得说现在那种 Model as Product 它本身太浅了 , 它可能在解决用户的整个的这个需求上面解决的没有那么深 ,但是呢 , 我们现在也已经看到一些好的一些苗头 。
你比如说像那个 , 这算是我两个老的前同事做的产品 , 一个是那个 Answer.ai,他们在美国那边做那种你知道教育那方面 , 它是有非常高的粘性的 。
那包括像我以前在神策的另外一个老同事 ,他们现在做那个 AIPPT, 你会发现那些产品的粘性都比较好 ,但如果你去细究它的产品 ,其实你会发现说它就不是单纯的 Model as Product, 对吧 ?
它上面有很多其他的设计了 。
对 , 我觉得现在情况就比较极端 , 一种的产品是说 90% 的 Model,10% 的一些产品的功能 , 这种大家就觉得很薄 , 然后呢 , 它更多的可能很多时候是个玩法 , 然后可能突然火一下, 然后就没有什么消息了 。
另外, 你刚才举的那些例子 , 尤其 AIPPT 我们也很熟 , 我觉得它典型是反过来的 , 它 90% 其实是互联网产品的那些东西 , 可能只有 10% 是用到的 AI, 就是都比较两极化 ,但大家现在期待的可能是比较偏中间的那种 , 就是一半的模型 , 一半的产品 , 然后这样呢 , 又有一些神奇的能力 , 又不会觉得太薄 。
但是我个人哈 , 我可能不是特别喜欢在这种事情上去下定义 ,因为我觉得从历史上来看哈 , 就是一个开发形态或者是说产品的工作方式 , 它其实是由行业演进出来的 , 它不是由规划出来的 。
端到端分离14:19
就不是说我们说最好是一半一半 , 它可能就是被市场教育 , 被用户牵引着 , 最后变成一个情况 ,但是很难说我们现在说什么都是最好的 。
对 ,但这里涉及到的问题是什么呢 ? 就是首先我想先问你一下, 你的未来大模型的产品到底是不是端到端分离的 ?
端到端分离是 , 就是这公司需不需要一定有自己的模型 , 然后一定要自己要训模型 。
明白 , 我在这看到我最近已经有些相对成型的一些想法了 。 我自己会觉得说 , 我并不认为现在所有做应用的团队啊 ,他一定要就是从零开始去 pre-train 一个模型 ,但是呢 , 我认为未来的做这块的团队一定要具备操纵模型的能力 。
什么叫操纵模型啊 ? 就是说你能根据业务的需求去用不同的数据去重新引导这个模型 ,不管是通过 Fine-Tune 的模式 ,LoRA 这种训练模式 , 还是说做模型的裁剪 、 蒸馏各个方面 , 就你要具备这个能力 ,但是你不需要具备从零开始去 pre-train 模型的能力 。
对 。
是 , 对 , 然后回到刚才那个问题 , 我在想就是如果模型占比高的话 , 那就是训模型能力强的人, 可能就会有更好的一个产品的表现 。
所以现在那几个大模型拿这么多钱 , 对吧 ? 如果真的是模型重要的话 ,他随便招几个人, 对吧 ? 然后做个什么产品矩阵 , 就很多现在也是在这么在做的 , 对吧 ?
那这种就能行 。 然后如果是另外一种情况 , 就模型其实是占比小的的话 , 那就是传统的大企业加 AI 是更有效的 。
就现在目前我们实际看到就这些情况 , 对吧 ? 一条线是传统的大公司加 AI, 另外一条线呢 , 就是大家在赌模型 , 然后模型里面再去做一些应用 。其实这两条线现在是大家看起来是比较 buy in 的 ,在中间创业公司做产品到底能做成什么样子 ,以及说它最后是不是能像移动互联网一样 , 所有的东西都被重做一遍 , 这可能就是当下大家不那么确定的
, 或者还没有看到的一个事情 。
对 。
你觉得呢 ? 你相信未来这些东西能重做一遍吗 ?
我自己觉得这样的 , 就是你看移动互联网那个时候 ,是吧 ? 大家一开始非常容易想到的就是 , 我去做一个移动的 Google, 我去做一个移动的淘宝 ,是不是 ?
但最后你会发现 , 真正的移动的 Google、 移动的淘宝 , 都是他们自己做出来的 ,并没有为另外一个起代 。 但真的起来的东西都是像抖音 ,是吧 ?
像小红书 , 这都是在 PC 时代没有的东西 , 对不对 ? 所以说我觉得 AI 这个东西就是说 ,不一定什么东西都要重新做一遍 , 可能它有很多的使用场景是随着 AI 模型本身的渗透率增加了之后 ,因为渗透率增加 , 然后大家涌现出来的新的需求 ,是完全以前都没有出现过的需求 。
是 , 那你们在试的过程当中有发现一丝丝苗头吗 ?
我觉得很难说 , 就是如果你要让我自己去 bet 的话 , 我长线来看 , 长线我指的是说可能两三年这样的时间 , 我还是会很看好 CAI 类似的这种情感陪伴啊 , 这种角色陪伴这样子的场景 , 我还是非常看好这个场景 。
情感陪伴17:13
原因是什么 ?
原因是因为我自己在做一些相关的实验的时候 , 我意识到了一件事情 , 就是我以前从理论上我知道 ,但是呢 , 这个事实摆在我面前还是非常震惊我的事情 , 就是人类的情感太容易被 hack 了 , 你知道吗 ?
就太容易被 hack 了 。 就以前我们看一些这种经典的心理学的一些实验啊 , 什么东西的时候 , 你看的时候你觉得不可思议 , 觉得人怎么那么容易就被控制了 ,是吧 ?
或那么容易就被一些东西调动情绪 。 我们当时做了一些简单的实验 , 比如 GPT-4V 那个模型 , 就它的四学语言模型刚出来的时候 , 它不是就可以去识别图像了吗 ?
对不对 ? 所以我当时呢 , 我做了一个很简单的一个 demo, 它就是说那个会读你手机上最近的几张照片 , 然后呢 ,因为它可以理解照片里面的内容嘛 , 它就把它那个理解的照片内容输出出来 , 作为一个图片描述 , 然后呢 , 把那个文字呢 , 就输给我另外的一些用 GPT 做的那种 agent,而且 agent 就是一些各种人设 。
那一开始的时候 , 我设定的人设都是我的朋友 , 或者说我的粉丝 , 然后他们就看到这个图片之后呢 , 就会像朋友在朋友圈里面评价我了呀 , 给我的图片留言 , 你知道吧 ?
然后后来呢 , 我觉得光是夸我也没意思 , 我又写了两个那种黑我的 , 故意来讽刺嘲讽你 , 然后又写了两个就是会根据这个黑子黑的内容来帮我辩驳的那种人。
你想整个这个过程 , 这个想法是我的想法 , 然后呢 , 所有的那些 agent 的人设是我写的 , 整个这个 pipeline 是我搭的 , 我是一个全知全能的上帝视角 。
理论上来说 , 我对于它输出的内容应该是心里有预期的 , 对吧 ? 我不应该被它打动 。 但是我跟你讲 ,在我第一次运行那个 workflow 的时候 , 我看到那些人在我的内容下面讨论 , 黑我 ,有人维护我的时候 , 我的内心是被 , 真的就是被扯动了 , 你知道吗 ?
我当时那一下我就突然觉得 , 我觉得人类情感太容易被 hack 了 。 我作为一个全知全能的上帝视角 , 我都无法避免会被这样的文字所影响我的情绪 。
那你可以想象 , 如果是一个普通的用户 ,是吧 ? 他没法知道这背后的原理 , 甚至他可能觉得这是真人, 甚至他知道这不是真人 ,但是人非常容易对一个东西产生情感的依赖 。
所以说我觉得从一些很 fundamental, 就是很基础的这些东西里面 , 我非常相信未来的基于 AI 的这种对人的陪伴 , 它一定是一个非常大的机会 ,因为它能解决的是人的这个情感方面的问题 。
这是一个非常底层的一个共通的需求 。
对 , 就我也在想 , 像你刚才举那个例子 , 你做的那个其实你还涉及到一些 workflow 的东西 , 对吧 ? 刚才那个图片识别 , 再怎么对话之类的 ,但现在我们能看到产品很多其实还不如这个 。
对对对 。
像那个你可能你几天就把它搞出来了 。
那个就是一天的时间就搞出来了 。
对 ,但我就在想 , 你看现在市面上所有做的类似 CI 的东西 , 它其实就很简单 , 就是只对话 , 偶尔最后它里面可能加一个图片之类的生成的东西 ,但那个复杂度其实很低 。
你理解我在讲什么 , 就是它其实是哪怕以现在的技术和能力 ,也能往里加很多东西进去的 。
对对对 ,其实是有这些这种产品的 , 可能就是体量比较大的产品可能没这么去做 , 它可能是出于我猜想啊 , 比如说成本 ,是吧 ?
或者各个方面的考虑 。 但是你说的那种加复杂体系 , 比如说我见过那种加数字系统的 , 加视频的 , 加语音多模态的 , 我也都见过 。
可能很大的一个原因就是成本问题 , 然后也没有特别跑起来 。
是是是 。
所以你们在做的过程当中, 这几个月里面 , 你核心遇到的几个问题 , 或者踩过的几个坑是什么 ?
一个就是说刚刚提到的 ,其实成本还是一个蛮大的问题 。 我们以前做互联网创业的时候 , 就做到最近几年, 工程上面的开销几乎在整个成本当中可以忽略不计了 , 对不对 ?
但是 AI 产品不一样 。
对 , 这是不是最大的一个区别 ? 因为我们也聊一些团队 , 就我觉得大家总在好奇说为什么看不到产品 , 我觉得可能这个就是一个原因 , 就他们也做出来 demo 了 ,他们不敢放 , 放出来可能马上就烧光了 。
对对对 , 所以说我做 AI 产品就 day one 就得做 self-fix。
今天的成本跟半年前或者一年前比 , 大概整体下降多少 ?
下降是非常多 , 一方面是本身各家模型 , 它出现了各种新的加速推理的方法 , 从 infrastructure 上有加速 , 从模型本身也有加速 , 从工程上也有新的那种降低成本的方法出现 。
所以这三项叠加其实是加降了很多 , 再加上那个市面上卡的供应 ,是吧 ? 云的 hosting 也多起来 , 所以还是有下降的 。
大概是个什么量级 ?
我觉得如果是图像领域的话 , 相比半年前降 10 倍是有的 。
但仍然不够 。
我觉得仍然不够 ,因为虽然说你那个成本在降 ,但是需求是在增加的 。 比如说可能半年前聊十句出一张图 , 你就满足了 ,但我现在希望做的体验是说 , 你一边聊天 , 你旁边有个动态的图像一直在动那种 , 那你的生成要求也变高了嘛 。
是 。
对 。
所以可能就还是基础设施还不够完善 。 我觉得你刚才讲的很有道理 , 就是大家在比的其实不只是 AI 的进展 , 大家在比的是拿抖音啊 , 什么拿上一代移动互联网那些东西在比 。
对啊对啊对啊 。
包括 Albert 之前他提过一个点 , 就是他觉得他做了半天那个游戏 , 用 AI 做 , 最后他觉得说大家为什么不去玩王者荣耀 。
对对对 , 我下午就是刚跟 Albert 聊完 。
哦哦哦 。
对 , 我刚跟他聊完过来 。
对对对 。 是 , 这确实是会有这个问题 ,因为用户不会管你那些东西的 ,他不会说我支持 AI 还怎么样的 。
对 , 你简单说就是说 , 比如说抖音如果是 100 分 ,是吧 ? 那我们现在 10 个 AI 产品在竞争 , 最低分 30 分 , 最高分 50 分 , 你竞争过了所有人 ,但你也竞争不过抖音 。
对 ,但这里面你的三五十分里面 ,有没有哪个点是虽然整体的体验可能是 30 分 ,但是我就是为了这个点 , 这个点可能某一个维度上它达到了 100 分 , 我就为了它而来 。
有没有可能是这么一个东西 , 比如说它就是一个 AI 对话的一个这种体验 , 一个 aha moment 这样的东西 。
对 , 这个对于某些人群来说是成立的 。 对 , 你比如像我一直在去 track 那个 CAI 的付费率 , 然后你会发现它有一个非常稳定的一个人群 。
我目前 track 了半年的数据吧 ,他们那个人群的续费率有 94%, 很恐怖了 。 因为它是按月订阅嘛 , 你知道 , 对 , 半年下来它整个那个人群 94%, 它的人群是非常稳定的 。
但是核心的问题就在于 , 那个人群的规模可能有限 , 它很难破圈 。 对 , 所以说你要说找一个更通用的点 , 那我不得不说行业现在还没有找到 。
但是对于某些具体的人群来说 , 我觉得 AI 产品已经有了不可替代的价值 。
对 , 我们讲完了 , 所以刚才提的成本是一个主要的问题 ,其他还有 ?
其他的我觉得就是实际的模型能力进展 , 我觉得再给半年的时间应该差不多了 。 就是我们提到的那个像语言模型 , 我自己觉得如果是基于现在的这些需求来看 , 语言模型现在就已经完全 OK 了 , 只不过就是在用语言模型的方式方法上, 大家可能需要开阔一下思路 , 比如说不一定是单语言模型的 , 可能是不同的任务可以拆到一些不同等级的模型上面
,有一些你要用一些更高级的 ,有些你可能用一些非常小的一些模型就可以解决 。 而且有时候同一个 query 过来 , 可能是多模型的一个配合参与 , 那语言模型我觉得基本上不是障碍了 , 视觉语言模型也不是障碍 , 可能更多还是在多模态那边那一块吧 。
那些东西因为它是最刺激人的这个感官的嘛 , 对吧 ? 那些东西可能还需要三到六个月的时间成熟 , 然后到时候的话 , 可能也能再涌现出一些产品出来 。
所以按你的这个预期的话 , 今年我们是能看到一些产品 。
我觉得就应该能跑出一些产品了 。
你现在因为你跟很多同行也交流嘛 , 你觉得你是偏乐观的还是 ?
我是短期偏谨慎吧 , 中长期乐观的人。
对对对 , 那你谨慎的这个已经挺乐观的了 , 那我们今年可以好好预期一下这个结果 。
我自己还是比较有信心 , 我觉得今年不管是 toB 还是 toC 领域里面 , 应该会有一些现象级的产品应该会出来了 。
新嗨点24:47
那挺好的 。 所以你现在在做的这个东西 , 大概做了多久 ? 从开始到上线 。
也就两三个星期吧 。
OK。
对 , 很快的 。
所以其实是挺快的 , 就是像我们刚才讲 , 如果你特别理解模型和技术的边界的话 , 你要做个产品其实是挺快的 。
很快很快很快 。
那这里面你类似于这样的产品 , 它给用户的那个点 , 到底是什么点 ?
这个我觉得是一个比较有意思的 , 可以聊一下的点 。 就是我们早期的时候因为做涂鸦增强嘛 ,是吧 ?
我们肯定就觉得说涂鸦本身是 aha moment, 对吧 ? 但是呢 , 我们当时其实这是工程师的 idea,他想了一个点子 ,他说除了那个画画 , 然后那边出一个图之外 ,他说是不是也应该支持把它生成的那个图直接拖过来 , 然后我基于那个生成图继续进行创作 。
OK。
当时呢 ,他是想的是基于生成图做二次创作 ,他是这样子的一个思路 ,他自己就把那功能给做了 。 但那功能实际做了之后呢 , 我们发现了一些新的 high 点 , 我们发现就是你把生成的图一拖过来 , 它基于生成的图又生成一张新的 , 然后你把那个生成的图又拖过来 , 又生成了新的 。
也就是说全程我没有画 , 我只是在不断的把它的生成图 。
自迭代了 。
自迭代了 , 然后你会发现那个画越变越美 , 越变越美 。 就是比如说细节越变越多 , 然后那个纹理越变越好 , 那过程特别 high,以至于有时候你玩十几下, 你知道吧 ?
然后那个时候我突然就意识到一个事情 , 就是在于说我们怎么去理解 prompt 这件事情 。 我们可能以前大家觉得对于那种大模型应用想的都是说人给它一个 prompt, 这个 prompt 可以是文字 ,也可以是图像的输入 , 对吧 ?
但是呢 , 这个输入是不是一定要来自于用户自己 , 我觉得是不一定的 。 对 , 像我自己去年七八月份的时候 , 看了身边很多产品之后, 我自己当时有个判断 , 我说我很难想象两三年之后有一款大规模流行的 AI 的先端产品 , 它的主流的使用场景是用户拿着手机 , 然后一直在那打字 。
对对对 。
你很难想象 ,因为打字是一个非常消耗人的精力的一个事情 。 对 , 成本太高了 。 所以我当时在想说 , 我说我一定要做那种低 prompt 或者是零 prompt 的那种类型的产品 。其实你看像我刚刚给你描述那个场景里面 , 就是你把一个图拖过去生成下一个图 , 这个其实就是一个几乎是零 prompt 的过程 ,但是它给你带来的那个娱乐体验 ,其实是非常有意思的 。
对 , 我觉得你刚才讲的场景是特别产品经理的一个点 。 因为你其实理论说 , 你可以从技术上做到它不用拖 , 它自己就不断的去生成 。
对 , 这个技术上真的太简单了 , 自动迭代十轮 。
对对对 。
但是你去看那个过程 , 哇 , 太有意思了 。 因为我们那个产品是这样的 , 就是它每一个 step, 我们是把它保存下来的 , 它是个 stack, 然后呢 , 你可以不断的撤销 、 引进 。
然后我刚才跟你讲 , 就是比如说你一直拖一直拖 , 生成了十几次之后, 你就去点那个撤销 , 一直看上一步上一步 , 再前进 , 看下那个过程 , 我们自己都能玩的很 high, 你知道吗 ?
对 , 那这个感觉你们可以 ,因为如果团队里面已经玩的很 high 了 。
对对对 , 我们当时觉得我们说这个点太 high 了 。
是 , 对 , 后面有可能就是大家会发现各种各样的这种类型的东西 , 然后它就变成一个一些产品的范式 。
这个里面有两个 , 一个就是说那个在交互这个事情上 ,其实有时候有一些那种人机互动的那种交互机会 ,是藏在那个代码里面的 。
我觉得就是像曲凯刚刚你总结的点就特别好 ,也就是在工程上其实非常好实现 , 自动迭代十轮就行了 , 对不对 ?
但是呢 , 我们发现当人参与进那个过程中, 并且你看到那个过程 , 那个过程本身具备消费价值 ,而不是那个最终那张图 , 那个过程有消费价值 。
但这个东西其实就需要工程跟产品有非常紧密的结合 , 你理解那个整个的运作原理 、 运作过程 , 你才知道哪一个部分其实是中间过程是可以抽离出来的 , 人是可以有个适当的方式可以参与进去的 。
我觉得这是首先是一个点 , 还有另外一个点就是在于说 AIGC, 你只去看它那个 G 那一部分 , 就是 generate 那一部分 , 生成那个部分 。
你现在大部分的产品所有的魅力都来自于生成这个动作本身 。 你像我刚刚给你描述那个场景 , 就是我说我拖拖拖 , 然后我看整个那个过程怎么从一个草稿变成一个非常精美的画的过程 , 我觉得有意思 , 我身边的同事们都觉得有意思 。
对于我来说是生成 ,但对于我身边的同事来说 ,他欣赏的其实是那个内容本身 , 对不对 ?
是 。
所以当时我就很敏感的意识到 ,其实 AIGC 除了 G 部分有价值 , 它 generate 出来的那个 C 那个 content 内容本身 ,其实也是具备消费价值的 。
只不过就是说我们怎么样子用一个合适的形式 , 让用户能够去消费这个东西 ,不管是消费它最终的产物 , 还是消费这个过程 。
所以说我当时有一些灵感就在于说 , 可能 AIGC 的那种消费场景 ,不一定非要围绕着每一个人都要来 G,有可能是少部分的人 G,而绝大部分是在消费它的 C。
不是都要来生成的 。
对对对 , 就大部分人应该是来消费的 。 我觉得这个是当时对我启发比较大的一个点 。
对 , 你刚才讲两个合起来 , 就是一个是说大多数人可能是来消费 , 另外一个就是它消费的不一定是结果 , 消费可能是就是过程本身 。
过程本身 。
经常给你提一个例子 , 就是我在抖音里会刷到说 , 就有一句话 prompt, 然后生成一张图 , 然后再接一句 prompt。
就是那个很火的那个范式 。
对对对 , 比如一个火车站里面充满了人。
哈德 ,mall 什么 。
对对对 , 这个东西其实大家消费的是这个过程 , 或者说这个东西本身 , 如果你把那些 prompt 提出来 , 去把那些图留在那 ,其实没有什么意思 。
对对对 。
大家消费的就是说这个过程 , 你是怎么样去做这些事的 , 这里面的巧思是什么 , 对吧 ?
就是这个意思 。
对 , 比如说沿着你刚才讲的 , 我临时想到了 , 比如我把一张图分成九块 , 对吧 ? 然后你说你写一个 prompt, 然后出一张图 , 然后你把一张图摆在其中的九块一个位置上, 对吧 ?
最后你写九句话拼成一张图 , 对吧 ? 类似这样的 , 它有点像解谜拼图的一个过程 , 反而是好玩的 。
对对对 , 就是它里面这个生成过程 , 我觉得还是有很多值得挖掘的点 。
是是是 , 这个挺有意思的 。 还有什么类似的例子吗 ? 有没有什么大概总结点 , 就是一般实操当中遇到的问题是什么 ?
我觉得首先就是 AI 产品现在它本身相对来说其实没有破圈 , 它还是一个即使是在普通用户里面 ,也是一个先锋用户才会去用的东西 。
PM 画像30:34
所以说呢 , 你需要非常重视运营和渠道 。 我为什么会专门说这个点 ,其实主要是因为我觉得去年行业里面有个特征 , 你会发现有很多的这个 AI 创业团队 , 这个研究员创业 ,是吧 ?
就可能那个 CEO 是一个做研究的 , 融了一笔钱 。 很多时候呢 , 就对于产品的认知可能还停留在说 , 我就是把我的这个模型能力包装出一个界面 , 让人用就行了 。
但是他可能不习惯的是说 , 任何产品其实都还是需要推广和运营 。
所以就是它一上来说 , 反而从运营推广上, 从商业化设计上来讲是难的 , 要求是更高的 。
对对对 , 就并不因为你是 AI 产品 , 你就天生高人一等 , 好像别人就要追着你来用 。
从这个角度来讲 , 那说新的时代的 AI, 至少现在的一个组织结构 ,是不是应该是有很多商业化跟运营的人, 然后呢 , 底下的产品就分成小组 , 类似于那种 hack zone 的感觉 , 几个人一组 , 几个人一组 , 然后就不断的出产品 , 这种形式会是一个比较好的 。
我之前没有特别去想过 ,但你刚刚这么一说了之后, 我觉得好像就是这种组织形式应该去试一试 。 对对对 , 结合我们前面聊到来说 , 如果说单个产品的生成成本这么低的话 ,是吧 ?
我很快能搭一个出来 , 然后如果我有一个很好的市场渠道运营团队 , 能够快速的把它 deliver 出去 , 那这样子整个这个试错的过程其实账号比较好 ,是吧 ?
这倒确实是 。
对 ,但这里面我之前跟 Albert 聊过这个问题 ,他就提说他觉得核心问题是那个没有这么多好的 AI 产品经理可以支持说你搞好几个小组 。
有可能 。
五个都不错的 。
这个是 。
我不得不说 , 就是整个这个行业已经火热了一年了 ,但是真的就是躬身入局的人, 或者是说愿意拿自己业余时间去学习的人, 就还是很少数 。
包括我们在招聘上也会遇到这样的问题 。
那你们现在招大概喜欢招什么样的人 ? 就包括很多其他公司也遇到这个问题嘛 , 对吧 ? 到底 AI 产品经理该怎么招 ?
我现在也没法说我喜欢招什么 ,因为样本太少了 , 所以就聊到一个 , 聊到合适的我觉得就还 OK 吧 。
对对对 , 肯定我觉得现阶段 , 就是首先你要对这个事情有热情嘛 , 对吧 ? 就是首先跟你聊到一些常见的 AI 产品你要用过 ,是吧 ?
你有一些它怎么去改变你的这个工作 、 学习 、 生活的一些点 ,是吧 ? 你自己的一些感知 , 对吧 ?
这一部分其实跟上一代产品经理是有点像的 。
对 ,但是这点要求面试过程中我发现都很难达到 , 真的 。
对 , 你之前面试很 typical 的 , 就是问说你觉得你微信哪几个点做的不好 ,是吧 ? 现在可能你大家也可以问说你觉得 ChatGPT 哪几个点产品上做的不好 。
对对对 , 你体验产品 , 然后你如果你真的是深度的用这个产品 , 你一定会有很多的小技巧 , 对不对 ?
你像我们用 Perplexity, 用 ChatGPT,不管是在 prompt engineering 还是说在提问的形式上, 各个方面上 ,其实我们是有很多日常技巧的 。
但你现在去面试的时候 , 你会发现大家其实整个体验深度还是非常浅的 。 就我们平时可能自己这几个人聊的很火热 ,但我觉得整个行业的跟进速度远远低于预期 。
对 , 我觉得大家可能停留在理论和一些 。
我觉得都不是理论 , 我觉得停留在那个 。
想象 。
想象 , 对对对 , 就是大家对这东西的更多是想象 。
OK。
如果大家能开始去关注理论 , 我都已经很开心了 。
我说的理论不是那个 paper 的理论 , 对 ,但是停留在商业讨论的那个理论上 。
对对对 , 所以我有时候我不是很喜欢参与 , 就包括有些群 , 我一般我都不喜欢参与一些那种特别形而上的一些讨论 , 我觉得没有意义 。
是 。
对 。
你现在自己用的最多的产品是什么 ?
我自己的话 , 语言模型这边的话 , 国内用的最多应该是 Kimi Chat,因为它长的 context window 非常有价值 。 国外的话可能就 ChatGPT4 这个就不说了嘛 , 对吧 ?
然后语言模型我自己就确实是以 ChatGPT 为主力 ,但是我老婆她非常喜欢用 Claude, 她跟我不一样 。
所以你们晚上在家一个打开 GPT, 一个打开 Claude。
对对对 。
你们是个 AI 原生家庭 。
是是是 , 然后那个文生图的话 , 上次我也刚做了分享 , 你也看得出来 , 我日常文生图 、 文生视频基本上都是基于 Stable Diffusion 这个生态的 。
新时代的 AI 产品经理 , 它跟技术到底该怎么合作 ?
我觉得这是一个非常有趣的话题 , 就是我们在做这种文生图领域的时候 ,其实在摸索那个配合模式当中, 我们就发现了一个非常有趣的新的一个范式 , 就产研配合的一个新范式 。
我不知道你知不知道 , 就是在 Stable Diffusion 那个生态里面 ,有两个非常出名的 Web UI,有一个叫那个 Automatic 1111, 就是大部分的那个外面那些培训课上面 ,他们会卖给你的那种东西 , 还有一个就是 ComfyUI。
那因为我们的自定义需求比较高 , 所以说我主要在用 ComfyUI 在工作 。 那 ComfyUI 呢 , 你可以简单把它理解成就是它是一个由大量的节点 Node 组成的一个 workflow, 所以说呢 , 你只要根据你的需求把这个 workflow 搭建出来 , 那么它有固定的 input, 这个 input 可以是一段文字 ,也可以是一张图 , 然后它会输出一个 output, 这个 output 通常是一张图 。
那这个时候呢 , 就是你通过这个 ComfyUI 做好的这个 workflow,其实你是可以把它直接变成一个 API 给导出去的 。 那你看看 , 这个就跟以前的开发方式有非常大的不同 。
以前开发方式是产品经理先大致梳理出自己的业务流程和想要的一个效果 , 你想要的是效果 , 然后这个时候你可能需要跟模型算法 、 跟工程师去沟通 , 对不对 ?
然后呢 , 大家研究出来说你要的这个效果在工程上应该先这样 , 再那样 , 再那样 , 最后输出一个图给你 。
那 PM 其实只管到这个地方为止 , 对吧 ? 但是呢 , 这个时候在现代来说就会非常困难 ,因为首先技术本身更新太快太新了 ,其次呢 , 就是说那个模型在整个的那个生产过程当中, 它有很多的参数细节要调整 , 才可以得到最终你想要那个效果 。
如果说还是以前那种沟通模式 , 那就可能就出现说产品表达自己的东西 , 然后呢 , 研发那边可能想方设法可以实现出来 , 然后你一看不对 , 然后大家又去改 , 这个之间 back and forth 的这个沟通就拉锯就太长了 。
但你看我们现在就我自己改 Comfy, 我天天在那这个效果不好 , 改个参数再跑 , 这个反馈基本上是实时的反馈 。
可能有很多我们以前产品经理在做一些那种偏后端的业务逻辑功能的时候 ,以前都依赖于后端公司去实现的东西 ,有可能现在就是通过这样搭一个 workflow, 搭一个 pipeline 就解决了 。
那么产研之间的配合 , 它其实就是会有一些变化 。 对对对 , 我觉得这是个很有趣的例子 。
后面会变成什么样的你感觉 ?
一个是确实有很多的我们以前产品经理之所以要依赖工程师去做 ,是因为有很多业务逻辑 , 产品经理说的是自然语言 ,他必须得通过某种代码语言去实现 。
那么现在看起来呢 , 至少通过某些工具 , 可以把自然语言直接变成一种 workflow 的形式 。其次就是说你未来借助语言模型 , 可能本来就能把你的自然语言变成业务逻辑的一些抽象表达 。
它可能是一些可视化的那种 pipeline,也可能是直接就变成另外一种标记型语言 ,是吧 ? 去解决这个问题 。 那么也就是说以后的话 , 可能一些业务逻辑的一些部分是完全是由 PM 或运营这边 ,他们可能自己就定了 。
那工程那边呢 , 它更多的关注的是怎么做并发 ,是不是怎么做 QPS, 做性能 , 怎么样子去做扩展这方面的事情 。
就是后端会变得更后端 , 前端变更前端 , 然后中间的核心逻辑其实很多是产品经理来解决掉的 。
对对对 。
但你自己不是技术背景嘛 。
我不是技术背景 , 我一直做产品出身的 。
对 , 所以你试起来你觉得就是现在也有人在讲说下一代一定是懂技术的产品才好 。
我觉得是阶段性机会吧 ,因为现在这个行业本来太早期了 。 我觉得如果你有一些技术视野 , 视野 ,不是说你要搞技术 , 肯定会更有助于你高效的去理解新的模型形态 、 新的模型能力边界 , 对吧 ?
但是呢 , 这不是一个必须的前提 。 比如像上周我讲了一个课 ,其实听课的很多的一些同学 ,他们没有技术背景 ,但是他们听完我那个分享之后, 仍然表示就是原来是这么一个道理 , 我也理解 。
你看其实他也能理解 , 只不过就大家以前没想到过自己是可以读得懂 paper 的 , 大家抗拒这件事情 。
而且为什么我说是个阶段性机会呢 ,是因为在这个过程 , 就是在这两年的时间里面 ,因为不懂原理和懂原理之间实在差太多了 , 很多 best practice 还没有变成常识 , 比别人先理解它 , 那么你就有优势 。
但也许过两三年之后, 就所有这种东西都变成常识了 , 你不需要懂技术 , 你也懂这些常识的时候 , 那产品经理我觉得也不一定非得懂技术 。
对 , 我觉得是阶段性机会 。
冷思考推荐38:44
那篇分享上有没有哪几个核心的点是能给大家再总结一下 ?
前面那个关于 SD 的那个原理的那个部分 , 我觉得大家可以自己去看那个课程的 。
对 , 那个挺好的 。
对 , 后半部分呢 , 就是我们在讲说 , 就是我在学习 AI 的这半年里面 , 我觉得作为一个产品经理应该怎么样去学 AI, 我大概总结了三个方面 。
第一个其实不是学习的方法 ,而更多是一个感悟了 , 你应该也看过那个 , 就是你更多的去理解原理之后 ,其实你对于产品形态上的认知会有不一样的想法 。
比如说这个分享里面其实我有提到一个点 , 就是当你把 Stable Diffusion 的底层原理理解了之后 ,其实你会发现它是从一个完全随机的一个噪音里面 , 然后通过不断的降噪的过程提取出一个有信息意义的 , 就是它的随机噪点是没有信息的 , 然后变成一个有信息有价值的一个图像 。
假设说我们有一个 XY 轴的一个平面空间 , 代表了全世界所有的概念 , 它就是从这个里面取了一个点 , 把那个点给你还原成了一个图像 。
那所以当时我在那个课程分享里面 , 我就有提到一个点说 , 我们以前做推荐的时候 , 就是不断的刻画一个用户的一个画像 ,但是呢 ,其实刻画用户画像这件事情我们已经做得很极端了 。
现在各个大厂 , 甚至不需要大厂 , 你是个普通公司 , 你在刻画用户画像这件事情 , 只要你有足够的数据 ,其实我们都能把用户刻画得足够准了 。
但现在最麻烦的事情不是用户画像这件事情 ,而是你在一个确定的向量空间里面 , 比如一个 XY 轴一个平面空间里面 , 你说这个用户的喜好就是这么一个圈 , 这个圈里面圈住的就是这个用户的喜好 。
但是当你拿着这个圈去公司的内容库里面匹配的时候 , 你可能发现虽然我刻画得非常精准 ,但并没有适合他的内容推荐给他 。
因为相比起这个用户的画像刻画来说 , 内容那边的供给是非常稀疏的 , 它是散布在各种各样的地方 。
所以说以前的推荐 , 它其实并不是说真的精准的 ,是你喜欢什么就推荐什么 ,而是说你喜欢什么 ,但我有一个内容可能靠近你的喜欢 。
那么首先这个不太精准 ,其次呢 , 它的供给有限 ,是吧 ? 这一个是最靠近的 , 下一个就越靠越远 , 后面就越靠越远了 。
但如果你理解了 Stable Diffusion 的底层原理的时候 , 你再回来想这件事情 , 那么我们未来就可以做到什么呢 ?
就不是说拿库里面的内容推荐 ,而是先描绘出来你喜欢什么 , 然后在你喜欢的那个空间里面 ,因为一个空间是可以无限展开的 , 对不对 ?
那个展开里面的每一个微小的点 , 它背后所代表的一张图像 、 一个视频 、 一篇文字 、 一个音频 , 都可能是你喜欢的东西 。
而那个东西不需要现在任务库里面准备 ,是不是 ? 也就是说我只要能描绘出来一个人的喜好 , 我就能给他提供近乎于一个人一辈子能消耗的无限的内容供给 。
当你这么去思考推荐系统之后, 你整个想法就不一样了嘛 。 但是如果说你不理解很多技术底层原理 , 你是没有办法这样重新去思考搜索呀 、 推荐呀 , 就是我们上一代做的这些东西到底应该怎么样子重新去思考它的 。
这个是一个非常重要的点 , 就是为什么你要去理解原理 , 对不对 ? 然后呢 , 另外也是就是你越是去了解这个原理之后, 你不管是在自己去构建产品 , 还是说去帮助那个身边的那个做创意 、 做设计的同学缓解焦虑 ,也是有帮助的 。其实我越懂这个里面的原理 , 包括越自己做这个行业之后, 我越觉得创造的价值被前所未有的提高了 。
怎么说这个意思呢 ? 就是说 , 如果你足够去理解 , 你就会发现现有的这个生成的这个整个这个方式 , 它其实还是大量的依赖于现有的数据的输入 。
它不断的在贴近靠拢的也都是你现有的数据 。 它所谓的创作其实是来自于对你现有的可能两个数据的一个组合 ,是不是 ?
比如说我可能那个用一个什么素描的风格画了一个 ,但我希望它最后输出梵高的风格 ,但其实它也只是说素描跟梵高的风格中间的一个结合的一个点 ,但是它真的是靠近这两个点的 。
我们在二维空间上去看的时候 , 你觉得好像两个点之间靠近一个点 , 就已经把这个空间压得很紧密了 ,但事实上它们存在着一个更高维的空间 。
这种两个空间点中间的那个点 ,并不会把这个空间变得更紧密 , 还是很稀疏的 。 那么在这个庞大的多维空间里面 , 还存在着非常多的空白和未知 ,而那些东西是 AI 很难去想象去决定出来的 。
而那个部分就是人类的创意所在 , 对吧 ? 就是说一个电影 , 画面怎么切 , 怎么配色彩 , 镜头怎么转移 , 这些东西全都是创意所在 。
但是呢 , 真的觉得危险的是什么 ? 危险的是那种在已有的创作基础上做重复劳动的 。 我去复刻一张画 , 我照着一个风格再来一个 , 这个确实会很快的被替代 。
但是真正的创作 , 真正的在我说的那个人类的所有的概念空间里面 , 去带领我们去探索出那种未知的点 , 会不断的被 value, 就是一定会越来越有价值 。
是 , 我有个文章 ,他们统计说 AI 出来以后所有的那个工作的 JD 的变化 , 然后他发现其实反而招设计师的工作变多了 ,因为他发现就是还是需要设计师去生图 。
如何学 AI43:26
对 , 这个一块是我的一些感想 。 然后呢 , 后面就是我觉得产品经理应该怎么学 AI。 我当时分享了两个点 , 一个点是说我说一定要坚持读 paper, 就读 paper 非常的重要 。
原因就是因为 , 比如说我当时总结 Stable Diffusion 的那个发展历史 ,其实你整个看起来也就是从 20 年开始的 。
那整个这三年的时间 , 它的整个信息量是有限的 , 基本上就是那八九篇经典的 paper, 你读完串在一起 , 整个原理你就了解了 。
可能再过个五年、 十年, 当很多事情都变成常识了之后, 你懂和不懂区别不大 。 但是在当下来说 , 你通过读 paper 给你带的那个信息增值 , 那个 delta 的部分非常的大 ,因为大部分人是 0, 你都已经不是 1 了 , 你可能是 2、3 了 。
那这个时候的话 , 你整个的信息差就会非常的充足 。 那么这个时候在帮助你做判断的时候 , 就会很有帮助 。
对 , 我今天还正好想一个点 , 就关于信息差的 , 就总有人说别人靠信息差赚钱 , 靠信息差干这个 , 靠信息差干那个 ,但我后来想说 , 这个信息差其实就是在那摆着的信息 ,但是大多数人他就是自己不去看 。
对 , 非常 open。
对 , 最近有一篇文章 , 它还蛮火的 , 它是说把那个 Sam Altman 所有的访谈看了一遍 , 然后写了一篇文章 , 对吧 ?
其实好多大家日常在讨论的答案 ,Sam Altman 之前自己本来就讲过了 ,但大家就是没有去看 。
对 ,因为我自己是有些信息洁癖的 , 就我不是特别喜欢看那种二次咀嚼的东西 , 只要是能有原文 , 能有这个信息发生的地方东西 , 我尽量都去看那个地方 ,因为它是最原始的思考 , 没有经过二次咀嚼 。
但具体实操上, 读 paper 到底该去哪找 , 看那些比较新的或者比较好的 paper,paper 其实也很多嘛 。
这个其实还是比较容易的 , 你可以关注几个 Twitter 上的大号 , 比如说 AI 刚刚离职的那个 AK,Andrej Karpathy, 我也就是 follow 了一些号 , 然后他们推一些 paper, 我就去看一下 。其实很简单 , 你要把自己泡在那个语境里面 , 然后你看到有兴趣的时候就读 。
我就一天基本要读两三篇左右 。
你读是精读吗 ? 还是 ?
我会把论文分成两个部分 , 一个是我认为是那种范式型的创新 , 另一种就是属于雕花 。 雕花的我一般就快读 , 就是找它那两点 , 就是它到底在雕什么花 , 它到底通过什么方法提升了几个点 , 我就读那个部分 。
但是一些范式型创新我都是会细读 。
OK。
对 , 就读 paper 现在有个非常好的好处 , 就是它真的能够帮助你在产品设计和技术改造上能带来直接的收益 。
对 , 你能不能给大家具体举个例子 ?
我分享里面那个就是他讲那个去年底的时候那个 StreamDiffusion, 就那个 UCB 那边和日本京都大学那边他们做的一个工作 。他那个工作最牛逼的地方就在于说 ,他在一张 4090 上面用 SD Stable Diffusion 跑出了每秒 100 多帧的生成效果 , 就非常难想象 。
你就想就是上半年的时候 ,4090 还要跑个 10 秒钟 , 现在居然一秒钟可以跑 100 多帧 , 这个已经是一个千倍的这个速度进化了 。
我当时看到的我就很震惊 。 你想想 , 如果你是通过很多的公众号去了解这个项目的话 , 可能公众号就会告诉你说什么直播已死 。
但是你去看他那个 , 人家那个 paper 的时候 , 人家那个标题写得巨清楚无比 ,StreamDiffusion 冒号 Pipeline-Level Solution, 就是去优化这个速度 。
人家说它是一个 Pipeline-Level 的一个优化 。 那如果说你有一些基本的对 Stable Diffusion 的一些了解 , 你就知道它整个 Stable Diffusion 其实不是一个单一模型 , 它是一个框架 , 它里面其实是有几个非常关键的模块 , 像做那个文本控制的 clip, 做 VAE 的 encode output, 好像 Diffusion model 本身 。
那它整个这个过程 , 这个从头到尾这个叫 pipeline,也就是说它这个 StreamDiffusion 这个方案并不是说提出了一种新的模型方法去加快它的生成 ,而是说它在整个这个 pipeline 的过程中去优化 。
那我就有东西可看了 。 为什么 ? 因为我自己也在做这个生图的类型的产品 , 对不对 ? 那我虽然没有能力去改模型 , 去练模型 ,但我优化下这个 pipeline, 这个是一个我们传统工程领域上的一个问题 , 对不对 ?
我就去细读了一些论文 , 然后他提了就是六七个不同的优化点 , 就这里可以优化 , 那里可以优化 。 我一看我说 , 哇靠 , 这个部分我们可以用 , 那部分我们可以用 。
所以你看其实它没有那么神秘的 ,而且你去细读 , 你发现它里面很多优化点 , 主要部分是在模型的算法上, 我可能需要去请教一下人才看得懂 ,但它很多优化点都是我们传统做互联网上一代产品的时候的一些工程优化技巧 , 怎么做扩展 , 怎么用空间换时间 , 内存换速度 , 非常有意思 。
是 ,OK。
最后一个就是在现在这个阶段 , 我一定推荐大家就是要自己上手 。 不管是说你说你完全不会写代码 , 那么像那个国外的什么 Vercel、Hugging Face 这些上面都有无数的可以直接免费试用的 demo,而大部分的现在的那些 paper,他们在发出来的时候通常也会配一个 demo, 那个 demo 可能跑在自己的服务器上, 可能就是在 Hugging Face 上, 对吧 ?
你都是免费的 , 你 GPU 都不需要你花钱租 , 人家帮你租好了 , 你就去体验体验 。 我觉得这个体验是非常重要的 。
体验的话通常有几种 , 一种就是在本机上跑 , 你要么就是你 Windows 机有个 Nvidia 显卡 , 要么你在 Mac 上面 , 比如你只要是 M 系列的芯片 , 然后有个那个 32G 的内存 , 基本上很多的模型你在本地都跑得起来 。
你比如说像大语言模型的 7B 的 13B 的版本 , 做那个 8 位量化之后 ,在我的那个 M2 的那个 32G 的内存上跑起来是完全没问题的 。
英伟达好像前两周也出了一个那个 。
对 , 所以说呢 , 你基本上你在本地上可以运行很多模型去找感觉 , 然后呢 , 那个在网上的新的模型 , 你就去他们的那些 Hugging Face 或者他们官方的那个 Project Page, 它可能是连到一个 Google 的 Notebook 里面 , 你就去点点点吧 , 你去体验一下 。
我觉得这种实际的动手体验是非常重要的一个部分 , 就是找感觉的一个部分 。 因为你可能去看别人的一些讲解 , 或者是看一些公众号文章 , 你其实自己是没有那种很实际的体感的 。
比如说当时我在分享里面我提到一个点 , 就是说我说我第一次在本地把大语言模型跑起来的时候 , 跑起来的那一下我感觉完全不一样的感受 , 就是你看到自己的这个电脑开始吐字的时候 , 那种感受 。
就是 Hello World 的那种 。
非常震撼的 。 当你看到你自己的电脑 , 你日常跟它用了那么多年了 , 你对它的能力边界认知 , 一直认为它是一些 , 就我们干的那些事情的时候 , 它突然开始这样子吐字的时候 , 如果你是个产品人 ,其实会刺激你 , 会产生非常多的新的想象空间 。
还有一个动手的方面 , 就是你稍微具备一点点的代码能力 ,不是说要你从头写一个项目 , 你至少会 GitHub clone 一个项目下来 , 会简单的去装装环境跑一跑 ,是吧 ?
那我就特别推荐就是直接去跑 demo, 或者直接在上面去 build 一些自己的一些小实验 , 去满足一些你自己的想法 , 或者是跟你们现有的项目做一些简单的融合 。
这个过程中你才能够 get 到说 ,其实一个模型并没有想象中运行起来那么简单的 , 它中间有很多的环节 ,不管是数据 、 参数这些东西 , 这个里面的每一个问题的解决 ,有时候都是有潜在的产品机会的 。
比如说有时候我在配有些模型的时候 , 我就突然就发现 , 哎呀 , 这个模型出来的结果好有趣啊 ,但是呢 , 普通用户根本用不了 ,因为它中间的那个数据预处理环节 , 比如说你现在做声音克隆 ,是吧 ?
你说一段一分钟的话 , 让我来克隆 ,不是直接就克隆的 , 你那一分钟我要做很多的预处理 , 大概有七八步 , 普通用户根本搞不定 。
但是你要想啊 , 普通用户搞不定这不就机会吗 , 对不对 ? 我如果能够帮他把这个数据预处理环节整个给做了 , 训练过程给他搞定 , 直接给他 deliver 最后一个效果 , 这是不是也是一个机会 ?
但如果说你不自己去体验这个东西 , 首先你感受不到那个最后结果出来的奇妙的那一刻 ,其次你不知道现在要做的那个效果中间到底还有哪些障碍 。
那这个时候你去多体验 demo, 多 build,其实它培养的是你的整个的认知 ,以及说你去思考这个里面在工程上产品上还有哪些机会 。
因为这个行业太早期了 , 你做点小小的微小的工作 , 它都能给你带来非常大的回报 ,ROI 很高的 。
是 ,Twitter 上其实偶尔有一些外国人发的一些有意思的小产品 , 我记得印象很深刻 ,他们之前发了一个说你跟电脑另一端的对话 , 然后你去猜对面到底是大模型还是一个真人 ,其实这样东西是挺好玩的 。
信心更足51:11
我就在想 , 如果真有这样东西 , 我应该会去玩的 ,但国内一直也没有人做类似的这样的点 。
或者说就特别简单吧 , 你要去体验一下, 你去自己写个 GPTS, 这种简单的话都不需要写代码 , 对吧 ? 但是说实话就是真的 , 你说我们平时练 PM, 我就问一下你有没有创建过自己的 GPTS, 可能 10 个中我能刷掉 9 个 , 大家还是不太愿意动手 , 就喜欢看别人输出一些 ,但你自己一动手 , 那个信息量比你看 10 篇文章都大 。
但你 10 年前招产品经理的时候是类似的情况吗 ? 有什么区别吗 ?
10 年前的 14 年 。
最早的时候吧 。
14 年, 最早最早我还轮不到我招呢 , 都是别人招我 ,是吧 ? 所以我们回到 10 年前比较合适 ,14 年 。
我自己有个感知 , 当然这可能会有些 stereotype,但是就是说 , 我觉得最近聊的一些应届的同学或年轻同学 , 就是大家在方法论和视野上都比较高 。
你这个情商高的说法 , 换句话说就不接地气 ,是吧 ?
就是感觉就很像是投研报告 , 你懂我意思吧 ? 就是他分析行业起来都头头是道 ,但是呢 。
都是听我们播客的 。
你要问他具体的产品细节 、 用户需求 、 市场的感觉 , 我觉得就会差一些吧 。 我觉得还是因为行业更成熟了 , 行业更成熟了 。
是 , 我刚才在想 ,其实最早的时候 , 当然我也没参加过 ,但我知道最早的时候其实张亮他们搞那个 Apple for us 嘛 。
对 , 我还给他们写过文章 。
是吧 ? 你还经历过那段 , 我觉得是不是现在更像那个时候 , 就是很少的一撮人。
对 , 对 , 对 。
讨论这个东西 。
我自己经常有这种感受 , 就是天天泡在这个环境里面 , 觉得世界已经翻天覆地了 , 结果呢 ,有时候稍微一出来 , 就发现世界还在原地踏步 , 就是那种感觉 。
就自己在里面觉得 AI 一日人间千年, 但是你真的出来交流的时候 , 你发现好像就大部分人就还是停在原地 。
我觉得因为大多数人是他要等着看实际产品 。
对 。
但从你看 paper 和你实际做的角度来讲 , 你仍然是这个感觉 。
太恐怖了 , 真的太恐怖了 。 就是每天起来都出一篇新 paper 的那种压力 , 你在想天哪 , 你说这些人是什么时候做的这个工作 , 为什么每天都有新工作出来 。
今天也很夸张 , 我今天早上读了两篇很有价值的了 , 结果刚刚就开车来你这边之前 , 我又看到一篇新的 , 我就想说能不能谢谢你们 。
你最近看到的一个比较有意思的是什么 ?
如果说这两天的话 , 我比较有意思的是有一篇那个上个星期华为那个诺亚方舟实验室 ,他们发那个 PIXART-Σ 的那个模型 ,因为你今年年初 Sora 出来之后嘛 , 大家突然发现说其实 Diffusion Transformer 看上去是一个更 promising 的未来 ,是吧 ?
是 。
对 , 所以说其实那个整个在那个 Diffusion model 这个领域里面 , 大家都在做多探索 。 那我觉得那个 PIXART-Σ 的那个模型 , 它在 Diffusion Transformer 方面的一些探索 , 就有一些非常新颖的点 。
就你看 paper 看多少次你都知道 , 就是哪些工作是那种细节雕花 , 哪些工作是整体前进 。 对 , 它那个 paper 给我的感觉整体就是整体前进 , 我在里面看到了非常多的一些亮点 。
所以说我现在看 paper 就看到一篇文章有一个亮点 , 我觉得 OK。 如果看到有很多亮点 , 我又觉得非常爽 ,有那种精神上的爽感 。
这个已经无法跟你聊这个了 , 已经跟不上了 。
主要是就是看 paper 它有一些入门槛的压力 , 就在于说你至少比如说在一个领域里面 , 你整个的那个脉络上的那八九篇你得先读完 , 你才有基本的这个了解去说为什么这篇论文会让你感到兴奋 。
是 , 最后一个问题 , 今天的你跟去年四五月或者六七月的时候 , 你觉得核心的区别和变化是什么 ?
这任何方面都可以 。
我觉得可能首先就是对于基础的原理理解吧 。 我自己现在对于很多事情怎么能做不能做 ,以及怎么做 , 包括我今天中午还跟一个行业里面一个大佬刚聊完 , 然后他来问我一些他们那个 AI 产品该怎么样子弄 , 我就发现他现在跟我讲的那些问题 , 我基本上都知道背后的原因是什么 ,也能够告诉他该怎么怎么样子去解决 。
我回到去年我就很难想象 , 对 , 这个一方面跟自己学习有关 , 另外一方面跟整个行业本身的进步有关 ,因为慢慢有一些 best practice 出来了 , 就这个问题就该这么解 。
这是一个方面 。 另外一个方面的话 , 我觉得就是信心吧 。 我觉得去年还是抱着一种信仰之跃的感觉 , 就是纵身一跃 ,但我现在就是信心更足 。
就我觉得这个确实没有看错 , 真的就是我当时做移动互联网之后, 十几年来最大的第二次机会 。
可以 。
对 , 我信心更足 。 对 。
太好了 , 太好了 。 好 , 那今天差不多这样 。
OK,OK,OK。
感谢 , 感谢
。
