开场0:00
There's something there.
我们今天很开心请到了胡渊鸣 ,他是 MIT 的图形学的博士 , 过去 10 多年应该说一直是在做图形学相关的事情 , 然后最近刚发了一个 AI 生成 3D 的产品 , 叫 Meshy。他也是 Meshy.AI 的创始人, 渊鸣跟大家打个招呼 。
嗨 , 大家好 , 我是渊鸣 , 很高兴今天能和大家一起交流分享 ,也感谢曲凯老师的邀请 。
对 , 我们今天其实最主要请渊鸣来 , 就是想聊一下整个的图形学 , 包括 AI 生成图片 、 视频 、3D 这一整套的一个大的逻辑跟发展的脉络 。
然后尤其是 AI 生成 3D 这块 ,是渊鸣现在比较核心在做的这么一个事情 , 所以我们可能会深入地聊一下 AI 生成 3D 这件事 。
然后你最早其实是在国内读的本科 ,是吧 , 就是学技术 ?
对 , 我是 2013 年到 2017 年是在清华的姚班学计算机 , 然后本科毕业以后就到了波士顿的麻省理工学院开始读博士 。
然后读博士也比较顺利吧 , 四年不到 , 三年半左右就博士毕业了 。
那是非常非常快 。
对 ,是挺快的 。 然后毕业以后两年半的时间 , 一直就是做图形软件这方面的产品和创业方面的工作 。
所以我觉得我可能比较有意思的经历就是学术界和创业界这两边的事情我都知道一些 。
你本科其实就是在做图形学的吗 ?
对 。
到底什么是图形学 ?
图形学概述1:43
其实大家最早对图形学的理解就是真实感渲染 。 什么意思呢 ? 我给你一些 3D 的数据 , 你给我把它渲染成一部电影 , 越真实越好 。
但是这一部分的内容 , 坦率来说到可能 2000 年左右 , 再往后大家就发现这块能做的本质上的突破 , 它就越来越少了 。
那大家逐渐的兴趣就是到很多很多其他的地方 , 比如说我现在能渲染得比较好了 , 那我怎么样把仿真这些东西能够做得更好 。
比如说我现在要炸一个楼 , 我不炸了 , 我不继续实拍炸这个楼了 , 我现在变成我用一些数理方程来描述它 。
然后这个热潮也持续了一段时间 , 然后后来到了 2012、2013 年的时候 , 那个时候 Alex Ledge 这样的工作出来了 , 然后大家对 AI 的关注度也逐渐上去了 。
图形方面的东西和 AI 结合的就越来越紧密 。 所以我觉得图形学它可能不是一个具体的技术 , 它是一个由很多的应用去催生 、 演化出来的一个学科 。
我能不能理解图形学就是还是大家在试图怎么样用技术更好地去把控或者去修改对外的一个图形的输出的感觉 ?
对 , 我觉得可以这么理解 ,因为始终不管是现在显示屏还是以后的 VR, 你都是要输出成视觉的东西给大家能看到 , 对吧 ?
所以图形学很多的东西就是在研究我如何去更好地合成这样的数字内容 。
OK, 所以它就必然会分成硬件跟软件两部分 。
对 , 这个非常对 。 然后软件就是包括你讲的渲染和模拟仿真等等 , 可能更多的算法层面的 。 然后另外一部分就是硬件 , 那就是比如说显卡这一部分 。
对 , 我顺便想问一下, 游戏里的其实历史上那种各代的游戏引擎 , 它本质上也是图形学吗 ?
对 ,其实实时渲染是图形学里面特别重要的一个内容 。 你要做好的实时渲染 , 基本上都要用到游戏引擎 。
典型的比如说像 Unity、 像 Unreal Engine, 这些都是用来做实时渲染的一个游戏引擎 。
我觉得我们是不是能快速地把这个概念给大家讲一下 ? 我觉得大多数人可能大家经常听到 CPU、GPU,也经常听到渲染 、 仿真这些东西 , 或者也经常听到各种引擎 , 到底它们是干嘛的 ?
对 , 我觉得就一个目的吧 , 就这个目的 , 就是给大家合成一个更加真实的 、 更加沉浸感的数字世界 , 通常是 3D 的 。
图形学做了很多的研究都是在朝着这个方向 、 这个目标去努力 。 那么你刚才提到的几个概念 ,有这种硬件 , 对吧 , 比如说 CPU 和 GPU。
那么 GPU 之所以会诞生 ,其实是因为它比 CPU 有更大的吞吐量 , 更容易去做渲染 、 仿真这方面的一些事情 。
但是最后发展到 AI 变成了 GPU 上面的一个很重要的一个 workload, 硬件方面大概是这样 。 然后软件方面 ,其实有很多的大家用到的创作软件 , 这里面其实包括用于影视行业的一些创作软件 , 主要这些都是离线图形学了 ,offline computer graphics。
它做的事情就是我把这个东西给渲染好 , 比如说我就渲染出来是一个 MKV 或者 MP4 格式的一个文件 , 你就可以去固定地播放 , 它是没有交互属性的 。
那这类软件就包括很多的传统意义上来说 , 像 3D Max、Maya、Blender、Houdini, 这类一般叫做 DCC 软件 , 主要是影视 、 广告这种行业的应用 。
然后再到后面 ,有一些它们的功能也变得更加的能够被实时应用 , 比如说 Houdini 里面很多的这个程序化建模的功能 ,其实在游戏引擎里面也可以用上 。
另一类软件就是这个游戏引擎了 。 游戏引擎它的特点是什么 ? 它是可交互的 。 因为它可交互 , 所以带来了很多的新的挑战 , 比如说你渲染得是实时, 比如说我举个例子 , 影视里面的一些场景 , 你是可以直接把它全部加载到内存里面的 。
但是游戏又不能这么干 。 游戏它的特别是一些开放世界的游戏 , 它的这个整个的地图 , 它的场景是非常非常大的 。
你很难说我把整个场景全部加载到你的机器里面去 。在这种情况下, 就会使得游戏引擎它作为实时图形渲染的里面一个重要的角色 , 它要去做的挑战就非常多 。
比如说你可能离线 , 你有一个小时渲染一张图 ,但是你实时有 16 毫秒的时间渲染一张图 , 这中间就是千倍万倍的一个计算能力的差异 。
所以解决这两个问题是你的条件 、 你的产出的要求是不一样的 。 所以软件其实分为离线的软件和实时的软件 。
还有一类的可能就是算法了 。 那算法往往比如说 NeRF, 比如说这个光线追踪 , 比如说这个刚才提到的高斯散射这样的算法 , 它永远是在不断地去迭代的 。
那它当然是可以运行在 CPU 上 ,也可以运行在 GPU 上, 可以用于离线 ,也可以用于实时 ,但是不同的算法它会有不同的要求 。
所以算法 、 软件 、 硬件 , 当然还有一块可能是它的商业生态 。 这四个我觉得它中间的关系可能是一个相互耦合的关系 , 把它完全分开 。
但这些年你觉得整体图形学的进展更多的是硬件驱动还是软件或者算法驱动 ?
很好的问题 。 我只能说它是相互的 。 就是硬件和软件它的发展永远是处于一个这种相互迭代的状态 。
我们就举这个 GPU 诞生这个例子吧 。 当你有了 GPU 以后, 大家突然发现能渲染的东西变多了 。 我以前可能渲染 5 个三角形 , 我现在能渲染 500 个了 ,5000 个 、5 万个 , 对吧 ?
我就可以有新的软件和算法去利用好这个硬件给我提供的这样的资源 , 去把这个东西给它渲染出来 。
那么当你的算法需求逐渐变高了以后, 那硬件它可能说 :" 哎呀 , 我现在不行 , 我只能渲染 5 万个三角形 。"
但是我的软件里面要求我能渲染 500 万个 , 那怎么办呢 ? 它只能不断优化这个硬件 。在摩尔定律的不断推动下, 它硬件可能是越来越厉害 、 越来越猛的 。
那么有了这些硬件的更新以后, 那算法又会去想 :" 哎 ,是不是我可以做点什么别的 , 整点花活 ?" 因为大众对于游戏的画面的需求 , 它其实是不断地去抬高的 。
由于你需求不断地提高了 , 那它的硬件和软件总会去不断地迭代 。 所以你可以认为它是一个这个左脚踩右脚 , 一步一步爬得越来越高这样的一个状态 。
渲染与管线8:17
是 。 我们刚才其实提了一堆渲染 , 所以能不能再简单解释一下什么是渲染 ?
对 , 渲染其实是一个很经典的任务 。 它做的事情就是你的场景里面有一些 3D 的模型 , 那你现在想把它渲染成一张有真实感的 2D 的图像 ,其实它就是在做这个事 。
这个事有什么难的呢 ? 因为你在现实世界中, 你这个光线会在这个场景中不断地弹射 。 比如说当你去打开一盏灯的时候 ,并不是只有这个灯照到的地方它会变亮 , 你是整个房间都变亮了 。
为什么呢 ? 因为这个灯发出来的光子 , 它照亮这个物体以后, 这光子它会继续地在整个空间里面去传播 , 所以这带来了巨大的计算量 。
那么这就带来了很多渲染算法方面的研究 , 比如说光线追踪 , 比如说光渲染画 , 它们所做的事情都是希望在尽可能少的硬件资源前提之下, 我把这个场景渲染得更加符合人类的视觉系统 。
所以渲染其实最直接的就是光 ?
对 , 最直接的就是光线的传播 。 当然光线传播这个是非常复杂的一个问题 ,因为光线它如果遇到物体表面的时候 , 它会根据这个不同表面的属性 。
大家可能在以前学过表面有这个镜面反射和慢反射 , 对吧 ? 但实际情况可能比这个更复杂一些 。 它可能有一些很多材质 , 它是介于镜面和慢反射之间的 , 甚至有透明的材质 , 甚至有些材质它会有一些花纹和纹理 , 比如说咱们房间里面这些大理石 、 这些木板 , 它其实是特别复杂的一个问题 。
当你去越来越精确地去建模这种光线传播的方式了以后, 那你就可以越来越精确地去还原整个数字世界它呈现在你的观众眼前的样子 。
对 , 我好像大概摸到那个门路 。 就本质上来讲 , 肉眼看到的就是一张图 , 对吧 ? 这张图里面有无数的像素点 , 然后其实光最后它呈现出来的也就是当时那个像素点位的那个效果 , 对吧 ?
什么颜色 、 什么样一个形态 , 然后最终人眼把这整个图片吸收以后, 它在脑子当中形成了实际的一个类似仿真的结果 。
对 , 你可以认为渲染这个事情就是在做光线传输的仿真 。
是 。 但我好奇的一个点就是你看我们说渲染 、 说图片 、 说图形学 ,但好像很少提到图片本身 , 对吧 ?
都是在讲视频 、 讲 3D, 这个是为什么 ? 就比如我一键修图算不算在做渲染 ?
一键修图不算做渲染 。
那这个区别是什么呢 ? 我也可以改它的观影效果 。
对 , 很好的问题 。 你如果只是一个 2D 的问题 , 那它一般大家不会认为它是做渲染 。
OK。
渲染和其他东西的原则就是 , 渲染它一定是有 3D 的数据的 , 把 3D 转化成 2D, 这个过程在图形学里面一般叫做渲染 , 或者英文叫 rendering。
如果你狭义意义上面说图形学领域里面的 rendering 这个事情的话 , 那它其实就是指把 3D 以物理真实或者风格化的方式变成 2D 的这种静帧 , 或者说渲染成视频也可以 。
那我不能问 , 视频跟 3D 之间到底是一个什么样的关系呢 ? 你就这么讲 。
对 , 这也是特别本质的一个问题 。 这个问题其实很大 , 我们要不把它聚焦在 AI 生成视频和 AI 生成 3D 上面 , 这样可能更具体一些 。
视频和 3D 它最直接的一个关系可能是大家会觉得 , 如果说我能生成一个绕这个物体转一圈的视频 , 我是不是就可以通过这样的所谓的一个环绕视频 , 把这个物体给用 3D 重建的方法给它重建出来 。
这个是为什么会有人觉得如果 AI 生成视频能解决了 , 那么 AI 生成 3D 也能解决 。 很多学术界的朋友 , 还有也有一些在创业的人 ,他会这样去想 。
我自己的观点 , 就一家之言 , 我感觉这样其实有点绕路了 。其实你有一条更好的路线 , 去直接从通过 AI 去学习 2D 和 3D 数据 , 你可以直接不用这个 AI 生成视频的方法去生成 3D 的模型 。
那具体到视频和 3D 它们俩有什么区别呢 ? 我觉得可能比较让人头疼的事情是 3D 它的表达的格式和视频比起来更加的复杂 。
比如说 3D 你表达一个 3D 物体 , 它有很多种表达的方式 , 你可以用神经辐射场 , 用 NeRF, 可以用 point cloud, 用这种点云 。
3D数据表达12:36
点云是什么呢 ? 就是空间中一个一个点 , 那你可以用很多点把这个 3D 物体给表达出来 , 就像你可以用很多像素把 2D 的图像给表达出来一样 。
你还可以用体素 , 体素就是 3D 版的像素 。 我不知道大家有没有玩过 Minecraft, 它其实就是一个方块一个方块 , 你可以把这个物体给堆出来 。
但我能不能理解体素是一个更大的点云的感觉 ?
体素和点云唯一的区别就是体素它是规则分布的 。 你就想象体素是什么呢 ? 就是你有一块豆腐 , 你要把这个豆腐给它切成一块一块的豆腐丁 , 你会怎么做 ?
横切 100 刀 , 竖切 100 刀 , 然后再水平的切 100 刀 , 对吧 ? 那你这样就得到了 100×100×100,100 万个小的豆腐丁 , 那它是非常规则的一种表示方式 。
体素有什么好处呢 ? 它对计算机体系结构是非常的合适的 ,因为计算机体系结构特别喜欢这种横平竖直的东西 ,并且它和神经网络也是非常适应的 。
因为你在去做 2D 的这种神经网络的时候 , 你的图像就是 2D 的这种栅格 , 横多少行多少列 , 对吧 ?
所以你基本上可以把 2D 的这些神经网络的组织无缝地给它切换成 3D, 无非就是加一维嘛 , 只不过计算量可能会大一些 。
这个是体素的表达 。
就有点像素风的那种 。
对对对 , 它是规则的 , 点云它是不规则的 。
所以点云应该更高级嘛 ,因为点云可以做出来体素嘛 , 如果这么讲的话 。
理论上是这样的 , 它可能确实是更通用的 ,但是它也失去了体素由于体素的这种规则排列的性质带来的很多的好处 。
然后 NeRF 你刚才其实提了一下, 大家其实今年经常讲 NeRF 这个词嘛 。 所以 NeRF 你就跟点云跟体素其实是平行的是吧 ?
NeRF 全名叫做 Neural Radiance Field, 中文名叫做神经辐射场 。 它做的是什么事呢 ? 它是用一个神经网络去表示这个场景里面的每一个点 , 从不同角度观察时候它的样子 。
因为这个场景里面每一个点它都有自己的不同角度看上去的样子 ,但是这个数据是很大的 , 你需要一个东西去压缩它 。
神经网络恰好就很适合做这个事 。 所以这是为什么神经辐射场是大家现在经常研究的一个东西 。 和神经辐射场很相关的一个东西叫做高斯散射 。
大家一般会把它认为是 NeRF 的一个替代品 , 或者说有些情况下是一个升级的版本 。其实高斯散射它就和神经网络没有任何关系了 , 它就是用一堆在空间中的点 , 然后每一个点有自己的 , 应该你可以认为它有一定程度的方向性和大小 。
所以它就也可以像神经辐射场一样表示一个场景的 3D 的信息 。 点云其实和高斯散射也有一些关系 ,其实你可以认为高斯散射是一种点云 ,但是一般来说点云它的数据的表示的形式 , 它就是一些独立的点 。
大家也比较少在一个点云上面直接去优化这个点云 , 让它能够去还原整个场景 。 一般点云就是通过一些算法直接给吐出来 , 直接作为算法输出给输出出来的 。
但是高斯散射有一个优点是你可以不断地去微调它 ,不断去调整它 , 去在上面做优化 。 但其实在实时图形领域 ,real time graphics, 比如说你玩游戏的时候 , 大家最常用的是三角网格 。
什么是三角网格呢 ? 就是我用一堆三角形把你的模型给表示出来 。 那么在传统的渲染管线里面 , 大家一般是以三角形为单位去进行渲染的 。
这个三角形可能会非常非常的小 , 非常的细微 , 然后光有三角形还不够 , 一般来说大家还会有表面的贴图 , 贴图就决定了它表面看起来的样子 。
比如说我送你一个圣诞礼盒 , 那它的三角网格可能就是假设它是一个完全的立方体 , 那它立方体有 6 个面 , 对吧 ?
但是每个面它是一个正方形 , 怎么办 ? 我每个面给它斜切一刀 , 就变成两个三角形 。 所以我其实可以用 12 个三角形去表达一个立方体 。
我现在突然有个想法 , 我觉得你们搞这个的应该几何学 , 什么线性代数都要学得非常好 。
你说得非常对 , 太准了 。
我线性代数好像考到 60 分 。
其实线性代数是图形学里面最最关键的一个基础 , 要用到的科学 。 这样 。 当然没说完 , 就是这个三角网格可以表达它的几何 , 然后它表面的这个花纹是用纹理贴图去实现的 。
明白 。 但刚才有个没讲就是 Mesh, 你们肯定是用 Mesh 嘛 ,是吧 ? 你们叫 Meshy.AI 嘛 。
对 ,Mesh 就是三角网格 。 但是 Mesh 它除了三角网格以外, 还可以是四边形网格 , 还可以是五边形网格 。 这个是非常复杂的 。
比如说你问一个动画师 ,他肯定说我要四边形网格 ,因为四边形网格他做动画的时候比较方便 。 对于建模的人来说 , 四边形的网格他会觉得这个拓扑结构会更好 , 更容易他进行编辑 。
但我听起来就三角形可以拼成四边形 , 可以拼成五边形嘛 。
对 , 你也很容易把四边形转成三角形 。 但是你把 ,但是问题就变成 , 当你把一个四边形网格把它变成三角形网格的时候 , 再对它进行编辑 , 再去做动画就会更难一些 ,因为它失去了原有的一些几何的信息 。
所以这几个技术之间大体的优劣 , 跟现在市面上公认的大家在选择的方向上是怎么样的 ? 就为什么你们会选择了 Mesh?
因为我们今天听得最多的还是 NeRF 嘛 。
对 。 就首先我们叫 Meshy.AI, 倒不是说我们的技术上面用了很多 Mesh 相关的东西 ,但是肯定也有 ,因为做图形的人肯定没有谁是不用 Mesh 的 。其实虽然现在有很多新的表达方式 ,但是主要大家用得最多的还是三角网格 。
这个就包括你玩的手机游戏 , 那么大家还是会用三角形的网格去表示里面的道具还有一些角色 。 当然你可能也看到一些创新者 ,他们在尝试把 NeRF 或者高斯散射这样的东西给放到游戏引擎里面去 。
这样带来的一个好处 , 就是说你可以把一些真实世界中捕获的一些东西给放到游戏里面 , 这其实是很有吸引力的 。
但是它距离真正的在主流的游戏里面发挥很大的作用 , 还需要时间 。 我觉得以后可能是这样 ,但是在也许 5 年的时间之内吧 , 它还不会是主流的表示方式 。
我们今年其实聊了一些 AI 生成 3D 的公司 , 然后尤其是在上半年的时候 , 感觉大家都比较纠结于说 , 就一个点就是它不能进所谓的管线 , 对吧 ?
就是这个东西生成出来以后, 它不具备里面的 , 我粗浅理解里面要有一些那个网状的什么点格之类的 。
你说得很对 , 就是它最后输出的东西一定得是 Mesh, 才能够和现有的图形的使用场景去吻合 。
就才是可编辑可控吧 , 对吧 ? 才能有这个结果 。
可用 。
可用 。 所以今年一整年的整体的技术进展你觉得怎么样 ? 因为我们其实不断地还是看到一些技术上的突破和一些新的开源的算法出来的 。
对 , 我觉得真的进展得非常快 。 就我在这个行业也有一段时间了 , 我从来没有看到说大家如此猛烈地研究这一个问题 , 这个问题就是 AI 生成 3D 内容 。
那进展快也是因为大模型带来的吗 ?
我觉得大模型在这里面的贡献可能没有那么大 , 坦率来说 ,因为 Large Language Model 更多的是一个语言方面的模型 。
那么反倒是像一些开源的图像的模型 , 比如说 Stable Diffusion 这样的模型 ,其实给大家提供了很好的科研的基础设施 。
因为很多的人在做这个事的时候 ,他就是把 2D 的这种生成模型给升维做到 3D。 所以像 Stable Diffusion 这样的开源的 2D 模型 , 反倒是给学术研究带来了很大的价值 。
所以你看像我们都知道就是 AI 生成文字或者生成图片等等 , 它本质上还是一个概率的模型吧 , 对吧 ?
然后生成视频其实也可以理解 , 就是像素的一个概率的延续 , 对吧 ? 那 3D 也是类似的吗 ?
好问题 ,3D 是的 。3D 基本上你可以认为它是 2D 的一个未来的方向吧 。2D 有两个方向嘛 , 第一种你加上时间维度变成视频 , 对吧 ?
第二种你加上空间维度变成 3D。 但是虽然说它的思想上是这样 ,但是当你真的要去解决这个问题的时候 , 你会发现 3D 会带来很多额外的挑战 。
就比如说 2D 你生成一张图像 , 我们就举例 512×512, 这个分辨率还行 , 对吧 ? 但是你如果真的要去搞一个 3D 的 512×512 再乘 512 的这样的一种表示 , 那这个计算量是非常非常高的 。
所以大家就得另辟蹊径去在这种有限的计算资源 、 有限的数据的情况下, 戴着镣铐跳舞去想好的算法 。
我们今天看到其实应该有四种生成 3D 的方法 。 第一种是可能做得比较早 , 你们我知道比较早也在做 , 就是贴图的改变的方法 。
改变模型去绘制贴图 ?
对 , 反正这个技术就是说我可以通过换贴图来换各种的材质跟光线的感觉 。
对 , 首先这里面我觉得涉及到两个问题 。 第一个问题叫做什么样的 3D 生成式 AI 产品是好的 ? 这是一个问题 。
第二个问题是 3D 生成式 AI 到底应该解决哪几类的任务 ? 我先说第二个问题吧 , 就是 3D 的 AIGC 或者生成式 AI, 它应该去解决什么任务呢 ?
三大任务22:18
我觉得主要是三个任务 。 第一个就是从文字生成贴图 , 这个我们现在是做的最早 ,也是市场上面最有竞争力的产品 。
我们的贴图可以到 4K 的分辨率 ,也有很好的风格控制 。
Texture 就是文字到一个 。
文字到贴图 。
其实贴图的那个 , 对 ,texture 其实就很说明它的这个东西了 , 对吧 ? 就是一个材质什么那种感觉 。
对对对 , 就是它的材质分离 。 这是任务一 。 任务二是文字直接到 3D 模型 。 它和文字到纹理的区别在于 , 文字到纹理还是需要用户去提供三维模型的 。
你可以认为我拿到了一个白色的一个雕像 , 然后我用水彩笔在上面去绘画 , 只是在改变它表面的样子而已 。
那么文字到 3D, 或者说 Text to 3D, 它做的事情是模型和贴图是同时一起生成的 , 那这个难度就会更大一些 。
这块我们也在做 ,也是市场上现在最领先的产品之一 。 这块它主要应用场景是你可以用它去生成一些像影视还有游戏里面的一些中原景的这样的道具 , 这是没有问题的 。
比如说我远处有一个小房子 , 我桌上有一个苹果 , 大家不太会凑近地去看 , 你本来需要大量这样的道具来填充你的场景 ,但是你有 AI 了可以去做这样的生成 。
这个是任务二 , 从文字生成 3D。 任务三是从图像生成 3D 模型和贴图 。 那么这个问题其实和从文字生成 3D 是差不多难的问题 。
那么这个方面 , 大家之所以希望用图像去生成 3D 模型 ,而不是用文字 , 最主要的原因就是因为图像更加可控 。
比如说你要描述一个角色 ,他正面长什么样 , 你用文字去描述是挺难的一个事 ,但你有一张照片就容易很多 。
那么这块其实在做的学术界的研究也是很多的 , 然后我们也有一个产品在线上, 当然这个可能不是我们最近主要花精力去做的事情了 。
之前其实传统的是说 , 我可以比如说电商场景里面 ,他把一双鞋然后去不断地去拍照 , 拍几十张 , 最后合成一个 3D 的东西 , 这个其实是大家能做到的 , 只是说成本很高 。
这个就属于 3D 重建了 ,其实成本也没有那么高 。 这个技术十年前就很成熟了 , 就是你拍一堆照片 ,但是它对你照片的要求是很高的 , 那你得是受控条件之下, 相机角度有约束 。
有点像黑客帝国的那个子弹 。
对对对 ,有点像那个子弹时间 。 它得摆一个相机阵列 , 或者说你相机得放在很稳定的位置 ,不能拍糊 。
是 ,但现在我们刚才讲那个就是我只给你一张照片 。
对 , 一张图 。
然后其实是它还是一个概率预测 , 就是我去预测你其他的各面是长什么样子 。
对 , 就 AI 要去猜背面是长什么样 。
那这个它怎么猜得到呢 ? 它首先要先理解这张图是什么吗 ? 还是怎么样 ?
这是很多人会问的问题 。 首先它会去尝试理解它的正面是什么样 , 然后你的 AI 在训练它的时候 , 它的数据集里面会有一个叫做多角度数据集 。
这个多角度数据集 , 它就是我不是单张图片去训练 , 我是把你的正面和背面一起训练 。 我给你正面 , 你出背面 ; 给你背面 , 你出正面 。
所以它这样就可以通过你的正面的图像去预测出来它的其他角度看到图像是长什么样 。
但这一块大家一直都在讲 3D 现成的数据跟资产还是相对比较少的 。
很少 。
对 , 所以它就是数据上是一个最大的局限吧 , 目前 。
目前来看确实是的 。 我给你举几个具体的数字吧 。 比如说 2D 的数据集像 Lion, 它有 58 亿 5000 万张图 , 这是一个巨大的数据集 。
但是你如果看 , 比如 3D 模型的数据集 , 你如果去看 Sketchfab 这样的 3D 模型的网站 , 它也只有 500 万个模型 。
你想 500 万和 50 亿 , 中间差了有三个数量级 ,而且还不是那些 Sketchfab 的数据你就能直接用了 , 人家有版权问题 , 对吧 ?
所以这里面数据上的差距是很大的 。
2B与UGC26:34
是 ,但它其实另一方面说明了说 ,因为我觉得 3D 这个东西它还是一个 2B 的一个事情 , 对吧 ? 大家更多的时候是在做游戏或者做一些其他的建筑等等的事情 ,但是图片跟视频有 UGC 的一个事情 , 对吧 ?3D 其实是很少有 UGC 的概念的 。
是 , 这个也是我们想得比较多的一个事儿 。 就是坦率来说 ,3D 资产的市场只有 2D 资产市场的 , 取决于你的统计口径吧 , 大概可能是 10 分之一到 20 分之一的规模 , 目前来看 。
至于 3D 有没有 UGC, 我们其实也做了一些探索 ,有的地方是有的 。 就比如说在游戏里面 , 我们做了全球第一款 3D 的 AIGC 的手游和我们的合作伙伴 , 我们提供的功能是你以前在游戏里面穿的衣服都是和美术老师提前画好 , 你去选择 。
但我们现在可以你输入提示词 , 然后我给你把衣服给画出来 。 这个就是一个典型的 UGC 的场景 ,并且其实 UGC 的场景还更适合 3D 的这样的技术 ,因为现在 3D 的技术还不太成熟 。
反倒是 UGC 的场景 , 大家对于质量的要求没有那么高 , 大家更多觉得我能生成 3D 了 , 我觉得很有意思 , 我就愿意用 。
你如果真的放在这种 professional 的专业的场景里面 , 那么 3D 坦率来说还达不到大家的要求 。
但这里面你看 , 我觉得 3D 是不是跳过了一个步骤 , 就是图片跟视频它都有一个从专业工具到 C 端工具演进的一个过程 。
就首先 2C 它先有了 , 比如先有了美图秀秀这样的工具 , 我能快速地自己去修图 , 然后先有了剪映这样的工具 , 我能快速地自己去剪视频 。
但 3D 还是非常专业的一整套工具 , 然后中间其实现在是不是没有这么一个 C 端自己能使用的工具的环节 , 然后它直接跳到了一个 AI 生成 3D 的一个程度 。
我觉得其实美图秀秀和剪映他们都有相应的专业产品 , 比如说美图秀秀可能是 Photoshop、PS, 对吧 ? 然后剪映它可能之前是 Adobe、AE、PR、Premiere 这些工具 。
那么 3D 现在大家还停留在 Blender、Maya、Max 这样的专业工具 。
对 , 都是我没听过的工具 。
对吧 ? 可能大家就离这个比较远了 。 但 3D 有一个问题是什么呢 ? 你让普通人去操作美图秀秀 , 操作剪映 ,他还是能学会的 。
当你把界面经过良好的设计以后, 还是能学会的 。 但是 3D 建模这个东西可不是所有人都愿意去折腾的 ,并且你其实很难把 3D 建模这个东西变成大家都能接受的 ,不是所有人都有这个空间的感觉 。
对 ,而且我觉得主要是好像确实没有太多的场景 , 这个东西它是不是就是得在什么 VR、AR 里面去实现的 ?
对 , 我觉得现在的一个大问题其实是你看所有的 VR headset、VR 头显 , 它有多少的 MAU, 就是月活 , 大几百万吧 。
但是这个和比如说手机 , 它的月活差距是很大的 。 大家会期望什么呢 ? 是不是在 26 年、27 年、28 年, 过几年以后, 像 Vision Pro, 就是 Vision Pro 是不是 iPhone, 这个是一个很大的一个问题 。
你觉得是吗 ?
我觉得可能是 。
我觉得我也觉得 。
我觉得有可能是 。 如果是这样的话 , 你就想 , 如果大家日常比如说有 1 亿的 VR headset 的 MAU, 那么在这个时候 , 它可能就会催生出每个人的日常生活中都会用到这样的 3D 的资产 。
那这样它就有了场景 。 所以我觉得这个时间点现在是很好 , 现在 23 年嘛 , 对吧 ? 咱们可以 27 年再回来做一期 ,4 年以后再做一期 , 我看今天说的到底对不对 。
26 年吧 , 争取 26 年 。
争取 26 年 。
对 ,因为你看 iPhone 和 iPhone 4 中间其实是隔了三年的时间 ,iPhone 07 年、iPhone 4 是 2010 年, 对吧 ? 移动互联网这个革命什么时候开始的 ?10 年的时候 。
所以你如果把 Vision Pro 看成是 iPhone 的话 , 那其实也就是三四年、 两三年的时间 。
对 ,但你之前其实都在做一些视频渲染 , 或者也有做一些游戏相关的 3D 渲染的东西 , 对吧 ? 就你为什么会在这个节点想到要做 AI 加 3D 生成这件事情 ?
很好的问题 。其实我自己的经历有这么一个转变吧 , 刚才也提到我最早的时候 , 我是一个非常正统的图形研究者 。
什么叫正统呢 ? 就是我不咋信数据驱动这套方式 , 我更信渲染方程 , 更信牛顿 、 麦克斯韦 、 拉格朗日给我们的一套 。
线性代数 。
对 , 就线性代数的一套 。 然后后来做着做着 , 我也意识到这种尝试去精确的刻画世界的方式 , 它本身是有一个局限的 。
就比如说这些方程 ,有很多东西你是很难去 , 甚至你都很难去测量 ,也很难去建模它 。 那在这种情况下 ,有的时候数据去驱动它 , 反倒是一个更好的方式 。
我在整个读博士的期间 , 我就既做图形学方面的东西 ,也去做图形学和 AI 的结合 。 这块可能有个五年的时间改变了我的看法 。
你看我最早做科研是 2016 年, 现在七年过去了 。 那我现在就有一个独特的属于我们团队的机会 ,也是属于我的机会 , 就是我既熟悉传统图形这一块 , 又熟悉人工智能这一块 , 然后在它们中间恰好又有一个商业化上面听起来很有希望的一个事情 。
我们相信这个事情它是有市场需求的 ,而且我们整个团队在这个里面 , 我想是非常有竞争力的 。
所以我们现在非常坚定地去做 AI 生成 3D 内容 。
你刚才提到你看到的一个很明确的市场需求是什么 ? 是更多是游戏行业吗 ? 还是 ?
我觉得是从传统的图形行业来说 ,不管是游戏还是影视 , 大家对于 3D 模型的需求是永远存在的 。 我去问过一些公司 , 我给你举几个数字吧 。
第一个是 3A 游戏 , 它里面的成本有 50% 都是 3D 美术 , 特别是越是这种开放世界的 MMORPG 这种游戏 , 它里面需要的资产越多 , 它做资产的成本就越高 。
那现在这些资产是怎么做的 ? 它可能外包给一些资产外包公司 ,1000 块钱一个人一天 , 那你做一个游戏里面的剑盾牌搞个两周 , 就是一两万就放进去了 。
一些制作更精良的角色 , 它可能成本会更高 。 所以整个游戏行业 、 影视行业 , 它对于这种 3D 资产的诉求是挺高的 。
整个的 , 如果你只是看这个专业的市场 , 大概是一个 30 到 100 亿美金的一个市场 。 那当然这里面你作为一个 AI 生成的 3D 资产 , 你不可能一下子把它全部给吃掉 , 对吧 ?
你肯定能找出一些细分的一些地方 , 先去在这些地方去把它打透 。 哪怕你就是你占 100 亿的市场 1%, 那也足够你做一个 Midjourney 级别的一个产品了 。
对 , 我刚才就想问你 , 你觉得 3D 这个技术 , 它到 Midjourney 或者 SD 的那个程度大概需要多久 ? 然后还有哪些挑战 ?
对 , 我想从市场和技术两方面来说吧 。 市场就是咱们刚才聊到的 , 现在其实消费级别的 3D 的需求的市场还比较少 。
比如说我发给你一个 3D 模型 , 你知道怎么打开它吗 ?
应该打不开 。
这就是现在 3D 的消费级市场的现状 。 那这个什么时候会改变呢 ? 我觉得也许 26 年, 等到可能一些愿意尝鲜的人人手一台 Vision Pro, 或者说小米版的 Vision Pro 能够普及了以后, 大家不会再去满足于就是看图片 、 视频 , 对吧 ?
那么大家肯定会去希望去看可交互的 3D 的内容 , 这个时候就会有大量的一个需求和供给的一个差别 。
所以市场方面我觉得两三年时间 , 乐观来看 。 技术方面 , 我觉得我们只解决了 10% 的问题 , 现在我们 AI 生成的 3D 模型还有很多问题没有解决 。
专业点说什么 UV、 拓扑 , 它的生成的模型的质量 、 贴图的质量 、 可控性 、 速度 , 好多都没解决 。
当然我想这个领域进展是很快的 , 我们自己也在加大投入去做这个方向 。 所以我想这个未来 90% 的问题可能也就是两三年的时间 。
所以我是比较乐观的 。
所以你觉得视频跟 3D 哪个会更快一点 ?
我觉得视频会更快 。 你不可否认的是视频的市场比 3D 要大很多 , 你视频已经有消费场景了 。
当然它的技术的成熟度 , 我觉得和 3D 成熟度半斤八两 。 大家现在还在解决我视频 , 我生成两秒钟如何扩展到八秒这样的问题 。
是 ,但视频应该还是有些这种小的技巧 , 比如用一些什么插帧 、 补帧 , 一些 AI 剪辑去做成一个类似效果的最后的结果出来 。
可以 ,但是这个核心的问题还是大家之所以希望生成视频 , 还是希望它有故事 、 有逻辑嘛 。 你如果只是几秒钟 , 那你再怎么插帧 , 你也很难把故事的逻辑给搞出来 。
但视频现在有很多公司在做那种什么换脸 、 然后换语言 、 对嘴这些 ,3D 上我能基于已有的东西快速去变一个模型出来吗 ?
可以是可以 ,但是没有应用场景 , 对吧 ?
也是场景的问题 , 对吧 ?
对 ,是 。 如果有 VR 的话 , 就是如果人手一台 VR 设备 , 那你做这个是有意义的 。 比如说我拍一张你照片 , 把你变成 Q 版的一个头像 , 这个肯定是有需求的 。
但现在主要还是大家没有很好的 3D 的消费场景 。
从科研到创业36:01
你其实在过去几年里面 ,其实像开头也讲了 , 你经历了科研跟创业的两件事情 , 对吧 ? 然后而且你中间正好是在那个转折点 , 你做了用图形 , 那个算什么 , 用图形编程的语言去快速做出来一个冰雪奇缘的那个效果 , 那个当时非常炸裂 , 应该大多数人都看过 。
对 , 当时大家挺喜欢 , 我也没有想到 。其实我自己写了一篇文章 , 初衷就只是一个技术分享吧 , 然后大概的背景就是我那个时候拔智齿 , 然后拔了智齿以后牙疼 , 然后就也写不动代码了 。
我就想能不能把这个科研的经历稍微写一些 。 我也没想到大家会这么喜欢这样的一个科研工作者非常枯燥的故事 。
对 , 所以这几年做起来 , 你觉得这两种生活和体验的感受如何 ?
我觉得创业好难啊 。
比科研和发论文还难 。
那难多了 , 难多了 。
或者我可能比如说如果问你说你最终后不后悔创业这件事情 ?
我觉得不后悔 , 目前为止不后悔 。 我没有像老黄那样 , 老黄就说再选一次的话 , 可能就不会去创立英伟达了 , 对吧 ?
他都做成这个样子 , 还可以这么讲 。
对啊 , 就是我觉得可能目前来看 , 我还是很享受创业的这个状态 。 中途有一段时间确实是觉得压力比较大的 , 那段时间家里面有老人去世 ,有方向的选择 ,也有一些刚创业的时候有一些问题 ,其实是缺乏经验 。
但是我觉得我现在走过去了这个阶段 , 特别是开始做 Meshy 以后, 我觉得我自己会非常享受这个事情 ,而且团队也很享受这个事情 ,因为它有很好的一个反馈 。
对 , 我觉得这件事情在某些层面上又回到了你之前擅长的那些事情 。 模式上, 就是更偏底层跟技术一些 。
对 , 反倒是我觉得技术方面对我们来说是容易的事情 。
商业化到底该怎么做 , 怎么样找到 PMF 是永远的挑战 。
对 , 时刻要去想我们得去 build 一个对世界有用的东西 ,而不是我们想 build 的东西 。 前者我觉得是特别大的一个误区 ,因为你如果 build 自己想做的一个东西 , 你非常容易有这种正反馈 。
你很容易我今天写了一个什么 code, 然后 。
就自己很开心 。
自己很开心 , 对吧 ? 但是你如果朝更远的时间去想的话 , 你会发现很多问题是没有一个好答案的 。
是 ,AI 这波里面其实有非常多的教授或者 PhD 学生 , 就做科研的过来创业 。 你有什么建议给他们吗 ?
我觉得就几点吧 。 第一点是还是要尽早去想一想市场需求 。 我觉得我经常聊的一个事情是 , 这两年创业给我带来的感悟是什么 。
我觉得最大的感悟就是 Why 可能是比 How 更重要的事情 。其实在科研也是一样的 ,在科研界大家都会强调你要去 work on an important problem,在一个重要的问题上面去工作 。
是 , 就是选题很重要 。
选题非常非常重要 。 得去问用户 , 你有什么问题 ,而不是你强加给用户说我觉得你要有什么问题 。
我觉得你有这个问题是不是啊 ? 用户可能比较 nice,他跟你说对对对 , 确实有这个问题 ,但你做到最后你就发现被这个东西带到坑里面去了 。
所以其实答案还是商业化 , 就是你在问的时候就让他付钱 ,他如果真的付了就还好 。
对 , 更好的问题可能是你会为什么样的东西付钱 , 对吧 ? 或者说我给你这个东西你付钱 , 我看你付不付 。
就像你刚才提到中国的用户真的太 nice 了 , 你问他会不会付钱 ,他很多时候说会 ,但你真的让 。
但是经常不会 。
对 , 你真的让他付钱就不会 。
他可能宁可去买一杯二三十块钱的喜茶 ,也不会为你的软件付钱 。 这个是挺大的一个挑战 。 所以我觉得从科研的领域出来 ,有的时候得忘记自己的之前的经历 , 一是忘记自己具体科研的时候解决了一些问题 , 第二是忘记自己从一个科学家角度对这个世界的理解 。
所以前者就是防止什么问题 ? 比如说我博士期间我研究的问题可能是 ABC,但是我去问了一圈用户 ,他可能给我答案是 DEF, 和我研究的 ABC 完全不一样 。
这时候我到底该怎么办 ? 我到底是强行继续做 ABC,不撞南墙不后悔呢 , 还是说我觉得另外一种心态可能就更好 ?
这种心态叫做我作为一个科研人员 , 我能把 ABC 做好 , 我就一定也能把 DEF 做好 ,并且 DEF 是用户真正需要的东西 。
但我很同意你刚才讲一个点 , 就我觉得其实很多做投资的是从管理咨询转过来的 , 然后管理咨询那套逻辑其实是来自于科研的 , 就是 hypothesis driven, 就是假设驱动 , 怎么样去做 A/B test, 去做实验 。
所以其实就是你如果是一个好的科研者 , 我觉得有的时候可能不一定是你要去跟商业的人去学 , 反而是怎么样把科研的那一套理论跟逻辑用到最极致 。
对 , 我觉得科研工作者其实有自己的优势 , 比如说逻辑清楚 , 比如说大部分科研工作者是比较客观的 ,但是往往我会发现大家对实验是比较客观的 ,但是对自己有的时候没有那么客观 。
比如说你很难去改变自己的一些想法 ,但是创业这个事情你要非常及时地做出很多的调整 , 对吧 ?
你作为 CEO, 你就是一个赛车手 , 你开方向盘 , 那你路肯定不是直的 , 你要及时地转弯的 。 这个也是很多我在科研界的时候可能会对一个事情很执着 ,有这种执念 , 一定要按照某种方式去做一个事 ,但其实创业不一定 。
可能还有一个事情是很多的科研工作者相对来说内向一些 , 比如说我自己就是很严重的内向的性格 。
但我觉得你已经比大多数人, 大多数科研的人要强 。
我老是跟你说我跟你聊这俩小时, 我已经虚脱了 。 我跟着聊俩小时, 我就得休息一整天 , 我才能缓过劲来 。
但是因为我从事这样的岗位 , 我告诉自己不要以自己舒服的方式去过每一天 , 你要不断地走出自己的舒适圈 , 去做自己没有那么舒服的事情 。
有的时候你没有那么舒服的事情 , 反倒是对整个团队 , 对整个公司 , 对所有利益相关者更负责的事情 。
这个过程可能是痛苦的 ,但是你不去逼迫自己做这些事 , 那是不可能取得很好的成绩的 。 但是其实我恨不得我 , 你让我休假的时候 , 我恨不得一人把自己关在小黑屋里面写代码 , 那样是我最舒服的状态 。
明白明白 , 完全理解 。 现在你们是已经发了一版产品了是吧 ? 就是大家其实想用的话是可以去用的 。
产品与愿景42:26
对 , 大家可以直接在 Meshy.AI 这个网站上面去用 。
是 ,但我觉得反正 AI 生成 3D 听起来是一个需要延迟满足的事情 ,但你在做的是整个世界的一个基石 , 我觉得这个肯定是可以这么讲的 , 对吧 ?
我觉得这个其实往愿景的层面说 , 我们就是希望每个人都能去创造一个自己的虚拟世界嘛 。 这个和咱们一开始说的图形学是一门帮助大家创造更好的虚拟数字世界的学科 ,是非常吻合的 。
这也是很多人的一个梦想吧 , 每个人都希望说一句话就能把整个世界给创造出来 。 我觉得现在这个时间点是很好的一个机会 ,而且 AI 生成 3D 也是解决这个问题最重要的途径之一 。
上帝是不是第一句话说的是要有光 ?
很对 , 上帝说要有光 , 所以我们先解决了渲染的问题 。 要有光以后, 那就得去有山川 ,有森林 , 对吧 ?
这个就是 AI 生成内容的问题 。
是是是 , 那我们就谢谢渊鸣 。
好 , 谢谢曲凯老师的 podcast,也特别开心能够和大家分享这些内容 。
