开场与嘉宾0:00
From the darkest corners of the tech frontier comes a podcast show for the pioneers: 42 chapters of wisdom and insight, founders and investors under the moonlight.
大家刚刚听到的这首片头曲呢 ,是我们用 Suno 以 42 章经为主题做的 。 我们在 Suno 上试了大概近百首歌吧 ,有各种风格的 , 然后最后选中了这首 。
我相信如果不说的话 ,其实大家已经很难分辨它到底是人做的还是 Suno 做的了 。 所以呢 , 我们这期呢就请来了快音的创始人李岩 , 来聊一聊 AI 加音乐这个话题 。
李岩 , 我记得你比较重要的几段职业经历里面 ,其实最核心的一段是在字节嘛 。 你先给大家介绍一下你在字节做的事情 。
我在字节主要做增长 。 最开始的时候我在负责一些投放的工作 , 后面的话主要就负责各个业务线的 , 像增长啦 , 然后像一些策略产品的 、 算法的 , 还有一些中海业务吧 , 然后包括孵化一些新的业务线 。
你当时是整个增长策略的负责人是吧 ? 我记得是 。
对 。
这是哪年到哪年的时候 ?
我是 15 年 7 月 8 月份去的吧 , 第二年开始负责这个团队 , 差不多一直到 18 年底吧 。
所以你经历了蛮多段这种大于呼量级的增长的过程 。 你从字节走了以后就开始做快音嘛 。
对 。
快音本身其实是一个腰部的一个音乐播放平台 。
对 。
对吧 ? 但你们也有几百万日活嘛 , 几百万日活也只能叫腰部啊 。
因为大特别大 。其实这个行业最大的可能就像酷狗 、 网易云 , 包括 QQ 音乐 , 它们非常大 。 这里面是有极大的断层的 。
版权与变现1:49
正好可以聊一下第一梯队那些家现在活得怎么样 。 就是他们有经历过一段说买版权 , 对吧 ? 大家都能听 , 然后又版权竞争 。
对 。
对吧 ? 就是这么一整个的流程 。
对 。 我觉得其实第一梯队活得还不错呀 。 包括你看 QQ 音乐的财报 ,其实他们的付费用户数是很高 ,他们现在该付费的用户已经破亿了 。
因为不付费很多歌听不了啊 , 我也是付费用户 。
对 , 对 。 然后还有就是其实中国和海外不一样 ,其实海外像 Spotify, 包括 YouTube Music,他们主要靠付费来做收入 ,但他们要把付费收入的 70% 到 80% 都要当作版权费用支付给他们公司 。
所以这个是非常痛的 。 所以你看像 Spotify 虽然它大概有 30% 多的用户都是它的付费用户 ,而且它收费并不便宜 ,但是它依然无法盈利 。
它去年应该还亏损了几千元美金吧 。 但是在国内因为大家付费表片运营嘛 , 所以大家可以做直播 。其实在 QQ 音乐里面 ,在 TMB 里面其实秀场占比是很高的 。
这个是国情决定的 。
对对对 。
但国内就是如果把这块刨开的话 ,其他的也一样是要给版权方交非常高的税 。
这个要看你的谈判权 。其实我理解像腾讯音乐是要交很多本人费用 ,但是他们会给头部艺人交 , 比如说像周杰伦这种 。
但是中央部艺人其实他们现在是 TMB 其实像是自己来买公司 , 就他们把这个版权方的公司整个给收下来 , 然后他们甚至想把这些公司来整合起来上市 。
所以我能不能理解在 AI 出现之前的音乐平台 , 它其实就是拼版权 。
对对对 。 而且它越来越集中化其实 。
对 。 我这里插一句 , 我觉得音乐我想了很多年, 我觉得音乐是最妙的一个商业模式 。 因为你就一首歌 , 越老越值钱 。
对对对 。
好像其他的领域都不值钱 。 你看什么小说 、 电影 , 对吧 ? 什么东西你很难重复的去看无数次 ,而且肯定也不是越老越值钱 。
但电影里面可能会有些 IP, 你到老了演员出来是值钱的 。
对对对 。
但音乐真的是你就是一首歌一直唱 ,而且越来越专辑 。
坦白讲 , 我其实觉得电影和小说也是重复的 。 虽然说现在小说 , 比如像番茄 , 比如说像七猫 , 它的内容很多 ,但其实我之前跟番茄聊过 ,他们最原始的动机其实是因为番茄可以基于一本小说 , 版权小说 , 比如说越文的小说 , 可以无限重制 。
无限重制是指的用 AI 这样的 ?
不 , 当然也是人。 人很便宜 。
我觉得这个就比较有意思啊 。 就是你说小说什么 , 它肯定都是有一个框架 , 或者所谓的套路吧 。
对 , 就是一个套路 。 然后通过套路不断的生产 , 然后但大家仍然会爱去看 。 但音乐我觉得有一个不同的是 , 最后大家听的到底百分之多少是自己歌单里面就是那么多首歌 。
对 。
这个我还想再补一个问题 。 中间我觉得还有个很重要的变化 , 就是短视频平台对音乐带来的变化 。
短视频重塑4:43
对吧 ? 我不知道你 ,因为你也有经历了抖音 , 你又在做快音 。
我觉得抖音在之前的情况下 ,其实它所有的宣发都是在电视台手里 , 所以大家的爱好是全民的 。 比如说像稻香为什么会大火 ,是因为当年所有的宣传资源 , 所有流量都在这个时段都给它 , 给它活起来 。
是是是 。 之前好推嘛 ,而且之前更头部效应集中 。
对对对 。 比如说像当年凤凰传奇为什么火 ,是因为当年的蔡琳 , 所有台都是凤凰传奇 , 所以它火了 。
但是慢慢到互联网之后 ,其实没有一个集团可以垄断宣发 , 包括注意力的变迁 , 用户注意力会更加分散 。
所以你现在越来越难看到有全民度的歌曲 。 就是之前有一个统计 , 比如说中国 top 3,500 首歌 , 能占到总播放量的 80% 多 。
包括 Apple 统计的 , 它中国去播放量最多的 100 首歌 , 大概有五六十首歌是周杰伦的 。 但是我觉得越往后来走 , 分散度会越来越高 ,因为二三流的 , 甚至是更低线的歌手 ,他也可以去掌握一定的宣发资源 。
对 ,但是会不会后面大家就越来越不 care 到底这首歌是谁唱的 ?
抖音里面本来就已经不 care 了 。
我的感觉是可能越来越 , 至少从我自己的体验来讲 , 可能就是抖音的背景音乐的那几句 , 可能就十几秒 , 最多三十秒 。
对 。
然后你也不知道是谁唱的 。 它相当于把整个音乐解构了 , 我理解是 。 对吧 ? 你之前可能你要推活一首歌 , 这首歌一定是你要听个四分钟 、 五分钟的那么长度的 。
对 。
对吧 ? 那现在呢 , 你其实不用听那么多了 。 那它的频次就会更高 ,因为每天可能都有比较火的背景音乐 , 所以你总的曲量可能是增加了 ,但每首歌的时长是降低了 。
我觉得这个很合理 。其实之前我也有这么一个判断 , 包括我们自己去测试 , 我们发现一首歌的长度在一分到一分半其实是最合理的 。
就是有一个很有意思的问题 , 就是为什么一首歌的长度一定要三到四分钟 ? 它单纯是因为我们刚制作唱片的时候 , 唱片它是用那个转动那个机器来播的嘛 。
是 。
那当时一个盘大概的长度就是四分钟 。
是 。 我们四川人其实好多年前也写过一篇文章跟音乐相关的 , 当时大概的一个点也是唱片的解构 。
一开始的时候 , 那个磁盘可能只能放四分钟一首歌 , 然后后来呢 , 那个磁盘变成说它能放十首歌 。
对 。
或者说像磁带能怎么录制 。 所以变出来一个概念 , 就是我一发一定要发一个专辑 。 但再往后到互联网时代 ,其实就没必要发专辑了 , 对吧 ?
对对对 。
所以就变成发单曲 。 那在未来是不是我就是发一个抖音的背景音乐还是怎么样 ?
我觉得还是要长一点 。 为什么数秒 ? 可以是因为你大片的视频 ,其实这里面音乐只是一个背景音 , 单纯让用户去听 , 长度我们看过至少要到一分以上 。
理论来说 AI 是不是也可以续写 ?
是的 。
对吧 ? 在文生图里面 ,他们有说那个就是图生图 , 对吧 ? 我不断的拉长 , 然后那个图它自动生成更多的背景 。
AI音乐起步7:48
那理论来说我喜欢稻香 , 我可以把稻香让 AI 帮我自动生成成一个一小时甚至二十四小时的版本 。 然后讲到 AI 音乐的话 , 半年前我估计其实 AI 音乐最早火起来那波是 B 站上那个孙燕姿 , 对吧 ?
对 。
那个她其实是先从模拟明星的声音开始 。 我理解那个其实是最简单的一步了 , 对吧 ?
对对对 。
就是变声嘛 。 所以你们给大家介绍整个的音乐工程现在大概分哪几步 , 然后其中 AI 是怎么起作用的 ?
AI 的工程和传统的那个工程还不太一样 。 就是传统的音乐流程 , 它先有词和曲 。 如果你想把这个歌录出来的话 , 你就会找个录音室 。
如果是一个标准流程 , 那你应该是分轨录制 。 就比如说你要把人声 、 伴奏 , 包括一些各种各样的鼓点什么的 , 都是分开录的 , 后期把它再合到一起 。
但是这个问题是说它的对于节奏啦 , 包括配合要求比较高 , 所以后面大家很多人会简化到我就直接拉一帮人到我的这个录音棚直接录啊 。
对 。
所以 MIDI 到底是啥 ? 我记得大概十年前吧 ,其实就有人说 AI 音乐怎么样用海量的数据去让电脑帮我辅助生成音乐 。
对 。
但我记得当时讲的最核心的问题好像是就是 MIDI 形式的音乐的那个数量是不足的 。 我隐约记得有这么个点 。
MIDI 你可以理解为是一个音乐的工程文件 。 就是音频本身是一个波段嘛 。MIDI 你可以理解为它就是对波段的秒数 。
如果你是分轨的话 , 那其实就是比如说有各种各样的分轨的 MIDI。
它有点像一个 Photoshop 形式的 。
对对对 。 图层概念 。
是是是 。
它叫图层 。
是 。
是的 。 所以你分图层来编辑 。 但是如果你比较懒的话 ,其实你一开始你把所有东西画在一起 , 那你没有图层概念 。
所以编辑的时候比较麻烦 。
所以对 AI 来讲就是给它鼓训练鼓 。
对对对 。
主旋律训练主旋律 。
对 。
但为什么不能混在一起 ? 你看之前的那些大模型 ,其实大家讲的都是把所有东西都怼给它 , 对吧 ?
它就自然而然的生成出来的东西了 。
现在主流的模型还是会这么做 。 这个事情就是又一种悖论啊 。 就是你到底是要做端到端 , 还是想要去做这种分轨训练的 ?
这里面都有好有坏 。 因为如果是端到端的话 ,其实很难让你的模型来去修改 。
这个就有点像图片什么生成一致性的问题 。
对 。
就是你要改 , 你就只能重新生成 。 对 , 你就不能说你帮我哪一块旋律改一下 。
你可以去尝试给它 ,但是它现在不太支持 。 或者说这个跟传统的音乐家的融合就很差 。 因为音乐家明确知道你就是第二小节第二句话 。
我觉得当下是这样 。
供需匹配10:23
对 。
但长期来看呢 ? 比如三五年后, 你觉得音乐人会失业吗 ?
我觉得会有一部分人会失业 。 我觉得是这样的 , 就头部音乐人是永远不会失业的 。 因为 IP 存在 , 那不管怎么着 , 会有人跟他说你我能不能使用你的音色 , 我能不能使用你原本这首歌的版权 。
我觉得中部音乐人他会比较难受 。 如果你没有灵感 , 如果你不能大量的去制作更好听的内容 , 我觉得他会比较难受 。
我觉得反而中腰部或者说底部的音乐人, 我觉得会活得他有更多的工作可以给他做 。 因为不管是给内容做标注 ,因为学习会非常需要 。
第二种是说其实音乐会被真的工业化出来 。 比如说现在歌都需要收费的嘛 ,但是为什么我不能够把它批量化出来 ?
因为人足够便宜啊 。 我完全请一个人, 我一天可以制作 20 首歌吧 , 那 100 个人一天可以做 2,000 首歌 。
但一个人能听的歌是有限的嘛 , 对吧 ?
对啊 。
所以你供给变到那么大的话 , 最后在供需的匹配上会发生一个什么样的变化 ?
这个会巨大变化 。 类似于你是廉价供给 , 廉价供给带来的问题就是你的量大管饱 , 对吧 ? 比如说你全天稻香 , 我现在有 1,000 个稻香给你 ,而且你听周杰伦 。
能听吐了 。
要掏钱 , 听我的版本掏钱更少 。 为什么不会听呢 ? 我们举个举一个对比 , 还是说番茄吧 。 它其实基本上没有头部的那些小说 ,但是它里面有无数个变种小说 。
那带来的结果就是对用户来说它也觉得很爽 ,因为用户是免费小说 。 但是对于越文来说 , 这事情并不很舒服 。
是 。 但最终你觉得越文跟番茄这种 , 它是会并存吗 ? 还是会 。
我觉得会长期并存 。 越文其实代表的就是老式艺术家 。 它这个 IP 很牛逼 , 这框架很牛逼 , 所以还会有人去追求许文清 、 孙燕姿 ,他就会去越文里面去看这些内容 。
然后他只要把这个内容管理好 ,不要对外扩散 , 那番茄再牛逼它依然是没有的 。 只能做仿版 。 但是这里面有一个长期问题在于说 ,以更长的时间尺度来看 , 那老的 IP 它的生命周期是持续多久 ?
或者说是不是会出现新的题材 ? 新的题材那就我觉得和越文是关系就不大了 。 就比如说最近有一个叫克苏鲁的一个题材 , 这个题材其实我们现在来看 , 番茄的数量远远超过越文 。
这个就带来了一个问题 , 就是因为老式工业的人效不高 , 或者说数量有限 , 多样性也受限 。 那这个时代我觉得番茄的优势可能会大非常多 。
那回到音乐上来说 , 就是假设我们未来出了一首比较好听的歌 , 那 AI 的宣发流程可能变成了说 ,不管怎么着 , 我先用 1,000 个音色先唱 1,000 遍 , 那我肯定会出现一些更好版本的 , 对吧 ?
然后呢 , 这个时候我可能挑其中 100 个比较好的声音 , 那我再生成一些不同版本 , 比如说吉他版 、 钢琴版 、 摇滚版 , 比如说再结合 《 甄嬛传 》, 结合比如说 《 亮剑 》, 那可能它就会成为一个内容矩阵了嘛 。
那这个时候它的宣发力量会远远大于之前的宣发力量 。
但你这里涉及到说你制作一首歌曲的成本到底是怎么样的嘛 , 对吧 ?
对 。
传统的可能要几万块钱 。
对 。
就完全制作出来一个东西 。
对 。
对吧 ? 现在 AI 呢 ?
我们现在基本上一个人一天可以做一首歌 , 所以成本基本上就这个人的工资 。
你的算力啊 , 推理啊 , 那些成本 ?
这里面的算力其实就跟像用 token 一样 , 如果量大一点是可以忽略不计的 。 如果量小的话 ,其实成本可能就几块钱 。
所以这个是很便宜的 。
对 。
最主要是人力成本 。
对对对 。 因为刚才说的就更多的模型是创作端的嘛 。 所以比如说你觉得这歌的曲不合适 , 你要去改 , 那这个人就需要去手工去改 。
但我们现在我们想要用训练一个曲的模型 , 比如说我用户觉得第二句话不好听 ,是不是可以用模型直接给他生成 300 个第二句话 ?
但这里我刚才其实就想问 , 怎么定义更好听 ? 歌曲是一个更主观的 。
我觉得就主观就可以了 。 我觉得这个事情是这样的 。
但是是谁的主观呢 ?
肯定是这个人的主观 。
OK。
就是我们现在本身是有模型来评价一首歌的一致性 , 或者说好不好听的问题 ,但我觉得这个只能是解决底线 。
因为好听的标准非常多 , 这个事情我觉得很难被当前的模型所捕获到 。 那你就只能是说先找一个人来听嘛 。
而且如果它这个它有一个音乐素养的时候 ,其实它的感觉往往是准的 。
Suno 现在的大概的情况你了解吗 ? 比如他们是什么方案在训 ,他们各种成本啊什么怎么样 ?
Suno 他们其实很多内容不太对外公开 。 我们现在推特它的方案 ,其实它做的是一个纯文档端的方案 。
OK。 就是全都灌进去嘛 。
对对对 。 然后所以它的整个的训练集其实比较好去做的 。 这个事情就回到了一个 scaling law 问题了 。 就是你有更大的算力 , 你有更大的训练集 , 你就效率更好 。
但你们是分轨的方案 ?
我们其实两个都做 。
OK。
因为我们有一个很强的诉求 , 我们想要做改革 。 就我们想要自己去做版权的曲库 。 我们希望能够把它做成一个工作流 , 或者说把它当作一个助手来看待 。
那你就需要有一些分轨啦 , 或者这种方案出来 。
就是需要可以编辑 。
对对对 。 甚至说我希望这个编辑可以变得更自动化 。 这样我的人效比如说一天可以一天做出来 30 首 、40 首或者 50 首歌 。
那这个时候我单个成本就会足够低 , 甚至我可以把这个能力开放给用户 。
就是传统音乐时代最后也是版权商赚了最多的钱 。
基本上所有赚的所有钱 。
基本上所有钱 。 对 。 所以你们现在觉得说 AI 时代其实也会有一个版权商 ?
我觉得 AI 时代的版权商可能跟传统版权商不太一样 。 我觉得当你有大量的制作能力之后, 你赚钱的道路不一定是通过版权许可 。
你最后可能通过流媒体的播放 , 甚至说你去做一些这种内容运营来获利 。 我觉得这个模式会不太一样 。
解锁新场景16:41
OK。 我们刚才讲的基本还是在传统的音乐范畴里面 , 对吧 ?
对 。
但 AI 音乐其实现在已经效果非常好了 。 然后所以它能解锁非常多的新的场景和想象空间 。 比如说最近有一些开始火起来的是说用一些什么 rap 呀 , 或者各种音乐形式做电影解说 , 这个里面可能已经有一些就是用 AI 在做的了 。
相当于说它把它的那个解说的文案放到 AI 里面 , 然后帮它生成一首歌曲了 。 对 , 我就看经常有评论说现在已经这么卷了嘛 。
是的是的 。
除了这些呢 , 你觉得未来 AI 音乐解锁以后还会产生哪些场景 ?
以我们现在的状况来看 , 短期来看其实营销是大头 。 比如说各个宣传的部门 , 然后包括一些各种各样的品牌方 。
比如说你要自己卖车 , 甚至比如说你在节节上去卖卡车 , 你都会尝试用新的形式 , 比如说用音乐来宣发它 。
对 。 这里其实涉及到是到底怎么理解音乐 , 对吧 ? 就是它是一个更抓人眼球或者抓人耳朵的一种沟通的方式嘛 , 对吧 ?
对 。 就是短视频为什么存在 , 它其实就是画面加 BGM。 因为它确实是比传统的比如说我们两个人来谈话 ,但如果我们俩谈话声量非常大 , 我觉得音乐没有必要 。
但如果我们两个人宣传某东西 , 那你加上 BGM 可能会好非常多 。 有和没有的差别非常大 。
其实百感会里面有非常多的类似这种 , 对吧 ? 就是我其实完全写的是剧本 ,但是我给的谱子曲 。
对对对 。
对吧 ? 比如说那个 《 哈密尔顿 》 啊什么的 。
对对对 。 是的是的 。
对 。 它其实就是典型的音乐的 。
加叙事嘛 。
对 。 所以后面是不是更多的我们能看到的叙事场景 , 它就会变成音乐了 。 包括你刚才一直提到好几次番茄小说 , 对吧 ?
那现在里面是有什么各种男生女生去给你朗读 , 对吧 ? 后面是不是会有一种说你 。
音乐版小说 。
对 , 音乐版的小说 。
这个是我很认可的 。 因为我已经看到有人在用音乐来做电视连续剧 。 它并不是说我来做一个单点事情 ,而是说它把一个电视剧从第一集解说到最后一集 , 然后全都是用音乐来解说 。其实音乐会比单纯的音频或者说单纯的文字 , 它是一个更好的一个附属载体 。
对 。 我还记得之前有人说哪个什么化学老师特别厉害 , 用音乐编了一首化学元素的 。
元素作曲表 。
然后大家确实更容易记下来 。 那以后这种场景也可能很多 。
对对对 。其实儿歌就是一种很典型的场景 。 就是交好朋友要讲礼貌 ,有知识啦 。 就是儿歌会我觉得会越来越多 。
但这个东西我在想它后面它会是一种玩法 , 还是说大家慢慢的可能就会习惯 。 比如说我微信发一条语音 , 它自动就会帮我转成一个带节奏 、 带渠道的东西 。
我觉得是这样的 , 就还是分短期长期 。 我觉得短期其实在营销上面大家会更习惯 ,因为营销的数据更明确 。
还有一种是各种祝福嘛 , 它就很合理 。 比如说我送一首歌来祝你生日快乐 , 或祝你谈对象 。
但是我觉得这只是一个初期阶段 ,因为新事物出来之后大家是有适应期的嘛 。 越往后其实它的可能性和空间会越大 。
我觉得短期我们可能会高估它的影响 ,但是长期我们是低估的 。 因为本身音乐其实它作为一个内容载体啊 , 它在我们生活中的占占比是非常非常低的 。
可能现在你的朋友圈可能只有 1% 是用音频或音乐来表达的 ,但你可能有 80% 都是带图的 , 可能 10% 是带有视频的 。
但是我理解音乐应该是介于图片和视频中间的载体 ,因为它的制作难度比视频要低 。
对 。 我觉得 AI 生成音乐 , 我感觉到目前为止在所有的这些 AI 生成的类别里面肯定是最被低估的 。
它的成熟度 、 完善度已经非常好了 ,而且它其实就是音乐本身它也是种表达形式 。
对对对 。
对 。 而且它是跟文字能强挂钩的 。
对对 。 比如说唐诗宋词 , 这些就是音乐 , 它有乐理的嘛 。 只是说我们这代人的能力所限 , 导致我们无法使用 。
这个艺术变成一个你的可用工具之后 ,其实我觉得它的占比会比现在可能要高非常多 。
这个还是挺有意思的 。 可能后面会改变非常多的事情 。 我们现在其实自己团队里面已经每天在玩 ,在生成各种各样有意思的东西 。
确实挺好听的 ,而且 。
这个有点像当年的手机摄像头的概念 。在一开始没有摄像机的时候 ,其实能够拍到的人很少 。 大家要搞完照片 ,其实你要去摄像馆花几十块钱 , 你可能一年拍几张 。
有了手机之后, 就算我可能不爱拍照 ,但我一年我发现我手机上可能也会拍个几百张 。 所以我觉得现在的 AI 的部分 , 最后它还是有点像一个软玩像素摄像头 。
那它的这个阶段很早期 , 所以当它后面你叠加了各种像 FaceYo、B612 这些瘦脸美白 。
各种 PS 类的 。
对 。
对 。 然后我在想未来人们听歌 , 一个音乐平台 , 它完全可以自己定制自己的所有的东西 。 就是它也没有各种玩法 , 对吧 ?
我比如说我想要一个周杰伦风格的美声的 , 给我讲语文课的一个什么摇滚的 。
无限曲库22:06
是的是的 。
对 。 然后我们也可以做各种各样新的尝试 。 比如我们这里后期其实可以插一首古诗做的歌曲 , 我觉得还是会蛮有意思的 。
可以啊 。
青山鸟飞绝 , 万金染重念
, 古粥锁骊翁 , 独调寒江雪
。
就是当我知道你喜欢李宁的时候 , 我完全可以用李宁的声音给你 。 因为你看现在像地图里面 , 比如说像郭德纲啊 , 你导航是非常多的嘛 。
我完全可以用他们来给你定制啊 。
是 。
之前不是火过一次 ,他们把包括郭德纲用英语说像什么 。
对对对 。 是的 。
对 。 你可以完全让郭德纲用唱歌的方式说像什么 , 对吧 ?
对对 。
然后以及说我还是觉得你刚才讲的很多呢 ,其实它就上一代还是搜索 , 对吧 ? 现在其实很多是包括快音很多做推荐 , 对吧 ?
那下一代如果是纯生成 , 这里面其实就还是我想讲它是一个无限曲库的概念 , 对吧 ? 它不是一个从 0 到 1 生成的概念 。
而且它有更强的交互定制 。 因为你生成之后 ,其实你可以跟自己的状况做演绎 。 比如说你现在你有一些情感需要抒发 , 你完全可以直接跟一些你想要的旋律做融合 。
我突然想到一个更极端的事情 。 我觉得未来如果是端侧模型起来了 , 我是不是可以有个设备不用联网 , 我就有无限的曲库了 ?
可以啊 。
我就设备上生成就好了 。
我觉得这个点是很对的 。 而且音乐模型的参数集就是少 。 如果你想要运行语言大模型 , 你可能需要现在可能至少 7B 参数是一个最最低的吧 。
那这样的模型会比较傻 。 但是一个 7B 式的一个音乐模型 ,其实它的质量已经可以了 。
对 。 反正就是有一天你不需要搜索 , 对吧 ? 也不需要别人推荐 ,也不需要联网 , 你就是有无限曲库 。
但是我觉得还是想说不联网 , 我觉得未来的音乐其实这里面有一个很大的连接点啊 ,其实是来自于音色和创意 。
因为我们所描绘的这些人, 大家是比较有自己想法的人 ,但是大部分人其实是盲从的 。 很多比如说像 FlowGPT 需要有人教嘛 。
包括现在像 MG 虽然说已经非常好 ,但是真的会用 Metaverse 的人, 我觉得是远远低于现在会浏览 Metaverse 做的游戏的人。
对吧 ? 所以我觉得一定是他们是一个基础工具嘛 ,但是需要有一堆的创意或者说灵感和音色 , 这是一个网络 。
对 。 所以会有一个新的社区的机会吗 ? 这个里面就是也有很多的创作者 , 然后也有大量的消费者 。
我觉得很有可能会有 。 还是回到说我们需要有一个基础判断 , 就是一个有音乐知识的人 ,他所制作的内容是不是会比一般做的内容好 ?
这个内容质量要好要好多少 ? 如果大家会认为它要好 5%、60%, 甚至好一倍 , 那一定需要这个社区 。 因为对用户来说 , 我觉得个性化是一种需求啊 ,但是个性化的前提是质量足够 OK。
所以如果是一个 80 分和 90 分的区别 , 那我觉得大家一定会选 90 分的 。
我现在听下来 , 我觉得 Suno 很多歌已经非常 OK 了 。
是的是的 。
就是它现在到 V3 嘛 , 对吧 ? 大家觉得它大概对标 GDPT 3.5 嘛 , 对吧 ?
没错 。
对 。 那再到下一个版本 , 我觉得已经不需要人了 。 就对我来讲至少是可听的了 。 我已经想不到说人还能把它再改成什么样 。
Suno V3 的版本质量是不错的 ,但是我觉得你把它和你现在歌单里面做这种对比 , 我觉得这个差异是很明显的 。其实你对 AI 是有优待 ,因为你觉得它超 。
大家对它的期待比较低 。
它超过你的预期了 。 对对对 。 但是我觉得最后的实质是要与同样一个起跑线来看待 。
明白 。 就是现在 AI 做的可能像是比如一个一两个人的工作室搞出来的一个小制作 , 对吧 ? 大家听起来觉得有点意思 , 挺好听的 。
未来展望25:59
但你是觉得说还是要把它封装成一个像现在这样 。 所以你觉得最终五年后十年后, 整个的音乐行业会变成什么样子 ?
我包括两部分啊 , 第一部分是目前已有的 , 我们定义的就是当下典型的这个所谓的音乐行业 , 对吧 ? 另外就是 AI 带来的一些额外的 , 我们刚才讲各种突破性的一些场景空间 。
明白 。 当前行业我觉得是未来它应该是一个极大的 UGC 或者 AIGC 的音乐 , 我觉得会重新出来 。 所以它的作品质量会被用户卷起来 , 内容质量会远远超过当前的量级 。
所以未来的机会应该是用户和 AI 来共创 , 然后当然 AI 可能比例会越来越高 ,但是用户的一些灵感啊 、 创意想法 , 它也会有更大的发挥 。
这个就像比如说你摄像头变得更清晰 、 更高清 ,但是你无法替代谁来决策定我要拍哪一个角 。 所以我觉得这个内容的通过量可能会非常非常多 。
所以它会多到以至于传统的音乐平台 , 传统的 IP 音乐的占比会被大大压缩掉 。 对 。 而且这些内容它会跟社交媒体做非常深的融合 ,因为用户会对于他自己的内容会有更大的珍视和宣推 。
你知道你会发朋友圈 , 发抖音吧 ? 那所以社交媒体上我觉得这个内容的占比会非常非常高 。
对 。 所以它就变成了一个 UGC 的一个制作平台加内容分发平台 , 然后再加用户可以基于内容做更多的创 。
尤其是人的审美 , 我觉得审美是非常多样的 。 这也是我最近发现一个问题 , 就是我觉得模型它现在有一个地方是它非常容易过拟合 。
比如说我最近跟我们朋友聊 , 我觉得喊麦是一个我觉得非常好的场景 ,但是所有音乐模型都没有人进入喊麦 , 包括我们自己的模型也没有喊麦 。
有时候我们有语料库 ,但我发现他们把喊麦从语料库给踢掉了 。 我觉得这是个非常离谱的事情 。
所以我现在让他们重新去做一个喊麦模型 。
对 。 我觉得从某个角度来讲 , 我刚才想就是所有的说话的场景 , 所有的语言表达的场景 , 可能都会被音乐去慢慢的吃掉其中的一部分 。
对对对 。
比如我不知道 , 可能是 5%, 可能是 10%。
对 。 这就像表情包的概念 。
对 。
然后我觉得这个其实是 C 的场景 。C 我觉得这是一个完全新的机会 。 然后第二个部分 , 我觉得它有存在 2B 可能性 。
假设你是一个夜店 , 你想要定制你这个夜店的唱歌 , 那你大概率不会是老板自己来做 。 你大概率也是我花个 5000 块钱 , 我找几个小的音乐人你给我定制就可以了 。
对 。 以后就是每个线下场景也都有自己的歌单 ,而且它是真自己的歌单 , 都是完全自己生成的 。
对对对 。 制作的过程它可能会自己动一部分 ,但大部分工作它可能还是会有一些 2B 的服务出来 。
对 。 所以我整体听下来 , 我觉得在 AI 生成的这么多类型里面 , 你说图片 、 文字 、 视频等等 , 好像都不会特别快的取代非常多的人, 或者给行业带来特别彻底的变化 。
但是音乐领域 , 我现在听起来好像会是变化很剧烈的一个行业 。
对对对 。 因为比如说音乐确实它不管是内容的深度 , 还是说它内容的多样性 ,在当前都没有特别好 ,但是 AI 又能够赋予更多的多样性 。
好 。 那我们就一起来期待一下今年 AI 音乐后面的变化 。 然后最后呢 , 再给大家放一个小彩蛋 , 就是我们用快音的采集了一下我自己的声音 , 然后用快音写歌帮我生成一段片尾曲 ,也正好宣传一下我们的播客跟我们的活动 。
大家可以再听下感受一下 。
欢迎光临我的 AI 私董会 , 恰巧我就在深圳 ,有一场活动欢迎大家订阅转发支持我们的播客 。
