4242章经2023年8月19日· 1:14:09

这个男人帮 5 万个 AI 应用接上了大模型 | 对谈 Dify 创始人路宇

本期对谈 Dify 创始人路宇,他是国内最理解大模型落地的创业者之一。路宇详解了 LLMops 的定义、Prompt 工程、Embedding 和 Fine Tune 三种应用路径,以及 Agent 的三种形态与局限。他分享了 Dify 平台上 5 万多个 AI 应用的实际落地场景,并提出未来模型小型化、数据向量化、多模态训练是三大发展方向。曲凯还补充了自己投资 Dify 的逻辑,看好中间层在分散的大模型市场中的平台级机会。

  1. 0:00开场
  2. 0:34LLMops
  3. 7:07工程化
  4. 15:48Agent
  5. 23:20Prompt
  6. 31:17格局
  7. 38:55LangChain
  8. 48:23落地
  9. 51:57展望
  10. 1:02:44识人
  11. 1:08:49中间层
  12. 1:11:47通病

转录文稿

开场0:00

There's something there.

曲凯0:18

我们今天请到的嘉宾是 Dify 的创始人路宇 。 路宇呢 ,是我们上半年合作的钻石客户项目 ,也算是合作伙伴 。

是我上半年自己看到的 AI 里面最喜欢的项目之一 ,也是市场上很多人都非常喜欢 、 其实名气还蛮大的一个项目 。

LLMops0:34

曲凯0:34

你们定位其实叫 LLMops, 你给大家大概解释一下这是什么定义 。

张路宇0:39

LLMops 其实这个概念很显然是衍生自原来的 DevOps。 我原来就是做 DevOps 产品的 , 我在开发者工具这块的东西可能做了五六年的时间 。

传统的 DevOps 它指的是软件的研发和运营一体化 ,是说你的运营过程是持续迭代的 , 和开发之间是快速反馈的 。

那么到了现在大模型的背景下呢 , 自然我的背景会去想一个基于大模型的 , 我们说它是 AI 原生应用也好 , 或者什么应用也好 , 它背后需要哪些运营过程 。

我们认为这里 LLMops 和 DevOps 它有一个最接近的地方 , 就是它都有一个需要持续的迭代改进的一个过程 。 也就是说你想基于 AI 去做一个应用 , 如果你不去接受市场的用户的快速的反馈去纠正你原来无论是 Prompt 也好 , 你的这个 Agent 也好 , 模型也好 , 去改进它的话 , 它就没有办法去达到你想要预期的那个结果 。

所以它不是和传统软件研发一样那种瀑布的 , 就是一次性干三个月然后就上线了那种 。 所以这是区别 。

所以说 Dify 的这个 LLMops,也就是说我们是一个基于大模型的这个应用开发的一套完整的技术站 , 既包括了一个开发框架 ,也包括了一个运营工具 。

曲凯1:48

嗯 ,Dify 我觉得很多人第一次听会误认为是那个 Web3 的那个 Dify,其实是 Dify。

张路宇1:55

其实我们就是 DuitFolio,而且这个名字是 GPT 帮我们起的 。

曲凯1:59

对 , 所以 DevOps 其实就是 Develop 加 Operate, 就是研发加运营 , 对吧 ? 那像你刚才讲传统的 DevOps, 它其实也有那个 Ops 运营那部分嘛 , 对吧 ?

那个的运营跟现在的这个大模型的运营的区别是什么 ?

张路宇2:12

在传统的 DevOps 里 , 这里的运营其实翻译过来应该不叫运营 , 叫运维 。 它运维指的是偏基础设施的服务器监控啊 、 可用性啊 , 它本质上更多的是看一个叫做应用的可用性啊 、 性能好不好 。

但是我们到了 LLMops 的时候 , 我们去定位这个 Ops 呢 , 我们把它定位是更偏向叫运营 。 因为我们这里的运营指的是说很多非技术人员去参与到一个 AI 应用背后的塑造定义的过程中 。

因为我们相信 AI 应用绝对不是说像原来一样少数几个工程师然后写完之后就上线它就定型了 。

它实际上有大量的懂业务知识的业务人员 、 运营人员 、 销售人员啊 , 各种各样的人员 , 对吧 ?

他们把他的经验去灌到大模型里面 。 所以说我们认为这个 Ops 是向更多更多人去开放的一个概念 。

曲凯3:01

嗯 , 现在你们应该算是这个领域的绝对第一名。 就是几个指标 , 一个是现在的 GitHub 的 star 应该到快 7000 了 。

张路宇3:09

对 , 我们差不多从 5 月中旬开源到现在有 7000 star。 然后呢 , 我们的那个安装数 , 我们在那个 Docker 镜像拉取的安装数 ,也能看到差不多有 1 万 , 外面有 1 万多个安装的这个私有化部署的版本 。

曲凯3:22

Docker 1 万安装数是什么意思 ? 我今天会扮演听众的角色 , 所以有的问题我觉得大家不太理解我就会问一下 。

那其实是我也不太理解 。

张路宇3:31

简单来说 , 你可以理解为我们 Dify 的私有云的版本被打包成了一个镜像或者说压缩包 。 你可以理解为压缩包 , 这个压缩包呢 , 我们可以跟踪到下载的次数 。

它下载不是这种简单的浏览器下载 , 它是通过一个命令下载 , 它必然是会安装到它的服务器上的 。

曲凯3:47

OK, 类似于一种下载调用的感觉 。

张路宇3:50

你可以理解为 Dify 在外面有接近 1 万多的私有化的安装数 ,以及说我们公有云的云服务版本现在能看到 4 万多个应用 。

曲凯3:58

嗯 , 真的大家用它做出来的大模型的应用 。

张路宇4:02

对 ,因为我们今年也看了很多 AI 产品嘛 , 就是我们前面几周也在跟用户一直做指名会啊 , 或者各式各样的活动 。

我们发现 Dify 的受众开发者啊 , 它的质量是非常高的 。 第一是他们跟我们讨论非常严肃的问题 ,他们是想拿大模型的能力去做各种的应用的开发投产 , 无论是面向市场的创业 , 还是说卖给甲方 , 还是说满足公司里的各种业务需求 , 哪怕仅仅是一些实验性的 , 都是非常严肃的情景和严肃的需求 。

曲凯4:34

其实是自从 Dify 开始 , 我们才比较关注 GitHub 这个平台的 。 我们之前其实看开源看什么这些不多 。 我其实自己特别喜欢 GitHub 的现在 , 我觉得里面真的是有很多人在无私的奉献 ,而且它可以收到很多全球的正反馈 。

张路宇4:49

大型同性交友社区 。

曲凯4:51

对 , 我们现在也会经常每天去扒一下说 , 哎 , 哪些项目它得了多少 stars, 对吧 ?Dify 当时我记得是我们聊的过程当中上线 , 然后几天就冲到了大概两三千 , 还是三四千 。

张路宇5:04

对 , 我们是差不多一周冲到三千 。

曲凯5:07

是 ,是 。 但你们其实也没做太多的运营动作嘛 。

张路宇5:11

我们真的除了发 Twitter 就几乎没有做运营动作 。

曲凯5:14

啊哈 , 那你的 Twitter 就我记得几百粉丝 , 还是多少粉丝 ?

张路宇5:17

现在是有好几千 , 我说话都很小心 。

曲凯5:20

嗯 , 对对对 , 你说话一定要小心 。 但后来我们听说其实 GitHub 上还也有那个基于 star 的 SEO。 我们之前其实有两年看消费品牌 ,不管是跨境还是什么也好 , 发现有人就是刷单啊 , 刷空包 。

那 GitHub 上现在其实很多投资人也会去看 , 对吧 ? 去用 stars 来衡量 。

张路宇5:40

四大驱动开发嘛 。

曲凯5:41

对对对 , 这个是事实嘛 , 现在真的是有很多基于 GitHub 的 SEO 去做 stars。

张路宇5:48

我就会收到很多邮件 , 老外的或者什么印度的 , 哪里给我发什么 , 你给我多少多少钱 , 我们可以帮你刷到多少多少 。

我确实收到过很多 , 我没有理他们而已 。 我也不知道做这事代价 , 我肯定不敢做这事 。GitHub 现在的 star 是有水分的 ,因为今年本身 AI 就给 GitHub 注水了 。

不同题材的项目也不能放到一块比 , 这种全自主 Agent 的 , 它自然比我们这种什么 LLMops 的品类可能要回个档次 。

曲凯6:14

它其实就跟文章是一样的 , 对吧 ? 你是一个热点主题 , 自然流量就是高的 。

张路宇6:19

对 ,但是有别的手段 , 比如说我们看一个项目 , 可以看它别的数据 , 跟它这种惯常性的在用的数据关联 。

比如说我们看我们的镜像被拉取的次数 , 如果是一个 Python 项目 , 可以看它 Python 包的被拉取的次数 , 什么 npm 的也会有 ,npm 前端的包的拉取次数 。

看这些数据会比单纯的看 star 要靠谱一点 。 你可以看一下 Google 上搜索的趋势 , 几个数据要结合到一块去看 , 你能更反映出这个数据的现实 。

因为 GitHub 上有很多开发者用户是今天打开一个项目 , 刷一眼 , 哇 , 太牛逼了 , 点下心 , 就跟浏览器点收藏一样 , 然后关掉了 。

这是很多人的行为模式 。 第二是 GitHub 它本身有马太效应 , 它有日搒周搒月搒 , 搒者越强嘛 , 就是你上了搒之后你会突然又增量一部分 , 这个都很正常 。

工程化7:07

曲凯7:07

对 ,但我们反正今年看了很多项目 , 所有人基本也都在问说到底现在市场上真正能落地的 AI 项目有什么 。

我不知道在你看来 ,因为你上面有这么多 , 你说 4 万多个应用嘛 , 对吧 ? 里面到底有没有哪些规律 , 或者什么是靠谱的啊之类的 。

张路宇7:23

我们一层一层往下看啊 , 首先是模型层面 。 模型层面现在我们看到的是 OpenAI 明显是模型领域的领军者 。

它无论是在模型能力上, 还是我们说 API 接口 ,也就是说它提供的功能上, 都会比其他模型要好出这么一大截 , 可能是一个 80 多分的水平 。

第二名可能 Claude 或者其他的 , 可能就是在六七十分的水平 , 离它有一定差距 。 然后我们还能看到这个很多拿开源模型的 , 这种 Llama 呀什么的 , 各种去折腾这些的都有 。

但是我们认为首先你想现在去做一个离生产 、 离落地最近的首选的是 OpenAI 的模型 。 当然咱们今后可以把它换掉 , 比如说你看到更好的国产的或者开源的模型 , 可以换掉 。

这个模型层你接入进去之后, 你紧接着就会去定义你这个应用 。 我们现在从简到复杂 , 可以把这个应用的中间的服务层可以定义几个级别 。

最简单的是说我们叫 Prompt as a Service, 它是由几个简单的 Prompt 组成的 。 比如说你想去做一个文法的纠正啊 , 或者说评论的积极还是消极这种分类啊 , 这是大模型的基础能力 , 这是一种应用 。

这种显然它不能去作为独立的应用去做 , 它可能是你原来的应用的增强 , 或者说你可以把它分装成更产品化的应用 , 比如说 Jasper 可能大家听说过 , 帮你大量做这种市场文案这样的应用 。

这是我们见到的最简单的第一类应用 。 然后再往上基于私有的数据 ,因为大家知道这个 OpenAI 这样的模型 , 大部分数据是截止到 2021 年的嘛 , 我们就会给它去提供这个私有数据搞进去的这个方法 。

让大模型了解一个私有的数据有两种方式 , 一种是说微调这个模型本身 , 另外一个就是做模型的 embedding。

模型的 embedding 就是一种把私有内容嵌入到 Prompt 里的一种 ,也叫 Prompt 工程的一种方式 。 它基于大模型现有的能力 , 再加上一个大家理解为一个外脑 , 去集成你各种的私有各种的知识 , 知识库搞进去 。

这是一种方式 。 这样的话 , 你的能力 , 大模型能回答的问题就不仅限于它现在有的东西 ,而带有了你私有的体验内的啊 , 或者说一些知识 。

曲凯9:25

但 embedding 这一步 , 私有的是什么时候去调用的呢 ? 它跟 Prompt 的区别具体是什么 ?

张路宇9:30

Embedding 你可以理解为它是用户或者开发者调用大模型前的一个 Prompt 的组装过程 , 我们叫 embedding 嵌入嘛 ,其实嵌在 Prompt 里的 。

比如说你现在拿 GPT 这样的接口 , 可能有 8K, 对吧 ?8K 的这么一个 Token。 那比如说我问大模型说 , 今年曲凯老师做了哪些项目啊 , 对吧 ?

那大模型是不知道这个能力的 。 但是在回答这个问题之前 ,其实像 Dify 这样的产品 , 我们就巧妙的把你的这个问题和我们已经有的向量数据库或者其他关系数据库里面的各种数据去组装成一个完整的问题 。

就是说可能组装成曲凯老师是谁 , 对吧 ? 他今年我们搜索到他今年的做的项目是可能有哪些 , 然后呢 , 用户问了什么问题 , 这几个东西拼成一个更长的一个 Prompt, 给到大模型之后, 大模型基于这些信息去做了一个文字的生成过程 。

那这样的话 , 它基于所有已知的信息来好好的回答你这个问题 。

曲凯10:25

调用的信息对于大模型来讲 , 它其实它就是 Prompt 的内容嘛 。

张路宇10:29

对 , 对它来说只是一个 Prompt。

曲凯10:32

所以有可能对它来讲 , 它觉得这个人发了一段超长的 Prompt。

张路宇10:35

你可以这么理解 , 没有问题 。 对 , 只不过说我们把它叫做 Prompt 工程的原因是 , 我刚才说的这个过程很简单 ,但实际在做的时候会有很多工程细节 。

比如说一个 8K 的 Prompt,因为一共就 8K 嘛 , 你就得知道说我得命中什么词 , 命中什么样历史的私有数据塞进去 , 塞多少 。

比如说一个 8K 的这个上下文指的是用户提问占了一部分 , 然后你命中的信息占了一部分 , 一条也是 , 五条也是 , 十条也是 , 多少 。

然后还要给它回答问题预留出 Prompt, 就总共的容量是 8K。 那么这里字符或者说 Token 的分配 , 就会有很多工程问题 。

曲凯11:15

嗯 , 明白 。 这里还没有涉及到向量数据库的部分 。

张路宇11:19

这里实际上用到的向量数据库 。

曲凯11:20

对 , 就是 embedding 其实会用到向量数据库 。

张路宇11:22

对 ,embedding 本身不用 ,但是 embedding 搜索到的一些私有的数据 ,是用到了向量数据库的相似度匹配的一种功能 。 它有点类似于搜索引擎 ,但又不太一样 。

曲凯11:33

对 , 它核心也是为了节省那个 8K 的 Token, 对吧 ? 我可以这么理解 , 对吧 ?

张路宇11:37

是的 。

曲凯11:38

我们再回到刚才你讲另外一条 , 就是 fine tune 的微调 , 对吧 ? 但好像微调我觉得一开始的时候大家讲的比较多 。

我们记得我们二三月比较早期的时候聊项目 , 大家都问说 , 哎 , 你们是不是 fine tune,fine tune,fine tune。 后来好像越来越少人讲了 。

张路宇11:50

坦率讲 , 我们做 Dify 这个项目刚开始 , 我们甚至不叫 Dify, 我记得当时叫 AI timer,AI 驯兽师 。 当时我们最早定义项目时候 ,其实我们就想做 fine tune。

曲凯12:03

因为我们觉得 。

张路宇12:03

那个名字还挺烂的 。

曲凯12:04

特别烂 , 对 。

张路宇12:05

那当然很早期 , 很概念期 , 我们认为说想把大模型塑造成自己的样子 。 因为你想在二三月那个比较早期的时候 , 每一个开发者看到大模型的时候 , 都非常兴奋 , 想我是造物主 , 我可以去做一个自己想要的这个 AI 的形态出来 。

那么第一想到的就是我可以去调这个模型 , 微调 。 但是微调这个事呢 ,不太好操作 。 第一个是因为它要求的数据量蛮大 ,而且要求许多的 QA 形式的样本 。

比如说我想让大模型知道曲凯老师是谁 , 那么想让大模型知道这个数据 , 基本上要这个问题换着花样问 , 问 20 遍 , 再换着花样回答 20 遍 , 再交给它 , 就灌进去 , 它可能才能达到这个效果 。其实这个数据准备的过程就非常麻烦 ,因为你可能就没有这样的数据 , 你可能胡编乱造 , 或者来自用户的回答 , 你得有这个数据 。

而且你让它学习更多东西 , 就得有更多的这样数据 。 还有一个点就是微调的时候 , 实际上是要把一个模型去加载到你的 GPU 显存里面的 , 就是它非常吃资源 。

所以说如果说你自己的开源模型 , 如果你要做微调 , 你可能需要运行那个模型 , 就是我们叫推理这个模型的机器配置的两到三倍 。

如果你是用 OpenAI 这种商业模型 , 它可能会给你一个微调的 API, 你把数据喂给它 , 那么可以微调 。 所以微调其实是一种不太划算的 , 只有在特别必要的情景下才需要用的一种能力 。

它对于大部分开发者来说还是门槛太高了 。

曲凯13:33

对 , 所以其实刚才讲的那个场景 , 我觉得就是大家用 embedding 能够变相去解决这个问题了 。

张路宇13:38

对 , 我当时我把大模型本身跟大模型本身能力的工程化 , 我当时写了三步放在我们 blog 上 。 第一步是 Prompt 工程本身 , 第二步是 embedding, 第三是微调 。

这基本上就是从易到难的三种选项 , 就是基于你的情景 , 你想怎么做 , 你可以选择一个划算的方式 。

曲凯13:56

比如说一个什么典型的情况 , 你觉得更适合是用 fine tune,而不是用 Prompt 或者 embedding?

张路宇14:02

比如说你希望一个大模型在没有很复杂的 Prompt 的情况下, 它默认回答的风格 。 比如说你做了一个 AI 是用来写诗的 , 你想它写的诗非常接近你想要的这种风格 。

曲凯14:16

就是它更普适的对这个大模型的性格进行了改变 。

张路宇14:20

对对对 ,是 ,是 ,是 。

曲凯14:21

OK,OK, 明白 。 这里面还有个东西是 few-shot 嘛 ,是吧 ?few-shot 是在哪一步的 ?

张路宇14:27

One-shot,few-shot, 它也是 Prompt 工程的一种技巧 。 实际上是我看到论文是非常有用 , 它能对你的大模型回答的结果符合用户预期的这个概率 , 能净提高百分之二三十 。

解释一下, 就 one-shot,few-shot, 它实际上是在 Prompt 里面去给它一个少样本或者多样本学习 。 因为文本大模型它本质是一个文本补全机制 , 就是说你告诉它一堆东西 , 然后呢 , 它试图在你这后面去玩文字接龙 ,在后面拼 。

但是你只给它 Prompt 的情况下 ,其实是给它一个指令 。 比如说你说你让它写一首歌 , 它歌词应该是什么样的风格 , 那首先它要做的是理解你说的这个东西 。

你说咱俩之间沟通 , 可能我跟你说 , 你都不一定能理解 , 我可能都要举个例子 , 那大模型更是这样 。

所以呢 , 作为一个文本补全的这么一个原理的一个模型来讲 , 你给它一个或者三个 、 五个例子的时候 , 实际上是在对你的指令进行一个补充 , 让它去在它的参数里面去寻找更接近你想要的这个东西的结果 。

所以说我们如果说想控制大模型的回答这个准确度呢 , 这个可能 one-shot,few-shot 是必不可少的一个技巧 。

曲凯15:38

嗯嗯嗯 , 这个基本就是比较浅层的所有的可能大家能用到的 、 接触到的东西了 , 对吧 ? 再往深呢 , 就是说就是推理啊 , 就是真的是从再去自己去模型之类的东西了 。

张路宇15:48

这里就不得不说这个 Agent, 我们前面说这个 Prompt 工程 , 再说到 embedding, 再说到模型 , 本身都是在解决一个问题 , 就是模型在单次会话的时候回答什么的问题 。

Agent15:48

张路宇16:01

但是我们在考虑一个复杂的情景中, 比如说我要一个 AI 的机器人帮我去订一张火车票 、 机票这样情景中, 它其实模型需要一个多轮对话 , 或者说多步的推理过程 。

那这个推理过程 , 我们把一系列的能力分装进去 , 它就是所谓的 Agent 的一个技术 。Agent 就是说意味着让大模型利用它的推理能力 , 利用它的上下文去反复的去推演和结合它手上可以用的这个工具 。

工具是打引号的 , 就是比如说搜索工具 、 上网的工具 、 调 API 的能力等等 , 去完成一系列连续的动作 , 最终达到一个目标 。

所以这个就是 Agent。 然后呢 , 现在 Agent 有三种 , 第一种是纯手工编排的 。

曲凯16:45

怎么讲 ?

张路宇16:46

纯手工编排 , 就你第一步干嘛 , 第二步干嘛 ,并且调什么工具 。

曲凯16:49

那还叫 Agent 吗 ?

张路宇16:50

它不是 Agent, 编排的就是 chain, 就是一个纯粹的手工 。

曲凯16:53

RPA 也能实现吗 ?

张路宇16:54

对对 ,RPA。 第二种是完全自主的 Agent,但是这个自主 Agent 非常的不可控 。其实我们现在在探索一种中间形态 , 用了部分的编排的能力 , 再混合了它一些自主的能力 , 去实现一个相对可控的状态 。

以及反过来 , 如果一个 Agent 它表现比较好的时候 , 就是完全达到我预期的时候 , 我可以把它的动作和一些工具反过来预存成一个编排过的 Agent, 相当于它完整的进行了一次推理 , 达到效果还不错 。

这个过程是可以重复的 , 我们可以把它存下来 。 当 AI 有一系列动作表现好的时候 , 你得激励它 , 就反复去做这件事 。

曲凯17:29

跟养狗有点像 。

张路宇17:32

哈哈哈 , 巴普洛夫的狗 ,是吧 ?

曲凯17:33

巴普洛夫的狗 , 嗯嗯嗯 。 但我其实一直没太理解 , 就是 Auto-GPT 出来以后, 应该是最近几个月以来好像 STAR 最多的 , 最火的 , 跟大模型相关的一个概念了 , 对吧 ?

但我其实从它出来的时候 , 我就一直没有特别理解为什么它一出来引起这么大的轰动 。 因为在我的理解来看 , 我们自己还在很早时就提过说 AI 大模型发展的方向应该是从 Copilot 到 Pilot。其实本质上来讲就是人介入越来越少的这么个过程 。

那人介入到足够少的时候 , 它自然就是一个自动的系统了 , 对吧 ? 它自然就是一个 Agent 的概念 。 我觉得这是一个点 。

另一个点 , 听起来你刚才讲的那个 Auto-GPT 的本质上来讲就是给它一个嵌套的逻辑 , 对吧 ? 我先问你一个问题 , 说 :" 哎 , 你怎么拆解这个问题 ?"

然后我再给你个指令 , 说 :" 那你按照拆解你自己做出来 。" 我觉得是一个非常简单直接的一个概念 。 对 , 我不知道为什么大家现在就不管是从早年的 Auto-GPT 还是到现在的 Agent 的概念这么火 , 为什么会这样 。

张路宇18:25

包括我 , 我们都是对 Agent 这个概念非常兴奋的一群人。 我相信很多开发者都一样 ,因为我们现在已经明显看到了 AI 能提高人的效率 。

现在是叫什么 ? 现在叫做帮你更快的完成一件事 , 很快就会变成说帮你完成一件事 。 然后呢 , 再往后就是帮你替代一个人。

曲凯18:48

就是 human loop 的程度嘛 , 从人工要强介入到人工不介入的一个两端嘛 。

张路宇18:53

对 ,因为 Agent 它的这个推理过程实在是太接近人脑的过程了 。 我们总体上相信 Agent 到了一定的成熟度之后, 它就是一个员工 。

为什么大家对 Agent 和开源模型这么热衷 ,是因为我觉得它就实现了一种这个时代的技术平权 。 一个工程师 , 一个技术人员 ,他们从来没有如此接近一个这么强大的武器 。

虽然它成熟度不高 ,但大家想到的是 , 当我有了这个东西 , 我可能这个可以以一敌百啊 , 我可以说和大公司去拼一拼啊 , 做各种我想要的事情啊 。

所以这个东西对他们来说是实在是太有吸引力了 。

曲凯19:29

是 , 这个我肯定是同意的 。 这个 vision 肯定是好的 。 那我就说它 , 我感觉 Agent 它只是 Copilot 的概念的一个自然的延续 。

我觉得它不是一个质变或者多大的一个跃升的感觉 。 但 anyway, 对 ,但 Agent 我们现在看起来 , 大家对它最大的诟病就是它的成本 。

张路宇19:48

有几个问题 , 一个是它的上下文窗口还不够 ,因为你要处理一个较为复杂的工作 , 你需要一个非常完备的一个上下文 。

也就是说 , 比如说你想写一个软件项目 , 这个软件项目本身可能正常来说都是 10 万行代码以上 。 那么意味着说大模型在做这个事的时候 , 必须把这 10 万行的代码全部装载进去去做 。

第一个上下文窗口 , 我们相信这个问题随着时间可以解决 。 第二是模型本身推理的质量 , 我们现在比如说看到 GPT-4, 它的推理能力非常好 ,但是它偶尔也会出错 。

我们可以去试 , 比如说那个 ChatGPT, 它自带的那个代码解释器 , 它本身也就是一种编程 Agent。 你给它东西 , 它可能一般还要反复自己纠正几次达到效果 。

也就是说 , 它自己承认它第一次推演的结果可能是错的 , 或者信息不完备的 。 就是它推理质量现在还不够 , 这个我们相信也能解决 , 对吧 ?

第三个就是工具的质量 , 我们认为就是一个 Agent 的技术战里面 , 包括了大模型 ,也包括了我们本身的一些推理算法 、 推理逻辑 ,以及 Prompt 工程的一些技巧 。

还有就是说工具 , 解决一个情景需要哪些高质量的工具可以去满足各式各样的需求 。 比如说我之前就是我们做过一个内部的工具 , 让大模型去辅助软件工程师 , 帮助他们完成 API 的自动化测试 。

那么这个自动化测试过程中, 首先要去检查所有的 API。 我们发现市面上所有的这个 API 的定义的格式语言都很长 , 装到大模型里面就很慢 , 或者残缺了 ,不够了 , 被裁剪了 。

我们实际上就自己发明了一个可能只有一半长度的这么一个语言来解决这个问题 。 所以说这里有很多工具层面的问题 ,也需要其他技术去适应这个大模型 。

曲凯21:21

明白 。 你刚才其实提到了几个大模型的局限的点 , 对吧 ? 一个是上下文关联长度的问题 , 对吧 ?

然后这个其实类似于上下文记忆的问题 , 长文记忆的问题 , 还有就是成本的问题 。

张路宇21:32

对 。

曲凯21:32

还有什么 ?

张路宇21:33

还有比如说它有幻想 , 它有注意力不集中 。

曲凯21:37

注意力不集中指的是错记漏记 ?

张路宇21:40

并不是 ,因为我前面提到大模型它是一个文本补全机制 。 比如说你给它一个 5,000 字的 Prompt, 它会接近尾部的那些 。

曲凯21:48

对对 , 越接近的它的权重越高嘛 。

张路宇21:51

所以这个权重其实我比如说咱俩现在聊天 , 我给你吐了 1,000 个字 ,其实你听我话讲完之后, 你不管我可能说了很多废话 、 口水话 , 你都能抓住我的重点 。

因为这里不仅是你作为人类的高超的理解力 , 你还能感受到我的这个情绪啊 、 停顿啊 , 这样东西 。

但大模型基于文字想去获得这个信息是比较困难的 。

曲凯22:10

对 , 我其实跟我们同学也经常提这个点 , 就是抓重点这件事情 。 我觉得人都很难做到 , 不同的人让他读一篇文章 , 每个人抓的重点都是不一样的 , 更别说大模型了 。

张路宇22:21

也就是说在现在大模型眼里 ,因为现在还没有进入全面多模态的这个情况下, 基于文本你给它 5,000 个字 , 每个字对它来说权重是一样的 。

曲凯22:29

是 。

张路宇22:29

你这么理解这个事就好 。

曲凯22:31

对 ,但我听过有一种解决方案 ,是再用另一个大模型帮助这个大模型 , 对吧 ? 我先帮你把这 5,000 字总结了 , 可能问这个大模型问题 , 说你帮我把这 5,000 字总结了 , 对吧 ?

抓一些核心的重点 , 或者让它记一些核心的重点 。

张路宇22:43

对 。

曲凯22:43

然后两个模型配合着来用 , 你觉得这个是一种解决方案 ?

张路宇22:47

我觉得这个还是需要一些人工的介入 , 完全自主化的情况下其实并没有解决这个问题 。 因为你说的这个就是 Prompt 优化嘛 , 把一个长的做成短的 。

但是首先前提是它自主的完成这个从长到短的过程是 OK 的 。 而且你要给大模型下指令 ,不是说你文字短就能解决问题 , 你还是要测 , 还是要比如说 one-shot、few-shot, 你可能少不了的 。

曲凯23:09

是是 , 对 。 所以我觉得可能大多数项目 , 它日常落地的时候就是不断的在做这些事情 , 感觉在一个既定的规则底下, 它尽量的去不断的调优 。

张路宇23:19

对 , 这个就是我实际上想说的 。 现在我们看到好多软件团队 ,他们今年开始基于大模型的 API, 基于 LangChain, 基于 Dify 这样的产品在做这个事 。

Prompt23:20

张路宇23:29

但是他们首先第一个需要迈过的坎 , 就是 Prompt 工程 。其实这个恰恰是他们现在最难 。 我刚才说的 34 种路径里面 ,Prompt 工程首先是第一条 , 最简单的 ,但实际上对他们来说时间难度恰恰是最难的 。

因为首先第一 , 大家都没有经验 , 从来没有做过这个事 , 对吧 ? 第二呢 , 就是人和人之间默契都得配合 , 更不要说人和模型之间 , 对吧 ?

你其实要不停的跟它找感觉 。 我们自嘲我们的内部的这 Prompt,不叫工程师 , 叫 Prompt 艺术家 , 找这种感觉 。

首先是他们要愉悦这个事 。 所以我们你看为什么做 Dify,是因为你基于大模型的能力 , 它很强 ,但你想它达到预期这个过程 ,有很多台阶要爬 。

它并不是一个高山 , 它就是一个一个台阶你要爬 , 每一个团队都要一阶一阶的往上爬 , 爬去解决这个问题 。Dify 可能就是解决了中间很多这样的问题 。

因为我们发现很多团队在做一模一样的事 , 就是在从第一步开始 , 第二步开始去搞这些问题 ,embedding 啊 , 这个权重是多少啊 ,Prompt 的工程啊 , 这个 Prompt 应该怎么写啊 , 怎么测呀 , 就这些问题 。

曲凯24:26

但你后面打算怎么帮他们做 Prompt 的这件事情呢 ? 如果按照你这个逻辑来讲 , 后面你应该是要做 Prompt 的社区了 , 或者说做做一些相关的产品功能了 。

张路宇24:35

首先我们得有好的 Prompt 工具 , 就是一层一层解决嘛 。 第一层是 Prompt 工具 , 就是说我们传统写软件是不是有 Code 的这个 IDE, 叫集成开发环境 ,VS Code 啊什么的 。

首先基于 Prompt, 就得有 Prompt 的 IDE, 就是我快速的写一个 Prompt, 然后可能有 10 种变种 , 再快速得到 10 种结果 ,在 10 个模型下的不同的结果 , 然后怎么去纠偏 , 我预期的结果是什么样 , 现在这个写的这个 Prompt 达到的结果和我预期结果是这个 , 相比来说可能是多少分 。

就这么一个过程 。 首先你先得帮人在一个自然的 、 没有辅助的情况下能高效做这件事 , 我觉得这是第一步 。

所以我们得有 Prompt 工具 。

曲凯25:14

对 , 这个是真自然语言编程 。

张路宇25:16

对对对 ,是是 。 然后第二步你得是有一些引导 , 或者说一些模板 。其实我们可能系统内部也内置了一些模板 , 就是解决哪类问题时候 , 哪类范式是最好的 。

这个我们内置有一些模板 , 甚至比如说我们可能最近在接很多模型厂商 , 国产的啊什么的 , 我们和模型厂商的合作会比其他的产品要更深入 。

比如说你和它 LangChain 支持二三十种模型 , 什么都支持 ,但是它仅仅是简单的支持 。 我们在做模型的支持 , 我们会和模型厂商去合作 , 会跟它聊你这个模型的特征什么样的 , 你能不能把你技术黑箱里面那些东西打开 , 一些给我看一看 。

曲凯25:54

它给你看吗 ?

张路宇25:55

它会告诉我 ,因为他们有调试的报告 , 就是它会告诉我说解决哪类问题的 Prompt 怎么写是最好的 。

那这样模板给我过来之后, 我们的模型给开发者拿去就是开箱即用的 。 首先它跟模型厂商沟通成本也很高 , 第二我这是调过的 ,因为不同的模型它的调性都不太一样 , 甚至要换一套写法 。

那可能我有这个模板 , 就每个模型都调过了 , 你拿去用就好了 。 这就是很多很多细节帮开发者少走弯路的一个方式 。

第三种就是有点像接近你刚才举的那个例子 , 就是拿高级的大模型去辅助相对低的这个 Prompt 编写的技巧 , 去帮它去做 Copilot, 就是帮它去辅助去编写 。

你可能知道 OpenAI 官方有一篇论文 , 它指的就是说如果你拿 GPT-4 去解释 GPT-3.5、GPT-2 为什么这么回答 , 它是可以给你一个解释的 。

曲凯26:41

对 , 好像之前也有人用 , 比如 GPT-4 要生成那种问答对 , 对吧 ? 要再放到其他的模型里面去 。

张路宇26:47

对 ,是 。

曲凯26:48

所以你觉得整体而言 ,Prompt 这件事情是现在是被高估还是被低估 ?

张路宇26:53

你是说它的难度还是什么 ?

曲凯26:54

难度 、 意义 。

张路宇26:56

我觉得它的潜力被低估了 , 它的难度也被低估了 。

曲凯27:01

OK。

张路宇27:01

对 。

曲凯27:02

因为其实是 OpenAI 自己的人之前写过一篇文章 , 说大家不要 , 好像是 Twitter 吧 , 还是什么的 , 就大家不要过于花力在 Prompt 这件事上, 然后说它其实未来它可能是一个阶段态的东西 。

张路宇27:15

Prompt 现在可能还必不可少 , 首先 Prompt 确实可能是不可或缺的一个东西 ,但是写 Prompt 的难度一定会越来越低 ,因为模型本身在改进 。

像我们这种工具可能也会提供很多研发的这种范式 。

曲凯27:30

是 , 很多人是我写一段 Prompt, 这段 Prompt 的作用呢 , 就是帮助把你的话变成一个更好的 Prompt, 对吧 ? 再输入进去 。

反正就有很多嵌套的东西 , 我觉得还挺有意思的 。

张路宇27:39

对对 ,是 。

曲凯27:41

倒回到刚才那个大模型的问题啊 , 大模型所以除了注意力什么的 , 还有什么别的你看到的问题吗 ?

张路宇27:47

成本也是一个问题 , 特别纠结成本问题 。在一些比较窄的领域 ,因为你最终做应用可能是映射到几个 , 比如说法律啊 、 教育啊这种垂直领域 ,但是一个通用大模型 , 它有好处 , 它的同时非常多 , 推理能力非常强 ,但是它衍生的问题就是说它的性能会慢 , 它的成本也会高 ,因为这是它代价 , 它从 0 岁到 18 岁之间这个爬坡的代价 。其实我们希望有

垂直的模型 , 然后呢性能性价比又非常好 。 我之前跟模型厂商也聊过 , 理论上其实不太容易存在这样的模型 。

比如说你们现在可以看到一些开源模型 , 可能很小 , 什么 6B、13B, 然后又说可以简单的微调能达到一个专业领域的 。

它实际上在文字的模拟 , 就照猫画虎这种事情上, 它确实能有很好的效果 。 就你微调完了之后, 它很懂法律 ,但是你但凡问它一些有推理的一些事 , 就不行了 。

就是有逻辑的事它就不行了 , 它没有推理能力 ,因为它的模型参数不够 。 所以这个是目前一个主要的问题 。

所以我们可以总的来讲 , 可以说其实大模型的学习能力相比人来说还是挺笨的 。 因为你想它要吃掉几乎全网的数据 , 它差不多达到了一个可能成年本科生的这么一个水平 。

那人可能说今天一天 、 两天在课堂上, 或者说网上看到一些东西 , 它学习理解速度要很快 。 就像我刚才说的那个 few-shot 的问题 , 微调的问题 , 我跟你说一个问题一下就明白了 , 那大模型得说 20 遍 。

曲凯29:12

是 ,但也有一种观点是说其实是人类提问的能力太差了 ,由理论来说所有的答案都在大模型里面 。

张路宇29:19

对对对 , 这个问题确实比较难解决 ,但我们相信多模态能解决这个问题 。在模型层面上的多模态训练可以解决这个问题 。

我经常举这个例子 , 就是说跟大模型问 , 你问它一个什么某一种木材 , 非洲分木的一个木材做的吉他 , 它什么音色 , 它可能会跟你说什么温暖的 、 锐利的 ,其实它不明白它在说什么 。

你问它另外一种木材是什么音色 , 它可能也会这么回答 。 原因就是说这里没有对齐 , 它对这些词背后的那个意义没有概念 。其实说概念本身就是错的 ,因为人在描述这个音色的时候也不知道用什么 , 所以就用了几个接近的词可能说一下 。

所以就是人和人之间沟通都对这个事有信息的损耗 。

曲凯30:02

我明白 , 我明白 , 我完全理解 。 我给你举个例子 , 就好像我期末考试突击了两天 , 要去答卷 , 感觉我写的好像是正确的 ,但我其实也不知道我在写什么 。

张路宇30:12

对 ,是 , 就是说大模型的训练过程中, 就会有一些已经不太准确的信息 。 你再给它一个不太准确的问题 , 它还要去试图回答你 , 用户还会说你怎么回答的不对 。

曲凯30:22

就鸡同鸭讲啊 。

张路宇30:23

对对对 。

曲凯30:24

你接触了这么多大模型 , 你们团队应该有自己一套评估大模型能力的体系 ,有吗 ?

张路宇30:31

我们有自己的角度 , 市面上现在有很多评分的体系 , 国内的海外的 , 我知道的评分搒单啊什么可能就 20 个以上了 。

首先我相信那些数据 ,因为我们再去做一个评估的手段成本非常高 , 可能做的还没有他们专业 。

曲凯30:48

但也有很多大模型在刷题嘛 。

张路宇30:49

对对对 ,但是你就取一个均值 , 你大概能知道它是什么水平 。 那我们的评估标准是我们先和大模型真的近距离接触 ,因为我们去拿它去调优各种东西 ,以及说我们有用户的数据 。

比如说 Dify 上现在有接近可能接近 5 万的应用 , 这 5 万的应用它在哪个模型上最终选择哪个模型 ,以及说哪个模型的效果可能更好 , 性能更好 , 然后呢有留存 , 我知道这些数据 , 这个对我来说就够了 。

曲凯31:16

是 , 目前看起来各个大模型之间各有优劣 , 对吧 ? 在某些领域里面 , 对吧 ? 比如 OpenAI 它可能推理能力更强 , 然后那个 Claude 什么上下文更长等等。

格局31:17

曲凯31:26

你觉得未来大模型这块大家会是混用的一个情况吗 ? 还是怎么样 ?

张路宇31:30

会的 , 会的 , 现在就已经有啊 , 比如说文本生成的环节 、 推理的环节 、embedding 的环节 , 甚至还有这种声音转文字 、 文字转声音的环节 , 很多环节现在在我们的这个工程里就已经开始混用了 。

等接下来就是这种多模态出来之后,OCA 的这种能力 , 各种能力接上去了 , 它一定是多个模型之间配合的过程 ,因为每一个模型都会有自己的擅长领域 ,以及说它们的成本也会不一样 。

曲凯31:54

所以这块其实是 Dify 能产生很大价值的地方 , 对吧 ? 也是相对这个系统会有复杂度的地方 。

张路宇32:00

对 , 我们想象两种情况 , 一种是说未来商业模型垄断了整个市场 , 对吧 ? 在这种情况下, 那么每一个模型会提供自己的一套解决方案 ,但这个解决方案呢 , 就是整个封闭在它的那个体系下 。

比如说 OpenAI 可能有自己一套 ,Claude 可能有自己一套 ,Cohere 有自己一套 , 这一套可能有它自己解决方案 ,但是你可能就有一个环节不满意 , 你就想用另外一家的 。

这是一种情况下, 另外一种是开源 , 开源的情况下可能我们会看到像现在百模大战 , 一堆模型都出来之后, 那么它们之间在各个领域会有自己的专长 。

对于 Dify 来说 , 可能开源模型如果说繁荣的话 , 对我们来说是更有吸引力的一件事 ,因为相当于说这里的工程可以做的事情就很多了 , 大家能想象的可能性就很多了 。

那如果是封闭的这种商业模型去去垄断市场的话 , 我们可能相信一共也就 3 到 5 家赢家 , 这 3 到 5 家每家有自己一个派系 , 模型的多样性就少了很多 。

曲凯32:54

是 , 你目前看起来你觉得更倾向于哪种会发生 ?

张路宇32:57

我现在从近一两年的角度来讲 , 我觉得还是商用模型为主 , 无论在效果上 、 成本优势上都好很多 。

开源模型现在来说还是比较早期 ,但是它仍然让人兴奋 。

曲凯33:11

但 Llama2 追得很快嘛 , 然后国内 GLM 其实也效果还不错 。

张路宇33:15

对 , 我身边很多人, 我问他们一个问题 , 包括我们现在社群里面的 , 我问你们知道 Llama 的运行成本是怎么样的吗 ?

就比如说你想和达到 GPT 一样的 , 比如说你就说 100 个并发吧 , 跑起来 , 然后在服务器上, 你知道你需要多少显卡 , 大概是什么样的配置能让它稳定运行吗 ?

没有一个人能回答我这个问题 。

曲凯33:35

这是为什么 ?

张路宇33:36

但我们自己在研究 , 说明第一他们没有到这个阶段 , 第二是现在大家不在乎这件事 , 就大家享受这种做造物主的乐趣 , 我去赶紧动手把这东西搞起来 , 或者说如果去做一个技术实验 , 大家还是在这个技术验证的角度考虑更多 ,而不是说放到投产角度更多 。

我刚才提的这个问题 , 推理成本就是一个很重要的一个问题 ,不然的话你的稳定性都保证不了 。 但是你可能说抓 100 个人里面 , 可能只有一个人知道这个事 。

曲凯34:01

嗯 ,OK,interesting。

张路宇34:03

所以我觉得开源模型可能离它真正投产还是有相当长的一个距离的 。

曲凯34:09

OK, 嗯 , 明白 。 但商业化模型应该也是那几个混用 , 对吧 ?

张路宇34:15

商业模型就是你可以选一个 OpenAI 的 , 你可以选一个百度的 , 或者怎么样去各自分工去解决他们擅长的问题 。

曲凯34:24

是 , 对 , 一堆投资人会问过你一样的问题 , 包括所有做中间层的人都会受到一样的问题 , 就是这个事是不是未来大模型自己会做掉 。

尤其是国内投资人会问这个问题 , 问的最多 , 然后我一般的答案都是我觉得模型层 , 就是像我们刚才讲 , 它会混合起来 , 它是多个模型同时存在的 , 只要是多个模型同时存在 , 那中间层就是有很大的价值的 。

我不知道你现在是怎么看这个问题的 , 如果今天再有个人问你说这个事大模型是不是自己就做掉了 ?

张路宇34:52

大模型我认为代表它们一定会去做自己蛮好的开发的工具包 , 甚至是中间件服务 。 我觉得这个都挺好的 ,因为它们离模型的这种技术细节也更近 ,但是它们有这么几个问题 , 第一个是它屁股不对 , 所有的事情都是围绕它自己的那个模型去做的 。

第二个我经常说的是说云厂商做不好 SaaS, 看全球范围内云厂商几乎没有说自己在哪个 SaaS 产品上做得特别好 , 要么就是收购 ,因为它们的基因全部是导向到最终去卖资源 , 它们不对这个开发者体验 , 甚至我们说接下来泛的 Prompt 的工程师 , 或者说一些其他的 LLMops 的人员去友好 , 这件事也不是它们的基因之一 。

第三个就是它们做这个中间件本身 ,因为它不中立嘛 , 所以呢它在开发者角度来说 , 它们会保持距离 , 会比较谨慎 。

比如说现在的开发者 ,他们在选 Dify 或者说 LangChain 也行 , 选这样的产品的时候 ,他们其实就没有什么心理包袱 ,因为它知道你不是任何一家的 , 你后面的模型可以想换就换 , 我可以先拿这个 OpenAI 的能力去做一个最好的这个原型出来 , 然后再换到我想要的模型 , 这过程很自然 , 没有问题 。

但如果说你试图你拿到一个微软的开发工具包 , 只能接它的模型的时候 , 你就会有疑虑 , 万一说你模型下来跟不上市场的发展或者什么 , 那我的代码得重写吗 ?

肯定不能这样 ,因为我们做中间件解决了一个很重要的一个问题 , 就是把 Prompt 工程和它的原来的这种程序代码做结构 , 就是分开 , 就代码归代码 , 中间件归中间件 , 我们做有一个价值就是做这个事 , 我好不容易把你分开了 , 然后你还要再把我粘到一块 , 那你不行 。

曲凯36:32

是是是 , 确实 , 就是你从这个角度来讲 , 好像这个问题就很无厘头了 , 本来它的核心价值就是分开 。

然后你们现在观察了这么多个应用和大家在你平台上做的事情 ,有没有得到一些跟市场不同的一些结论 , 一些观点什么的 , 或者一些有价值的思考跟发现 , 通过实际的大家的应用你们看到的东西 ?

张路宇36:54

不管是商业模型 、 开源模型 , 就是任何开发者啊 、 厂商 、 企业要去基于现在的模型做点事 , 肯定是有一个周期 ,不管是你打样原型 , 还是说产品调通 , 再到用户进来 , 得和原来做软件一样 , 你至少得有个三个月的周期吧 , 三个月到更长的周期 , 每一个环节认真认真做 , 这个心理准备得有 , 没有那么快 。

曲凯37:15

嗯 , 用了 Dify 跟没用 Dify 到底能缩短多长时间 ?

张路宇37:19

我们观察 , 比如说如果以 LangChain 为基准的话 , 大部分的这种典型应用可能能缩短一到两个月的开发时间吧 ,但这个不是重点 , 重点是我们说 Ops 指的是后面你需要各种人参与进来 , 这个反复运营的数据维护的时间 , 很多市面工具解决不了的 , 它不帮你解决后面的问题 , 它就算帮你解决了第一个阶段开发的问题 , 它不帮你解决后面的问题

。 比如说数据集的维护 , 我们刚才提到私有数据 , 那私有数据你肯定不是录一次进去就好的 ,embedding 进去的数据需要精细的分段 , 对吧 ?

需要所有人都能掌握这个数据 , 需要给这些数据去增加权重或者降低权重 , 可能你在国内还需要什么维护一些敏感的东西 , 然后接下来 Agent 之后你会有各种各样的工具 , 哪个工具效果好你应该把它生权 , 哪一个工具不好你应该把它剔掉 ,有很多这样的这个事 , 要人反复参与进行的一个事 。

曲凯38:10

对 ,而且你刚才讲的一个点我印象很深 , 就是你说不可能这公司里面只有两个懂 AI 的人来做这些所有的事情 , 对吧 ?

未来可能是大家所有人去围绕这个来做配合 , 所以你做的这件事情 ,Dify 做这件事情就是我完全不懂 AI, 我就是一个真的运营的后台的人, 我也可以去做所有的 AI 相关的运营 , 然后并且持续的能真的改善产品的效果 。

张路宇38:31

因为我们相信如果做不到这样的话 , 那 AI 的可塑性的潜力就没有被最大的发挥出来 。 如果每一个人他没有能轻松的去塑造自己这个符合预期的 AI 的话 , 那么实际上的 AI 就仍然掌控在少数技术人员的手里 ,而他们对世界的理解是片面的 。

曲凯38:51

所以你其实也是在推动平权 。

张路宇38:53

那当然 , 那当然 。

曲凯38:55

OK, 刚才我们提到好几次 LangChain, 对吧 ? 这个 LangChain 其实是今年如果说有几个 AI 相关的关键词 ,GPT、LangChain、AutoGPT 等等 , 这 Agent 的这些应该是跑不掉的 。

LangChain38:55

曲凯39:06

所以 LangChain 到底是一个什么东西 , 我觉得大家经常在讲 ,但可能这几个词里大家对 LangChain 的理解是最弱的 。

张路宇39:12

LangChain 你可以理解为它既是一个工具箱 ,也是一本教科书 。 我前面提到了说大家在探索 Prompt 工程 , 或者说跟大模型怎么接入一系列的事情 ,LangChain 从去年 11 月开始做了一件非常有价值的事情 , 人们在每个阶段有疑惑的时候 , 它正好是顺手可以取到的工具 , 它是一个 library, 就是开发者的库啊 , 就比如说你拿 Python 或者现在叫 JS 去写代码 , 接入大模型 , 然后比如说你

从模型的驱动接入哪个模型 , 模型的模板 , 我这一个 Prompt 里面哪些词要替换掉 , 然后还有一个很重要的概念就是它的 chain, 就是链条 , 一个调模型之前你要干什么 , 调完模型之后你要干什么 , 这些抽象的概念 , 它把它分装成了一个比较简单的形式的代码 , 你可以在写代码的时候去用它这个概念 , 这就是 LangChain 做的事 。

曲凯40:00

它有点像一个 API 之类的那种感觉 , 就是它是一段一段的代码 , 对吧 ? 就是我要用的哪块的时候 , 我直接把它那一段复制粘贴下来 ,是这么理解吗 ?

张路宇40:09

我们编程叫方法 , 很多很多分装好的 function, 你用说复制代码也没有问题 ,因为我们自己对 LangChain 非常了解 , 对它的准确理解 , 它是一个 cookbook, 菜谱 , 各种你要用到的调味料啊 , 这种东西都在里面 , 你可以拿它去用 。

但是呢 , 它有一个问题 , 它其实是一个非常早期的产品 , 它在大家关心大模型的时候 , 把所有需要的东西一股脑的放进去 , 油盐酱醋都在里面 , 你可以拿 ,但它其实因为太早了 , 没有经过很好的设计 , 当你做到比较深的工程的时候 , 你会发现它不够用 , 你必须改它 。

第二呢 , 它以一个成熟的产品的形式来说 , 它没有这个 service 化 , 它不是一个服务 , 它仍然是一个代码库 , 你需要去维护它 , 需要和你的代码去耦合 , 它并没有像我们这样去和代码去结构 。

第三是它的那些分装的调味料啊 、 食谱啊 ,其实都非常非常的浅 ,因为 LangChain 的他们的团队的最大的能力是动员很多开发者加入他们的社区 , 帮他去一块做 ,而且它早期对于开发者来说是最好的一个标的嘛 , 大家都贡献代码 , 比如我刚才举例来说 , 它可能支持了 20 种模型 , 又支持了 10 种向量数据库 , 又支持了七八种工具 ,其实你稍微把其中任何一个工具

拿出来 , 你发现都很脆弱 , 仅仅就是能跑起来的程度 。 所以它对于有句话叫什么 "LangChain 是开发者做大模型的新手村 " 什么的 , 我觉得也差不多 , 差不多你要把入门的东西都在里面 , 你可以拿来用 ,但是你稍微想拿这个东西接着做下去 , 你想把你用 LangChain 一周写完东西 , 第二周接着写 , 写到一个好用的程度 , 你基本上就前面代码就得废了

或者是魔改 。

曲凯41:43

所以它其实做得好的地方就是它把一堆东西传到一起 , 然后它传得早 , 传得多 。

张路宇41:48

对 ,而且它有很多定义了那些范式 , 我们说链啊 、Agent 啊 , 这些抽象的概念 , 我跟你说代理 , 你可能 Agent 你可能不太了解 ,但它有一个代码放在那里告诉你是这么写的 , 所以它是一个非常非常好的一个动态的教科书 。

曲凯42:01

明白明白 , 它把很多概念和大家基础认知去拉起来 。

张路宇42:05

对 , 你相当于是一个可以实践的 , 一边实践一边写的一个说明书一样的一个游乐场一样的东西 ,其实我觉得这么定义它是准确的 。

曲凯42:13

对 ,但它最近好像也发现自己有这些问题 , 然后它出了一个 LangSmith 嘛 ,是吧 ? 对 ,LangSmith 是一个什么东西 ?

张路宇42:20

LangSmith 其实是一个 LangChain 的配套的服务 , 它是一个调试和跟踪的工具 ,在传统软件开发里面也会有 , 比如说你浏览器里面会提供一个控制台 , 统计你浏览一个网页里面有加载的图片 、 音频 、 文字分别用了多少时间 , 它一样的 。LangSmith 就是你用了 LangChain 的话 ,LangChain 代码里面可以有一个 callback 的开关把它打开 , 那你这个 LangChain 的代码在运行过程中的所有的信息被跟踪 , 然后呢 ,

上传到 LangSmith 上, 你可以去做可视化的调试 , 它是一个开发辅助的一个工具 ,因为本来你就黑盒嘛 , 尤其是你用了链之后, 你一个大模型的应用调七八步 , 每一步输入是什么 , 输出什么 , 它用这工具帮你统计出来 。

曲凯42:58

对 , 所以 LangChain 跟 LangSmith 和 Dify 的关系是什么关系 ?

张路宇43:02

我觉得这个问题还挺难回答的 , 首先 LangChain 对于 Dify 也是一个基础设施 , 我们就把它当工具箱 , 需要用就用 ,不需要用就不用 , 后面可能完全不用 。LangChain 不是一个完全产品化的一个产品 ,Dify 是一个完全产品化的 LLM 的一个应用技术站 , 它是一个既可以在云服务用的 ,也可以在开源你拿回来自己部署的这么一个东西 ,因为我们是一站式的解决方案 , 所以 LangSmith 的那些调试的能力 ,也包括

我前面提到的这些 Prompt IDE 这些能力 , 可能都会在 Dify 里面会有配套的工具 , 所以你可以理解为 Dify 一定是整体解决方案即拆即用 , 可以满足百分之七八十的情景的 。LangChain 可能会你得组上各种东西 , 然后放在一块才能去用 。

曲凯43:44

就是 LangChain 它是一堆积木 。

张路宇43:46

对对对 。

曲凯43:47

然后 Dify 呢也用到了一些积木 。

张路宇43:49

对 。

曲凯43:49

然后未来呢可能还会自己重新造水泥把这些积木做出来 。

张路宇43:53

对对对 , 我们现在有内部有个东西叫 Dify Kernel, 就是我们其实也在做 Dify 的过程中去想象一个更底层的一个库 , 最好的形式是什么 , 未来可能这个东西做出来之后, 我们可能会开源出来 。

曲凯44:05

嗯 , 那那个东西就有点像 Dify 自己的 LangChain。

张路宇44:08

对对对 ,是的 ,因为我们发现很多 LangChain 的用户啊 , 我们也很了解 ,LangChain 的用户试图拿 LangChain 做深度的应用的时候 ,他们得把 LangChain 丢掉 , 这是我原来没有想到的 ,但是我最近和开发者接触发现都是这样的 , 就是他做到了某个程度之后,LangChain 必须丢掉 ,因为已经帮他完成了新手村上路的过程之后, 你也知道你那堆积木里面你要用哪个 , 你就把这几个积木拿出来重

新造 , 剩下的不要了 , 基本都是这么玩的 。

曲凯44:33

它就好像一个青铜剑 , 然后它不断的打磨 , 打磨到最后发现怎么打磨还是青铜 , 就只能换成一个更高级材料的东西 。

张路宇44:40

是是 。

曲凯44:41

嗯 ,但 Dify 会不会遇到类似的问题 ? 就我相信肯定有公司 , 比如它是一个 AI 的创业公司 , 它可能觉得自己技术很牛 , 那它不需要用到第三方一个很简便的工具 , 然后它就自己从零去去造东西 , 它觉得是最好的 , 会不会有这样的场景的问题 ?

张路宇44:56

我们的使命当然是帮助更多的开发者把大模型的应用落地 , 解锁这个模型的潜力 ,但第一肯定不是所有的 , 第二呢还是我前面说的那个问题 ,也许在 dev 环节你永远去自己写代码 ,不要用 LangChain, 甚至连 Python 都不要用 , 你用 C++ 写好了 ,是能达到最大的自由度的 。

但是呢 , 呃 , 你那些需要人反复去运营的这些工作 ,不是你的代码能解决的 , 这些基础设施是 Dify 能提供且非常好的 。

我们现在其实也在做另外一件事 , 就 Dify 现在是一个整体的产品 , 我们会把几个非常好的零件 , 就大家觉得比如说我们的数据集的能力 , 我们现在上的那种 Agent 的这种治疗的能力非常好 , 我们会把这些产品单独拆一个单体产品出来 , 它可以配合 LangChain 或者你喜欢的其他东西一块用 , 就你可以用我整体的方案 , 你也可以用我一个方向盘轮胎 , 没有问

题 , 这样的话就可以你用它自己的开发能力再配合我们的一些又做比较好的工具 。

曲凯45:57

对 , 我觉得你刚才那个解释也很好 , 就是它就是你如果为了追求更大的简便性 , 你一定就是放弃了一些自由度 , 对吧 ?

就就不可能是兼得的啊 , 兼得的话一定是用你自己用 26 个字母从头去写 。

张路宇46:10

我我们既然做 Dify, 我们就知道一个事 , 就是我们遇到的所有开发者可能在拿大模型做应用的前三个月遇到问题 , 几乎都是一模一样的 , 这里会有一些细枝末节不一样 ,但几乎大体上问题是一样的 。

现在比如说很多在做偏私有的问答的知识库的 ,他们遇到问题几乎就会是同一类问题 ,embedding 怎么做 , 分段怎么做 ,token 怎么分配 , 这问题是都是一模一样的 , 只是里面内容不一样 。

然后接下来就是 Agent,Agent 就是说模型的驱动怎么做 , 模型的这个推理模板怎么做 , 模型的工具调用调用哪些工具 , 这些工具的这个限制的轮次和成本怎么控制 , 它仍然会是一模一样的问题 。

曲凯46:48

嗯嗯 , 理解 。 然后我们刚才讲的所有的那些问题 , 包括大模型的问题 , 你觉得未在未来多长的时间内会得到怎样的解决 ?

你有没有个大概的预期 ?

张路宇46:57

我比较乐观 , 我把 Dify 的开发者分为大体上两类啊 , 第一类是这个比较务实型的开发者 ,他们评估过大模型的能力 , 认为在现实的情况下大模型应该可以做出什么样的事 。

我认为这类开发者 , 务实型的开发者 ,他们现在遇到的种种困难或者什么什么问题 ,在未来一年内都能得到解决 , 无论是通过大模型层面解决 , 还是通过我们这种中间件工程方面解决 , 我觉得能解决 。

第二类开发者是比较愿景型的 , 就是他们希望大模型一次可以替代一个团队啊 , 或者能能做很多这样的事情 , 就是说想象中的大模型已经是一个非常强的一个东西 , 这种可能会比较难 , 这种我觉得有可能三五年内其中一部分需求能够得到满足 ,但另外一部分需求可能会被一些厂商做成比较深的 、 比较垂直的产品 。

曲凯47:45

嗯嗯 , 对 , 我今天下午去跟那个妙压的负责人聊了一会儿 , 对 , 很多细节他是不能讲的 ,但我觉得他讲的有一个点 ,也是我我最近跟人聊的一个感想 , 就是大模型的能力肯定是有限的 ,但是在有限的前提之下 ,其实最考验的就是产品的能力 , 就你怎么样把这个需求定义的足够清楚 。

如果你需求不清楚 ,其实你相当于说你要爬一座非常高的山 ,但你需求如果足够清楚 , 可能你就是要稍微绕个近路 , 或者你可以开个隧道就可以过去了 。

张路宇48:13

对 , 妙压就很好啊 ,他就解决特定问题 , 限定的问题 。

曲凯48:16

对 , 你问题越限定 , 你想的越清楚 , 技术的解决的难度就越低 。

张路宇48:21

写 Prompt 也是这样的 。

曲凯48:22

是是是 。 那你们现在实际看到的最典型的一些应用场景 , 能不能给大家分享一下 ?

落地48:23

张路宇48:28

教育是最多的 , 比如说评估一个学生的水平 , 给他一些命题或者题目 , 这种是最多的 。

曲凯48:37

给作文打分这个事是不是完全是 OK 的呀 ?

张路宇48:40

最近看到一些产品 , 你说打分这个事情太主观了 ,但是它告诉你说哪里对哪里不对这个事是很容易的 。

对 , 就是比如说 , 尤其是对于相对低年龄段的 ,不管是编程也好 , 写作文也好 , 去做改进是非常非常好的 。

曲凯48:57

是是 。 对 , 我为什么我提这个 , 我就觉得现在其实定量会遇到很多问题 , 就是它会遇到什么记忆问题啊 , 什么什么各种问题 ,但是其实定性相对来讲是 OK 的 。

就是我觉得大家现在过多的去在意它定量的 ,其实大模型给你的任何数字可能你都不要信 ,但它给你的方向很多时候都是好的 。

对 , 所以我觉得大家可以多去从定性上去想这些东西啊 , 就比如说判断某人的情绪等等这种 , 这种东西应该是会更好用一点 。

张路宇49:26

对 , 教育 、 行政 、 市场 。

曲凯49:29

行政是 ?

张路宇49:30

呃 , 行政就是我刚才给你举例的企业内各种内务的调度 、 市场营销 , 这其实是目前来说最成熟的 ,不管是写文案 、 是图 、 商品图什么的 , 然后就是客服 , 对吧 , 接待一些这种简单的客服情景也非常非常好 。

比如说现在已经能比较做到复杂 , 说用户买家进来去查你这个买家过去买过什么东西 , 订单是什么 ,他上来问一个问题 , 你大概就知道说 OK,他可能要解决哪些问题 ,他今天来的这个情绪是一个愤怒的还是一个积极的 , 那我应该给他退款还是不退款 , 对吧 , 这样的问题我觉得大模型已经解决很好了 。

曲凯50:04

嗯 , 所以你们实际看到的还是有很多比较乐观的例子 ,是大家持续在用 ,而且是很能很好的应用的 。

张路宇50:11

对 , 比如说我们团队内部 , 我们不会说所有的团队成员你们都把这个工作交给 AI, 我们会把一部分的工作 , 比如说我们运营类的这个增长的工作 , 可能有二三十项工种 , 很多细活 , 我们会圈一下哪些可能现在在大模型的成熟度下就很适合做 , 把它标出来 , 我们就试图拿 Dify 或者拿各种技术手段帮它去做这个自动化的改进去替换人, 这就没有问

题 。 你不要说我现在就要拿大模型去替换一个人 ,而你要把一个人的所有的现在所有的这种工种啊 、 能力啊列出来 , 去看一下哪些大模型的程度已经到了 , 可以去做 ,也许你在这里能发现一个非常好的市场机会 , 做一些全世界都能用的一些非常好的产品 。

曲凯50:50

嗯嗯 , 理解 。 我觉得我们前面所有的整体聊的有点像一个 AI101 的这么个感觉 , 现在实际上你在日常的操作当中, 你在想的一些更深的问题 ,有没有什么是给大家分享的 ?

你能不能抛两个问题出来 , 让大家觉得连问题都听不懂那种 , 震一震我们 。

张路宇51:07

怎么说呢 , 我现在脑子里最困惑的是一个简单但是难以回答的问题 , 就是基于现在大模型的能力 , 未来会诞生出最多的新的增量的应用 , 我们可以叫它 AI 原生应用到底是什么样的 。

比如说我们知道移动支付在上一代互联网就激发了很多像 O2 啊这样的慢生变野的这种产品出来 , 那么基于大模型可能会诞生什么样的一些应用是非常大增量的 , 这是我们最期待看到的机会 。

嗯 , 我现在看到的答案可能是说得多种模型的能力揉到一块的 , 甚至再加上一些硬件的这样的产品 , 它是一个非常封闭很好的一个解决方案 , 就得融入到你身边的一些物件里去 , 对吧 , 这个是一种我们看到 ,因为我们并不相信说未来会有那么多 chatbot。

展望51:57

曲凯51:57

哎 , 对 , 你这个点我本来想问你的 , 像我们第一期嘉宾其实他提到一个点 ,他说他的 vision 是未来每个人或者每个企业都有 bot, 对吧 , 然后未来可能就比如几十亿的人口可能会有上千亿个 bot, 我不知道你怎么看这东西 ,因为现在实际上大家用 Dify 做的东西本质上也是一种 bot, 对吧 , 就是对话你可以定义成一种 bot 嘛 。

张路宇52:17

Chatbot 是一种我们呃交付给用户和开发者直观的显而易见的一种交付形式 ,因为这是大家现在最能理解的 。Dify 作为一个应用技术站其实可以完全不做这件事 , 我们现在做这件事也是为了跟用户拉近距离 ,不意味着说我们相信未来都是 chatbot, 就是我们总体上看可能说可能手上有个 ChatGPT, 可能到今年 9 月 10 月之后你的手机 、 你的 Windows、 你的操作系统里面都会有一个 , 呃

, 你的企业内部 、 你的公司里面可能有一个 ,其实你一个人有三个 chatbot 你就够瘦了 , 就一个你还得跟它磨一下性格什么的 , 三个你就够瘦了 , 你不可能需要那么多 chatbot 的大前端 , 至少前端上不需要 。

曲凯53:00

对 ,因为你是觉得说像 OpenAI、 像微软 、 像苹果可能就把这事做掉了 。 我说今天入口 , 我指的是入口 。

对 , 今天好像才看到新闻说苹果在找人做端上的 。

张路宇53:11

对对对 , 我我一定相信在操作系统级别会有这个 chatbot 的入口去解决调度和你看到的这种聊天体验的问题 。

曲凯53:19

对 , 我之前跟人聊个人助手这件事情 , 首先你知道有很多创业者这一波肯定是想做个人助手的 。

对啊 , 我们大家就聊说第一步是 OpenAI 这种做了怎么办 , 对吧 , 然后是微信做怎么办 ,Google 这种操作系统做怎么办 。

对 , 最后就是苹果自己从硬件端做怎么办 , 从逻辑上来讲几乎是必然的 , 每个人都要做的 。

张路宇53:37

我们相信入口不会超过三个 , 嗯 , 肯定三个就够你瘦了 ,但是入口它可以是一个接线员 , 它帮各种的 agent 接进去 ,因为我们相信一件事 , 就是每一个大模型它要做成一个完备的 agent,其实它要组装很多东西进去 , 每一个 agent 就跟每一个人一样 ,有自己的能力站 , 必然是有不同的能力在里面 , 它不可能用一个 AI 模型去替代所有人的能力 ,因为这里面有我的特点 ,有自由的

知识或者一些东西 , 那入口可以有一个 ,但是入口后面的这些 AI 的 , 就你说的 bot 吧 ,是可以有无数个的 , 只不过中间有一个接线的过程 , 转接的过程 , 路由的过程 。

曲凯54:19

对对对 , 你的这次路径就是比较符合大家在讲那种是大前端 , 可能前面就是一个 OpenAI, 它有一堆 plugins。

张路宇54:27

Plugins 还不是 , 就是它现在是一个模型加 plugins, 它实现的还是一个意志 , 一个主体 ,但实际上我指的那种情况并不是 , 我指的是有很多 agent 他们有自己的工具 , 工具之间的权重和组合关系他们都设计好了 , 未来有很多很多这种虚拟的这种人的代理人。

曲凯54:44

就是类似于 API 的接口 。

张路宇54:45

对对对 ,是整体的 , 是一个完备的 ,有自己意志的整体的这样东西 , 然后这样的东西呢 , 会被一个入口去全集成进来 , 去接入进来 , 它可能会像你现在微信的通讯录 , 或者说你微信上的一个律师或者什么 , 反正在你需要的时候找到那个正确的 agent 接进来 。

对 , 甚至说你搞三个 agent 在中间去讨论同一个问题 , 大家吵一个架什么的 , 这个都没有问题 。

曲凯55:07

嗯嗯嗯 , 最近几个月其实跟大模型相关的新的热点啊 , 一些质变的东西我觉得是明显的变少 。

你觉得未来还会有哪些方向是比较热的吗 ? 比如说就像是从 copilot 到 agent 这种概念 , 我们今天能不能创造一个概念 , 还有没有什么你觉得是未来的发展方向 ?

张路宇55:28

我觉得光多模态的这个故事就已经够大了 , 现在你大模型的所有能力都是仅限于文字层面 ,他们对世界这种图形图像的理解还少 ,但你想试想在下一代的大模型 ,他们在训练的时候如果能有人的五官的更多感知 , 比如说像我们这样聊天间有视觉 ,有听觉 , 甚至有触觉温度这样的信息 , 结合文字再去一块去做一次训练的话 , 它的那个能力

会远远大于现在 ,因为它现在接受的信息毕竟是单一的 。 啊 , 所以我相信说多模态这个方面 , 一方面是本身多模态的训练 , 就是哪怕还是文本模型 , 基于这种各种的感官数据重新训练一次 , 模型的能力会有质的飞跃 。

第二次是由于它有这么多信息 , 当它输出的内容也是多模态的 , 文字 、 图片 , 对吧 ,3D 的模型 、 声音等等 , 那它的这个输出形式也丰富很多 , 它能真正的去做很多现在人类的知识工作者才能做的事 。

曲凯56:29

我就有点像我们要请大模型看 3D、4D 电影的感觉 。

张路宇56:34

对 , 它现在还是看小说的阶段 。

曲凯56:36

对 , 嗯 , 我们要对它好一点 , 争取早日请它看 4D 电影 。

张路宇56:41

对 ,其实你会发现现在很多技术是有往一个方向走的趋势 , 比如说苹果新出的 Vision Pro, 它那个本身就可以是一个训练数据的采集的 。

曲凯56:51

那个东西跟 Ray1 的结合起来其实是完美的 。

张路宇56:54

对啊 , 你再看 , 比如说马斯克在搞一些脑机结合的东西啊 , 等这个传感器这些方面都已经对齐之后, 那模型本身的能力就会超出我们现在想象很多 。

曲凯57:04

你觉得还有什么是未来有可能会发生的 , 或者在 Dify 的 vision 当中一些比较核心的点还有吗 ?

张路宇57:12

模型的小型化 , 嗯 , 模型的这个移动化小型化可能也是一个趋势 ,因为我前面跟你说的是模型现在参数量这么大 , 然后获得那么点智商 ,其实它还是容易信息很多的嘛 。

那么这个在算法层面上和硬件层面上去做了调优之后, 这个模型未来是可以说装到口袋里 , 这个我们也是相信的 , 就不需要去那么依赖去云端 。

曲凯57:32

对 , 至少是可以装在那个家里面类似 Wifi 一样的那么一个东西 , 对吧 , 然后不需要到云端了啊 , 然后它整个的成本啊 、 速度效率什么都会变好 。

张路宇57:40

还有一件事就是我们 Dify 之前的一个愿景 , 我们相信未来的所有的数据会向量化 , 就是你现在看到的所有的有知识产权的那些东西 , 电影啊 、 小说啊 、 这种书籍啊 , 所有东西它现在是给人类阅读的嘛 , 那这些的材料都应该被向量化一遍 ,以让 AI 可以去快速的加载这些数据 , 就像 U 盘一样插到一个 AI 上 。

比如说你现在 AI 问它一个今年的一个什么什么知识 , 你看我们现在要用很多手段把它嵌入进去 , 或者怎么着 , 这份数据可以由这个原来的这种内容的出版商或者直接提供的 , 我直接加载进去就完了 。

啊 , 这个我相信是一个很大的市场 , 相信所有的东西在这个形态下都要重新出版一遍 , 就是以一种 AI 能读的形式 ,而不是说现在像原来像对人出版的这种形式 。

曲凯58:26

嗯 , 就还是请它看 4D 电影 。

张路宇58:27

对对对对对 , 给它都准备好了 , 然后喂给它 。 对 ,因为现在本身大模型有很多问题没解决 , 比如说你采集的数据的这个内容的来源啊 、 版权啊 , 这些问题都没有解决 , 它其实也要一个很合规化的过程 。

比如说我会跟别人举一个例子 , 现在这个非常混乱的时代 ,Dify 是一个开源项目 , 开源项目你知道是有许可证的 , 就是让你干什么 ,不让你干什么 。

那么如果像接下来 GPT-5 它们的能力足够强 , 能加工很多代码 , 那我拿一个限制很严的开源项目给它读一遍 , 让它重写一遍 , 那不就是一个完全新的东西吗 ?

对吧 , 就我自己抄了一遍书 , 那这个书还是不是我的啊 , 就这样的问题 ,有很多这样版权的问题都都需要解决 。

曲凯59:06

嗯嗯 ,有有没有什么你现在最担心的问题或者最焦虑的是什么事情 ?

张路宇59:11

我最焦虑的问题 ,其实我焦虑的是模型的发展速度 , 没有我刚才说的那么乐观 。

曲凯59:16

我其实也是主要焦虑这个问题 , 所以要给 , 尤其是国内的这些大模型创始人打 call 是吧 ? 还是要加油 。

张路宇59:24

大模型厂商很多最近也跟我聊了落地的问题 ,因为一个是 Dify 现在可以帮他们的一些用户做落地 , 一方面他们现在有一些模型厂商 ,他们已经卖出了一些蛮大的客户 , 客户的预期很高 , 即使呢 , 现在拿出世界上最好的模型的能力 ,其实还没有办法去满足 。

所以他们跟我一样 , 跟开发者一样 ,其实也处于在找情景或者各种各样的尝试 。

曲凯59:49

对 ,他们也就像是技术材料提供商 ,Dify 就像是一个装修队 , 就还是要有人把这些东西真的装好 , 变成一个商品房 。

张路宇59:57

因为坦率讲 , 现在说今年国内大模型有一点计划经济的味道 , 对吧 , 它可能是这种需求端 , 可能是一股脑大家都去做 。

曲凯1:00:05

哎 ,但这个是我唯一有可能觉得它应该被计划的 ,因为大模型这个事情确实很费成本 。

张路宇1:00:12

那没有集中的资源调度 , 可能做就就赶不上人家嘛 。

曲凯1:00:15

对 , 所以这个事我反而觉得说你计划一下 。

张路宇1:00:18

但你知道计划经济的带来的问题 , 就是你需要拿着锤子找钉子 , 会有这么一个过程 。

曲凯1:00:24

是是是 , 拿着锤子找钉子 ,Dify 是什么呢 ?Dify 是锤子吗 ? 也不是 ,也不是钉子 ,也不是锤子 。

张路宇1:00:30

不是 , 我们是介于锤子和钉子之间的东西 。

曲凯1:00:33

对对对对对 , 你你是那个螺母 。

张路宇1:00:35

现在是锤子们都在相互模仿去造锤子 。

曲凯1:00:38

对 。

张路宇1:00:39

啊 ,Dify 从第一天就是围绕钉子去做的东西 , 我们是基于一个开发者 , 甚至是小白的开发者反推 , 如果要充分的利用大模型能力 , 应该做些什么 ,而做而诞生那个产品 。

曲凯1:00:50

对 , 所以最后结论我想讲的这就是我最看好 Dify 的地方啊 , 未来上游一堆大模型 , 下游是一堆应用开发者 , 中间一定是需要一个东西来串起来的 。

张路宇1:01:00

我们最宝贵的那个东西 ,不是我们现在这一群是人, 是我们已经连接到的这种几千个开发者啊 , 中间现在有上百个跟我们关系特别好 , 所有问题有需要落地什么 , 遇到什么样的技术难题 , 自己受到的这个成本限制或者什么 ,他们会把这些信息毫无保留的告诉我们 ,他们甚至不一定会告诉模型厂商 ,但会告诉我们 , 那我们就知道说它在这

个有限的命题作用下可以做出什么样东西 ,Dify 可以帮它什么 。

曲凯1:01:24

对 , 我其实看了好几次你们的那个工号的文章 , 里面很多文章写的东西都非常的干货 ,而且它一看就是实打实的一线操作上遇到的各种问题跟解答 。

对 , 所以我觉得大家有机会也可以去关注一下 。

张路宇1:01:36

你但你宗教就是 Dify 的这个四个字母 , 搜 Dify 就能搜到 , 对吧 ? 也欢迎大家 GitHub 上搜一下, 然后点一下 star 是吧 ?

网站就是 Dify.AI,是现在已经可以用的 。

曲凯1:01:46

对啊 ,是是 。

张路宇1:01:47

对 , 最后还有什么想要跟大家讲的或者分享的吗 ? 我们最近会和很多的模型厂商合作 ,因为很多国产的模型 , 或者说一些前沿能力大家还没有用到过 , 我们会跟他们合作 , 会给开发者送出很多很多的额度 。

曲凯1:02:04

这个听起来像是广告 ,有点对 , 哈哈哈 , 对 ,但确实事实上是这样啊 。 对 , 这个就是 Dify 的价值 。

张路宇1:02:11

对 , 目前是 , 目前是独家的 。

曲凯1:02:13

对对对 , 可以送很拿很多 token, 挺好 。 好 , 今天反正整体我觉得讲了 AI 相关的很多细节 , 我相信其实有很多人像我类似的 , 就是大家经常日常讲很多词 ,但其实对这个词背后到底实际的意义是什么 ,不一定有那么清楚 。

希望今天我们讲这些东西是也能给大家拉起一些共识啊 , 拉起一些基础的啊 。 好 ,以上就是我们这一期的节目 , 然后感谢路遇 。

张路宇1:02:40

好的好的 , 谢谢大家 。

曲凯1:02:41

好 , 拜拜 。

识人1:02:44

叮咚 , 下面是换外衣环节

Celia1:02:54

Hello, 大家好 , 我是这档播客的制作人 Celia。Dify 是曲老师特别喜欢的一个创业项目 ,也是他自己参与投资的一个项目 。

所以这期播客结尾 , 我又拉他聊了聊他对路宇老师对中间层 , 对大模型应用的一些判断和思考 。

哎 , 我们前两期聊了很多人本身 , 然后这期我们就单纯在聊 AI,在聊他做的事情 。 你能不能再展开讲讲你对路宇老师人本身的认识 ?

曲凯1:03:25

对 , 这期其实没有聊太多他个人相关的事情 ,也主要是因为我跟他还太熟了啊 , 然后路宇是个很有意思的人。

我们当时遇到他的时候呢 ,其实他大概我想是四五月的时候吧 , 就那个时候大家还都在看中间层到底有没有机会 , 大家都觉得说大模型会不会做啊 , 中国市场会不会跟海外不一样等等。

但是路宇跟我联系的时候 ,他们基本上已经把这一整套东西做出来了 。 所以说他其实是一个执行力非常强的团队 , 然后呢 ,他也给我们授了他对海外市场的整体的研究 , 包括比如说 LangChain 啊什么等等一些其他的一些项目 ,他们已经把他们的一些代码看了好多遍 。

嗯 , 我我觉得就是执行力很强 , 然后人也很聪明啊 ,他对于市场非常的理解 ,因为他做中间层 ,其实是需要他对于开发者和大模型都有很多理解的 。

所以也是为什么我去找他来做这一期 , 我觉得他现在肯定是国内最了解大模型和整个生态的人。

嗯 ,以及说他其实对这个方向有很多自己的想法 , 之前呢也做过很多 DevOps 啊 , 什么国内的这些应用开发的工具等等相关的市场 。

嗯 , 所以我觉得他其实特别适合做这件事情 。

Celia1:04:35

哎 , 你会格外喜欢什么样的创业者啊 ? 就和市场上其他人相比的话 ,有没有什么不同的偏好 ?

曲凯1:04:42

嗯 , 我们还真跟市场上大多数人可能不太一样 。

Celia1:04:47

嗯 。

曲凯1:04:47

市场上有一派呢是喜欢很年轻的 , 就那种特别聪明 、 非常有潜力的 。 那我们其实这种类型的项目接的并不多 , 现在市场更多的是需要经验 , 需要更多的有过组织 、 花钱 、 知道这个事怎么落地 、 怎么从 0 到 1 的这些经验的人。

我觉得这个是一方面 。 另外呢 , 市场上还有一批人是非常喜欢特别背景筛宁的高管 ,但我们也不是特别喜欢这种 ,因为我觉得这种其实它有可能已经不是那么 hands-on, 落地的能力不一定很强 。

我们认为一代人有一代人的机会 , 那上一代的这些成功创业者呢 ,他已经在移动互联网里面 ,不管是赚到钱还是卖过公司也好 , 就已经有过成功的经验了 。

那这一波呢 , 我们更喜欢的是还是像之前提的那个所谓的 underdog 的这个概念 , 就是他怎么样能够在这个市场里面有足够的冲劲 , 然后又足够的 hands-on, 能自己做很多 dirty work, 又学习能力很强 。

所以我们其实比较喜欢这一类 , 就是有点像大厂的这种中间层 ,但是是大厂的核心力量 。

Celia1:05:49

嗯 。

曲凯1:05:49

啊 , 对 , 还有一点就是执行能力 , 我们刚才也提到了 , 我觉得现在其实整个市场拼的也是执行能力 。

就这个事情我们也聊了很多团队 ,他其实很纠结 , 就是一直在看 , 一直在思考 , 那可能几个月时间就过去了啊 。

但像我刚才提的 , 像路宇他们的团队 , 可能在大家还在想的时候 ,他已经把这事做出来了 ,而且他不是说盲目的埋头去做 ,是想的很清楚 , 前提之下把这事已经做出来了 。

这个也是我们非常喜欢 Dify 这个项目的核心原因之一 , 就当大家在差不多起跑线上的时候 , 那你每一步都能比别人快一点 , 那最后就能积累很大的优势 。

Celia1:06:24

但执行力强的基础是什么呢 ? 就做得更快的本质 , 还是说他想得比别人清楚 ?

曲凯1:06:30

想得清楚 , 这是最重要的一点 。 另外一点就是像我们刚才讲 ,他确实是做过类似的事情的 , 所以他知道这个事要落地该怎么落 , 怎么样很快的就能跑通从 0 到 1 的这么一个过程 ,而不会像其他团队一样要重新再进来 , 再去踩坑 , 再去走弯路 , 再到他们现在这个阶段 。

Celia1:06:49

嗯 , 所以在你看来 , 执行力强等于想得清楚加有经验 。

曲凯1:06:54

嗯 ,是 。

Celia1:06:56

明白 , 所以你当时为什么自己也投了 Dify 啊 ? 除了像刚提到的创始人的方面 , 主要看上他哪几点 ?

曲凯1:07:03

呃 , 我们在那个节点 ,其实在当大家都没有那么看好中间层的时候 , 我们就已经很看好 。 我觉得核心原因呢 ,是因为大多数市场上的投资人是从大模型开始看起来的 , 所以大家都会觉得说 , 哎 , 我投了大模型 , 然后大模型能力很强 , 或者说大模型把后面的事情都会自己做 。

那我们呢 ,其实是从应用层看起来的 , 就我们先去看那些做应用的人, 然后也聊了很多的公司 , 然后发现大家其实花费大量的时间在做一些基础设施上的东西 。

就比如说 , 可能有团队花几个月时间 , 就是为了追求一个可控性 , 或追求一个这可落地性 , 那这里面就有大量的时间和工作其实是浪费掉的 , 或者说是重复的 dirty work。

那他就很需要一个人在中间去把这些事情做掉 。 所以这个是一个点 。 另一个点呢 , 就是我们还是认为未来大模型会是一个分散的市场 , 就至少相当长的一段时间内 , 大家会选择各种各样的模型 , 或者甚至于说会自己基于开源模型去做些相关的训练啊等等这样的事情 。

所以如果我们认可说未来应用端会有海量的应用 , 大模型呢又是一个分散的市场 , 那其实中间层就会是一个很好的一个入口 , 就反而中间层会把这两边集合起来 , 成为一个平台级的机会 。

就像美国市场 ,其实很多人在看现代数据库这个概念吧 ,但美国市场其实最近起来比较快的一个现代数据库叫 Chroma, 那它为什么能起来呢 ?

我们就回来去看 , 就是因为 LangChain 它首选首推的是 Chroma 这一个现代数据库 。其实应用开发者他可能不会那么 care 到底我用谁 , 或者说他不会花那么多的时间去研究各个环节 。

那这里面他最能接触到的就是 LLMOps 这一层 , 那这一层就像 Dify 这样的公司 , 后面他推荐谁 ,他把谁整合进来 , 后面这些东西就能起来 。

所以其实这个战略定位 , 我们觉得是非常重要 , 非常有前景的 。

Celia1:08:49

那你怎么看接下来中间层的创业和投资机会啊 ?

中间层1:08:49

曲凯1:08:54

嗯 , 我们把中间层其实分成两类啊 , 一类其实是它更偏向于大模型层的 , 比如说现在很多做算力加速啊 , 做训练啊 , 推理啊相关的这些公司 。

另一类呢 , 就像 Dify 这样比较接近于应用开发者的 , 我们觉得前一类会是比较困难的啊 , 就会遇到很多挑战 , 比如说这个东西它到底卖给谁 , 到底落地场景是怎么样的 。

像很多应用的公司 ,他可能不太会自己去考虑说我要怎么去做大模型 , 然后如果他的客户面向的是大模型层的 , 那大模型的很多公司确实会把这些东西自己做掉 。

就是如果他是核心的跟训练 、 推理啊等等相关的东西 , 我觉得大模型不太可能把这个东西放给别人来做 。

所以我们觉得跟大模型越近 , 它的难度就越高 ,但跟应用开发者这边越近呢 , 它也有个问题 , 就是会不会 ToC 的事情有很多人自己就做掉了 。

比如说现在有很多做 bot 社区啊 ,bot 的应用开发平台啊等等这样的东西 , 那它其实是比较偏向于 ToC 的一个事情 , 就是大家进来以后就可以使用它 , 或者说未来可能它是要讲说我要做一个 bot 平台啊等等这样的事情 。

我们觉得两边其实你走得太近都会有问题 , 你跟大模型走太近容易被大模型吃掉 , 或者说没有市场空间 。

跟 C 端里面走太近呢 , 你又容易变成一个 ToC 的平台 , 那未来的竞争又很激烈 , 然后很多做应用开发的事情呢 ,也会觉得说你是不是竞品 , 或者你会不会他们就把这件事情做掉了 。

所以这里面是需要有一个团队的非常有定力 、 非常有经验 , 就是把中间层做好 。 那我觉得 Dify 就是这么一个团队 , 所以我们是比较看好在中间的这么一个机会的 。

Celia1:10:25

哦 , 这个思考怎么样有意思 。 那如果再往上走 , 你对大模型怎么看啊 ? 有没有什么 unpopular opinions?

曲凯1:10:33

其实我们在三四月的时候就一直在提说大家高估了大模型的能力 , 低估了落地的难度 , 这个就是我刚才讲的我们看了很多应用都说的结论 。

但目前越来越多的人其实是同意我们这个结论了啊 , 我们仍然是觉得说未来大模型能力是有限的 , 然后呢会是多模型共存的一个状态 。

所以说我们会比较看好中间层的一些机会 , 我觉得这个是一个非共识 。 以及说我们会觉得说大家既乐观又悲观 , 一开始的时候大家会很乐观 , 觉得大模型什么都能做 , 然后呢现在渐渐的又会变得比较悲观 , 觉得说 , 哎 , 大模型其实在能力上是有很多欠缺 、 很多局限的 。

那我们始终是保持个中间态 , 我觉得大模型呢就好像你每个人发的那一手牌一样 , 就是你不太可能一上来给你发个同花顺啊 ,但它其实也不会差到说是一手非常烂的小牌 。

嗯 , 那这里面就需要很多战略策略层的东西 , 你怎么样去把自己的一手牌打好啊 。 那比如说我是不是能够用大模型一样的能力去做些东西出来 , 我们还是看到一些公司 , 比如像妙压 、 慧读啊这样的公司 ,他基于已有的能力能够去做更好的产品定位 , 然后能做出来一些跟之前不一样的产品 ,而且是大家能用应用的东西 。

Celia1:11:46

嗯 , 明白 。 那除了你们之前说这种不要试图用 AI 解决一个大问题 , 然后最好先找到一个小的精确的切口 , 问题越陷阱越容易出结果 , 你觉得现在创业者普遍暴露出来的问题还有什么呀 ?

通病1:11:47

Celia1:12:00

应用层的话 。

曲凯1:12:02

呃 , 我觉得这个是核心的问题 , 就是作为一家应用的公司 , 现在有很多公司在讲自己怎么样去突破技术上的局限 , 或者说花了很多精力 、 人力跟时间 、 财力的成本在解决技术的问题上 。

我觉得这个不是应用层公司最好的选择 , 就做应用最好的选择是怎么样利用已有的技术去更好的定义用户需求 , 去解决用户的问题 ,而不是说我现在找到了一个需求 ,但是我需要更好的技术来解决这件事情 , 那我就要先投入很多精力在技术上 。

我觉得这个不是一个特别好的路径 。

Celia1:12:35

嗯 , 然后最后总结一下, 你聊完整体感受怎么样 ?

曲凯1:12:40

呃 , 你看像三四月开始 , 我们其实讲很多所谓的 fine tuning 啊 , 所谓的这个什么 embedding 这样的事情 ,但至少从我个人的角度来讲 , 我其实也没有把这个事理得特别清楚 , 就到底在什么场景需要用 fine tuning, 什么场景需要用这个 Prompt Engineering, 或者说到底这个背后意味着什么 。

我觉得这一期的节目主要是把这些问题相对的理清楚了啊 , 告诉大家说这个背后的意义是什么 ,在什么场景应该用什么东西 。

嗯 , 所以这件事我觉得是比较有价值的 。 以及说呃 , 我们聊了很多跟大模型落地场景相关的东西 , 你看像 Dify 他讲 ,他们现在平台上应该有 5 万多个实际的应用 , 就在大家都在质疑怀疑说到底哪些应用是好的 , 到底 AI 能不能落地的时候 ,他这边掌握了最一手的数据 , 所以他给我们分享的这些落地的场景和他看到的一些问题应该是

最实际的 ,是最好的视角 。 呃 , 我觉得这些应该也能给大家一些参考 。

Celia1:13:34

对 , 我也觉得这是一期很完整的关于大模型落地的一站式讲解 , 就从开头的小白科普 , 然后到商业应用 , 到最后的未来展望 。

曲凯1:13:44

对 , 这期可能不会有那么多的方法论啊什么这个相关的东西 ,但但我觉得这一期其实对于实际在做这个领域的人, 或者关注这个领域的人来讲是价值很高的 。

Celia1:13:55

嗯嗯 , 好呀 , 那我们这期就聊到这 。

曲凯1:13:58

好 , 嗯 , 拜拜 。

Celia1:14:00

拜拜