4242章经2024年10月26日· 37:08

Cursor 刷屏背后,复盘 AI Coding 的现状与发展|对谈 Gru.ai 创始人张海龙

曲凯与Gru.ai创始人张海龙深入探讨AI Coding的现状,对比GitHub Copilot与Cursor的区别,指出Cursor通过全局补全创新成功突围,而Agent尚未找到PMF。张海龙认为编程大众化不现实,AI无法替代程序员,并建议创业者多读论文动手实践以获得体感。

  1. 0:00开场
  2. 1:56国内困局
  3. 6:20Copilot与Agent
  4. 9:03Cursor突破
  5. 16:21Agent困境
  6. 21:23单元测试
  7. 24:22并存之辩
  8. 25:30编程非大众
  9. 27:44模型边界
  10. 30:50编程前景
  11. 32:42硅谷见闻
  12. 35:27建议

转录文稿

开场0:00

There's something there.

曲凯0:18

最近我觉得大家在国内互联网圈能看到很多很火的 , 跟 AI Coding 相关的一些工具软件也好 , 一些讨论也好 , 包括典型的像 Cursor, 可能之前是特别特别火 ,但这些火的呢 ,其实主要还是美国的一些这种类型的东西 , 国内也还比较少 。

然后我们今天正好请到国内做这块我觉得是最专业的创业者之一了 , 就是这个 Gru.ai 的创始人海龙 。

海龙可以简单介绍一下你自己的经历吗 ?

张海龙0:46

我从小就是个程序员 , 我写程序大概从初中开始吧 , 算了算我可能写了 20 多年程序了 , 所以呢一路以来都是跟这个软件工程跟写程序都有些渊源 。

然后呢包括大学研究生毕业以后做的几乎所有的工作 , 都跟代码跟程序员是有亲密关系的 。 之前做过两件事情大家可能是知道的 , 一个是开源中国的一个程序员的社区 , 然后另外一个是 Coding.net, 是一个 DevOps 的一个平台 。

那么这两件事情之前在国内也做了很长时间 , 然后后来就也合并到腾讯 , 然后呢也做整个 to be 的这个 DevOps 工具 。23 年开始我们在创业做一个新的项目 , 叫做 Gru.ai, 那本质上就是说觉得现在这个新的技术来了以后, 可能产生了一些新的变量 。

就以前我们总是为程序员做工具 , 那么我们觉得 AI 这一波有可能第一次可以直接生产劳动力 ,labor, 对吧 , 所谓的劳动力 , 就是说你不用再去做工具了 。

那我觉得这个对于整个效率和生产力的提升应该是更大的 , 非常的令人激动 , 所以我们就积极的在做这件事情 。

那整的来讲它就是 Agent 这个大赛道 。

国内困局1:56

曲凯1:56

你觉得国内之前几年, 不管是 GitHub 还是什么的 , 好像没有特别做起来的 。

张海龙2:02

Yeah。

曲凯2:02

对你你总结一下这个原因是什么呢 ? 当然 Coding 可能它本来就是一个全球性的语言 , 对吧 , 你也许它就不需要一个中国版 。

张海龙2:10

对这是一个很好的问题 , 我一直来反思 , 就是其实国内不光是这个了 , 这里面讲的再大一点就是整个国内的 to be 的生态 。

曲凯2:20

哦这个那太大了 , 这个很容易聊很悲观 。

张海龙2:23

哈哈哈 。

曲凯2:24

其实我们可以聊两条线 , 一条是 to be, 对吧 ,但你如果是真的 to engineer,其实它是一个 to D 的 , 大家讲的是 to Developer, 它有一点点小小的区别 。

张海龙2:33

To Developer 最后我觉得真正变现还是企业买单 , 虽然它最早可能是个 PLG。

曲凯2:39

哎这个在海外也是这样吗 ? 我觉得国内确实是这样 。

张海龙2:43

也是这样 。

曲凯2:43

OK。

张海龙2:44

对你看我最近在硅谷嘛 , 然后你就看这边买 Cursor 的 , 很多后面都是企业报销的 。

曲凯2:49

对我之前听谁吐槽过 , 说这个 Developer 是最不愿意花钱的一群人。

张海龙2:55

哈哈哈 。

曲凯2:56

他这里面肯定带有玩笑性质 。

张海龙2:58

那可能说的更多的是国内吧 , 我们以前做 Coding 的做到第三第四年的时候 ,其实在做开源中国的时候就有这样的感受 , 就是 Developer 很难变现的 , 就是他想的是怎么薅你羊毛 , 你还想着怎么赚他钱 , 咋可能呢 。

就 Developer 是一群很聪明的人, 然后呢整个的这个思维习惯什么各方面其实都是精打细算的 , 本质上是跟他的工作的这个专业性是有关系的 。

所以呢你如果想在他身上去找这种冲动消费 , 情绪消费 , 就是你很难这么赚 ,但生产力工具我觉得最后买单的其实都是企业 ,他真的是很解决问题 。

就比如说 JetBrains 啊 , 对吧 , 那个时候卖很多 license 什么的 , 我们也当时在开源中国参与过 , 就这些其实最后还是会企业买单的 。

我最近在硅谷看到很多公司 , 然后我的一个深切的感受跟我之前是反直觉的 , 就是我们之前觉得国内卷 , 统治化竞争很严重怎么的 , 我们觉得海外好像很多产品赛道上面没有那么卷 ,但其实这是个错误认知 , 我最近的认知是海外更卷 。

曲凯3:53

怎么卷 ?

张海龙3:54

我们以前看到的海外不卷是海外卷完了 , 你看到的是结果 。

曲凯3:58

OK。

张海龙3:58

对然后呢你现在就比如说我举个例子 , 我们做 Agent, 我们做 Agent 有一个重要的一个 infrar 的需求 , 就是那个 observability, 所谓的可观测性 , 就是 data dog 那个赛道 ,但现在因为 GenAI 这个 Agent 是一个全新的这么一个东西 , 它需要一个新的可观测性的这么一个工具 。

我一开始以为海外这个赛道没有什么人做 , 就只有 LangChain 那个团队做了个 LangSmith 啊 , 然后呢有一个开源的 LangFuse 什么的 , 然后这次来了以后遇到了至少 5 个团队在做这件事情 ,而且都融了很多钱 ,而且其实很多商业化的非常好 ,其实很卷很卷在这个赛道里面 。

很有意思的是国内没有人做 。

曲凯4:33

对但但是我们今天主要还是在聊 AI Coding 啊 , 所以我觉得这个问题可以落回来 , 就是我特别特别好奇的一件事情 , 我觉得美国当下最热门的赛道 ,AI Coding 一定算其中一个了 , 对吧 , 我看至少有几十家创业公司在做 ,而且拿到上亿美金融资的公司都有好多家 , 国内与此同时几乎没有 , 对吧 , 这个是为什么呢又 。

张海龙4:53

嗯我觉得国内不能说是没有 , 就是你看我们当时做 Coding 的时候 , 当时说做 DevOps, 你会发现你去卖给客户 , 然后呢客户要招投标什么 , 你会发现国内有很多人做 , 都是以传统 ISV,因为 GitLab 开源了嘛 , 所以这件事情就变成了谁都能做 , 就是我贴着客户需求魔改一个开源的什么的 , 所以这件事情就不是不用人做 ,是很多人做 。

说到 AI Coding 这件事情上,Copilot 现在有多少人做 , 我觉得国内可能大厂每个都在做 , 然后呢你如果去看 AI Coding 的招投标 , 我觉得很多 ISV 他都能做现在 ,因为这东西已经没有秘密 , 做 Copilot 已经是有大量开源的可以参考 , 对吧 ,有成熟的产品化的逻辑 , 都是 PMF 被趟完的 。

所以呢我是觉得国内其实很多就是在卷这个 PMF 之后的事情 , 就海外可能更多的卷的是 PMF 之前的事情 , 然后呢 PMF 之后国内有一帮人杀进来 , 然后你说哎这东西好像已经看清楚了 , 大家都知道怎么做了 , 会了啊 , 然后就开始卷 。

包括我们在做 DevOps 的时候 , 我们都觉得 DevOps 这个赛道没法做了 , 还有很多新公司成立了开始做 。

曲凯5:54

对我同意啊 , 对所以我得修正一下我刚才那个问题 , 我刚才想确实像字节啊什么的 ,其实都出了类似的工具 , 就大厂基本都有啊 , 确实也有很多小的团队也都在做这样的事情 ,但只能说没有进入到国内主流资本的视线当中 。

张海龙6:09

对大部分我觉得都做的太浅 , 说实话第一呢就是我们其实在去年 5 月份左右的时候 ,有过一波纠结 , 说我们到底要不要做 Copilot 还是直接做 Agent。

Copilot与Agent6:20

曲凯6:20

哎我觉得你还是先给大家解释一下这两个的区别 。

张海龙6:23

对这是一个很重要的点 , 就很多人啊可能会混淆所谓的 AI Coding 的这里面的各种各样不同的形态 , 然后其实现在真正跑通商业模式的是 Copilot。Copilot 是个什么概念呢 , 就是说它还是个工具范畴 , 就是我需要一个人来用这个 Copilot 去生产更多更好的代码 , 本质上 Copilot 是减少你打字 。

曲凯6:45

就是国内讲的那个代码补全 。

张海龙6:48

对它就是各种代码补全的衍生品 , 这是核心啊 , 当然了你看很多 Copilot 还要做什么问答呀什么的 , 这些东西都就不重要 。

对真正你去看 Cursor 为什么火 , 本质上就是那个补全补的特别好 , 这是 Copilot。 那么 Agent 它是一个完全不一样的概念 ,是说它是一个独立完成任务的个体 , 就它不用你管 , 它一旦领到任务以后, 它会自己去想办法 figure out 怎么做 , 做什么怎么改 , 最后去完成这个任务 , 包括提交代码这些动作 。

也就是说 Agent 跟人的工作是异步的 ,他人可以睡觉 , 人可以不在 。 这是很多人讲的 , 就是为什么 Agent 赛道叫 digital worker 呢 , 就是他是一个数字的员工 , 对吧 。

嗯那么 Copilot 不是 ,Copilot 是个同步的 , 就是说你用的时候人必须在场 。 所以我一直把 Copilot 比作电钻 , 就是以前拧螺丝 , 对吧 , 我能把螺丝都慢慢拧 , 对吧 , 现在 Copilot 来了 , 它是个电钻 , 就嘭嘭嘭这种进去了 , 对吧 , 就很快 。

嗯对但是呢 Agent 的逻辑是这个螺丝我已经拧了一万遍 , 我不想拧 , 对吧 , 我有个小弟帮我拧 , 那我就去干别的去了 。

曲凯7:43

对 Copilot 里面典型的公司就是 GitHub Copilot 和 Cursor, 对吧 。

张海龙7:48

其实不是 ,Copilot 这个赛道其实国外卷了很多很多年, 你说的 GitHub Copilot 是最重要的一个 ,因为它最大的贡献是它找到了一个合适的 PMF, 这个 PMF 它是两个 , 一个是 product market fit 和 product model fit。

那么它找到了这个产品应该以什么样的形式出现 ,以及在什么场景下出现 , 就是它应该是寄生于 IDE 的一个插件 , 然后它在用户打字的时候润物细无声的出现 。

我觉得它把这个产品的形态真正的找出来了 , 包括收费方式也找出来了 , 就这个是个 PMF,是 GitHub 跑通的 。

第二个 PMF 也是 GitHub 跑通 , 就是说 GitHub Copilot 在 GPT-3 的时候就已经有了 ,但它做的不好 , 那时候大家用完了以后都弃用了 。

后来真正大规模的商业化被大家认识到 , 然后呢大家开始付费的是 3.5 出现以后, 也就是说那个模型到了那个份上, 它才能够使得这个设想的场景成立 。

所以呢我觉得 GitHub 最大的贡献是找到了这两个点 ,但一旦这两个点找到 , 你就会发现做 Copilot 就变成了一个大家都会的东西了 。

所以呢很多人就开始做 。 嗯国外现在做 Copilot 还有 Coding,以前做 Sourcegraph, 还有那个 Claude Coding 做企业级的 , 还有 Augment 你说的那一批 , 对吧 , 新的公司融了很多钱的 ,但这些人呢 ,他都是在 Copilot 的现有的形式上面做一点点改进 , 或者做一些垂直领域化的一些事情 。

然后 Cursor 我觉得最大的贡献在于说 , 它在 Copilot 的基础上面颠覆了它的交互形式 , 虽然它沿用了它的 PMF,但是它在这个 PMF 上做了一个相对比较大的创新 ,是在产品体验上, 所以它出来了 。

Cursor突破9:03

曲凯9:18

哎这个怎么讲 ,因为我看大家在讲 Cursor, 它至少表面上能看到的一个点是说 , 它最早画的那个 Claude 3.5, 另外一个点就是它也是在很专注在做 IDE。

我觉得你可以展开讲一下你刚才说的它的产品上的创新 , 然后顺便可以给大家解释一下 IDE。

张海龙9:35

先讲一下 IDE 吧 , 就是 IDE 呢 ,有点像是程序员用的一个特别专业的一个 Word, 普通打个字你可能用个记事本就可以了 ,但是你要很专业的排版 , 你需要 Word 或者更高级的这种排版工具 。

那么 IDE 就是叫 Integrated Development Environment, 就是集成开发环境 , 给程序员用的这么一个很专业的编辑的工具 ,不光打字了 , 它还有各种什么运行啊 ,debug 啊 , 调试啊 , 各种各样的功能在里面 。

嗯哼我其实觉得 Cursor 不能够称之为一个 IDE 公司啊 , 我觉得这是个误解 ,因为 Cursor 它 99% 的东西都是 VS Code,VS Code 本来开源的 , 然后大家就直接复用了 。

它更多的为什么要去宣传自己是个 IDE 呢 ,因为它没有在现有的 VS Code 上做插件 , 它是 fork 了 VS Code 代码 , 然后呢魔改了一下, 变成了一个自己的 IDE,但它 IDE 的所有的内核都不是它做的 , 那它只是魔改了 IDE 的一些用户体验 。

对因为 VS Code 的那个 IDE 的插件机制比较受限 , 就是它限制了你一个插件能做什么 ,不能做什么 , 然后呢 Cursor 它想要做的那个事情 ,在这个插件机制上不能实现 , 就是它被束缚住了 。

所以呢它觉得我没办法 , 我必须去魔改你的代码 , 去实现我想要的这个效果 。 这条路其实非常大胆 ,在去年他们成立开始干这件事情的时候 , 很多人都不看好 , 包括我们也不看好 , 我们认为这条路太难了 ,但 anyway 人家跑出来了 , 这也是巨大的非共识 ,但是这也是创业的迷人之处 , 对吧 , 就这么不靠谱的项目它也能跑出来 。

曲凯11:01

对因为我前几周也在美国嘛 , 我们也见到了 , 然后有个朋友刚去面试过 Cursor, 嗯然后说 Cursor 一共好像就 12 个人现在 , 然后日以继日的在那加班啊 , 全球反正现在我看收入已经涨得非常高了啊 , 国内我相信也都有非常多的人贡献这个收入 。

张海龙11:17

对 。

曲凯11:17

所以就想回来 , 你觉得到底它做的好的是哪 , 就它打破的非共识是什么 ?

张海龙11:23

它打破非共识是说 GitHub Copilot 巨大的限制说我只能往后补全 , 就是说我现在打字打到这一行这一列的时候 , 它会帮你往后补后面的一行或者几行 。

然后呢 Cursor 当时有一个巨大的假设说这个不够 , 我们要做整个文件的全局补全 , 就是说 OK, 当我打字打到这 , 或者我改了某个变量 , 改了某个函数的时候 , 我全局我这个文件相关的地方都得同时改掉 。

哦对 , 这是它的巨大的一个假设 , 然后呢这个假设当然扩展 , 就是说我可能在整个项目的其他文件要同时改掉 , 它其实本质上在干这件事情 。

所以呢你用 Cursor 很爽的一点 , 你会看到的是说 OK, 当你打字打了一半的时候 , 它会出现哎给你补全 , 然后你会发现它同时这个页面上面有好几个地方都出现补全 , 你要做的事情就是 Tab, 你 Tab 一下它就补全现在这里 , 然后跳到下面一个 , 就 Tab Tab Tab, 就是整个文件好几个地方都被你改掉了 。

就这个体验是以前没有的 ,是 GitHub Copilot 没有做出来的 。

曲凯12:17

它这个补全更多的是一种简单的参数替换 , 还是说就它会自己 debug, 然后真的是做很多衔接或者修改的东西 ?

张海龙12:26

它不会做 debug, 它本质上还是个纯文本的修改 , 就是它只是根据你的上下文 ,以及根据你当前修改的打的那几个字 , 它在猜测你要干什么 , 然后呢猜测你要干什么的时候 , 它把你要干的那个结果提前通过大模型给它生成出来了 , 然后呢它会把那个生成好的东西跟你当前正在编辑的那个文件做一个非常快速的 diff, 就是差别 , 然后就告

诉你哦啊第三行 、 第 18 行 、 第 57 行 OK, 你是不是要改这些 , 然后这些改完是什么 , 它全都告诉你 。

它的体验好在就是说这个猜测的延迟非常低 , 它用了各种办法使得这个延迟可能在 0.5 秒之内 , 你感觉到好像是顺时的 , 然后我要做的就是确认确认确认确认 。

曲凯13:09

明白了 , 这个感觉用在一些什么法律文件啊 , 律师的那些场景里面也挺适合的 。

张海龙13:14

对 。

曲凯13:14

所以这个就很合理啊 , 为什么当时大家不信或者怎么样 ?

张海龙13:18

不信有几个原因 , 第一是说 OK, 首先你不是自己的模型 , 你也是用的 GPT 或者用的 Anthropic, 第二你没有 IDE, 你 IDE 也是用的别人的 , 某种意义上讲 , 你在拿着微软的 IDE, 然后用微软的模型 , 然后呢去 PK 微软的一个产品 GitHub Copilot,而且这个产品已经非常成熟 , 大规模的商业化 , 所有开发者都在用 , 你觉得这个故事通吗 ?

曲凯13:39

在国内肯定不通 , 哈哈哈在美国不知道 ,但听起来好像也不通是吧 。

张海龙13:44

我我不是写了一篇文章吗 , 就是讲这个 , 我觉得美国大厂反应慢是一个巨大的优势啊 , 对于创业者来讲 。

曲凯13:51

嗯所以它核心就是这个点 , 然后让大家觉得特别好用 , 然后就传开了 。

张海龙13:56

对然后呢它要的这个体验 , 恰好就是 GPT 可能在 4 都做不出来的体验 , 要 4O Sonnet 3.5 才能做出来 , 所以它恰好就是一直坚持说我要做这个体验 , 然后想各种各样的办法 , 然后等啊等 , 终于等到花开 , 就是 Sonnet 3.5 出来 , 然后这个模型非常合适在这个场景上 。

曲凯14:18

所以也有一定的运气的元素 。

张海龙14:20

对但其实我觉得啊 , 就是大家做 AI 什么的 , 没有那么玄妙的这个东西 , 你扒开了 Transformer 仔细看里面 , 就是告诉你原理了也没啥 , 一旦这个东西被证明是这样 ,其实谁都能做 , 大模型已经不是什么秘密了 。

但是干得好是另外一件事情 , 就是 Cursor 那个也是一样的 ,不是说这里面有特别多玄妙的什么高科技 ,其实没有 , 都是工程 。在这个事情上面我要去拱 , 对吧 , 比如说我要把响应时间控制在 0.5 秒以内怎么办 , 对吧 , 当你面临这个问题的时候 , 就大的智商其实能够在这个赛道卷都不会太差 , 你总能想到办法 , 对吧 , 这个业界现在有什么能

用的 , 去看论文各种这那的 , 我觉得最大的问题是你能不能提出这个正确的问题 , 对吧 , 就 Cursor 在 23 年的时候 ,其实提出了一个正确的问题 , 然后呢这个问题等到了 24 年, 有一个基础设施的改进 , 使得这个问题能够被解决 。

曲凯15:08

哎那与此同时,GitHub Copilot 有做任何事情吗 ?

张海龙15:13

这件事情就令人很困惑 , 对吧 , 就是说 Cursor 怎么做已经不是秘密的同时,GitHub 没有跟进 。 我大概跟微软开发者相关部门的人聊过一些 , 就是他们内部其实也不是很着急 ,因为这东西不是很难 ,Cursor 不是那么 hardcore 的东西 ,他们不做只有几个原因了 , 第一呢是说首先它是个插件做不出来的东西 ,也就是说它要做 , 它得把 VS Code 的插件机制先完善一遍 , 它

才可能在 GitHub Copilot 现在的这个基础上面去做出 Cursor 的体验 , 这个事情可能是阻止它快速的去模仿去改进的一个点 ,但我是觉得它一定会做的 , 反应慢一点是反应慢 , 对吧 ,但是它没有什么理由不做了 。

曲凯15:50

哎然后最近的那个 Bot, 对吧 , 这个也是 Copilot 这个方向上的一个延伸吗 ?

张海龙15:55

你说 Bot.new 吗 ?

曲凯15:57

对 。

张海龙15:57

那个可能还不能算 Copilot, 那个有点像 Replit 那个 Agent, 就是相当于是说我告诉你我要做什么 , 然后呢它就帮我啪啪啪啪啪各种代码什么的全给你整完 , 然后再把你一个开发环境也给你搭好 。

曲凯16:10

对所以正好进入到 Agent 这块了 , 就是刚才我们讲的两家典型的 Copilot 的公司 , 所以 Agent 这块你觉得代表性的公司有啥 , 包括你们在内嘛 , 对吧 , 你们也是要做 Agent。

张海龙16:21

我觉得没有 , 严肃意义上我认为 Agent 是没有跑通 PMF 的 , 两个 PMF 都没通 , 第一是 product market fit, 就是 Agent 在什么场景下面 ,以什么样的形式存在 , 怎么跟人交互 , 怎么定价 , 一切都不清楚 。

Agent困境16:21

张海龙16:35

第二个 PMF 也没有 , 就是 Agent 到底什么模型的出现 , 什么样的模型需要什么样的能力 , 使得 Agent 这件事情能够 work 也不清楚 。

所以呢我觉得 Agent 现在虽然赛道无比的拥挤 ,但其实我目前看到的没有 PMF 的 , 所以如果它真的 PMF 了 , 你会看到大江南北有很多人在用 , 像 Cursor 这样口碑传播特别好 。

曲凯16:53

但是我们刚才提的那个 Bot.new, 确实是有些人在传在用的嘛 。

张海龙16:57

但是是这样的 , 就是说这个赛道呢 ,有很多 PR, 当时 Devin 出来的时候 ,也有很多都在传这东西 。

曲凯17:02

对那个好夸张啊 。

张海龙17:04

对你要看留存 ,因为很多这种 Agent 都是上来一波宣传 , 然后看起来特别炫酷 。 我感觉我现在已经麻了 , 什么叫麻了呢 , 就是你不要看这个事情表面上面 , 今天有谁出来做了个东西 , 明天有谁出来这个东西 , 你本质上要看你要解的这个问题底层是不是 already 了 。

如果你要解的这个问题底层不 ready, 那所有解这个问题的人你都不用看 ,因为它不可能做出来 。

曲凯17:27

嗯对 , 当时那个 Devin 应该算是从 PR 层面是 Agent 的代表了 。

张海龙17:32

对它使得 Agent 进入了大家的视野 ,但实际上目前也没有看到特别好的产品出来 。 所以总而言之呢 , 我是觉得 Agent 其实现在有很多拿了很多钱的 , 就包括 Augment,Augment 其实在做 Copilot 了 , 做 magic.dev, 做 pull side, 这两个是典型的是要开始搞模型的 ,which is 我认为非常困难 ,不用 OpenAI, 你不用 Anthropic, 你不用任何一家 , 然后你自己搞模型 , 那这件事情本质上你就变成了你对整个 AI 赛道的

格局的挑战 , 就是说我是不是做一个我自己的模型 ,for 这个领域能够做的比通用大模型更好 。 我对这件事情是持巨大的怀疑态度 ,因为我觉得智商这件事情 , 或者 intelligence 这件事情 , 可能就是需要很大的模型 , 更通用的模型才能够实现 。

然后呢你在上面做各种 AI 的 , 无论是 prompt engineering 还是 RAG 还是 fine tuning, 各种垂直化的应用 , 当然了他们的逻辑不一样 , 就是这也是为什么这个赛道还是很新 , 就是巨大的非共识 , 对吧 , 就是它觉得我们得从头干 , 然后呢剩下的公司我基本上看到的都是不做 pre-trained, 包括我们也是不做 pre-trained, 都是做应用的很多很多 ,但目前我说实话 , 我觉得没有一个就像 Copilot 的

那样 , 已经被证明说它这个做法是 OK 的 。

曲凯18:44

但这样的话 , 我们首先能不能说 Copilot 这件事已经跑通了 ? 应该可以嘛 , 对吧 ,GitHub Copilot 我记得收入很高了 。

张海龙18:52

对一定跑通了 , 对这个是 100% 跑通了 。

曲凯18:54

对那在这个前提之下, 为什么大家 , 尤其是包括你们在内 , 要去做 Agent 这件事情 ,而且我觉得听你的意思是 ,Agent 这个事目前就是还跑不通 。

张海龙19:04

因为 Copilot 它还是个工具 ,但 Agent 是生产力 , 它自己就是个 labor, 这个是完全不一样的体验 , 就是我们现在可以做到的是在某些场景下面 , 就比如说我们有个论文 , 然后呢这个论文里面讲了一个算法 , 你想试一试这个算法 , 看看这个算法到底靠不靠谱 , 甚至这个实现出来这个代码可以直接移植到你的某个项目里面的某一段代码里面直接用 , 对

吧 , 这件事情其实就可以 assign 给 , 比如说我们有个 Agent, 然后呢你把这个 PDF 扔给它 , 然后你跟它说哎呀我想要这个 PDF 里面有个算法帮我弄一下, 弄点测试数据 , 然后呢帮我看看执行结果 , 那这个 Copilot 做不到 , 这相当于是你给一个小弟安排了个任务 , 这种任务输入很明确 , 输出也很明确 ,其实小弟理论上是可以去通过自己的尝试去搜网站 , 无论

是各自去编译运行调试这个代码 , 它能够跑出来的 , 最后给你一个报告 。 那么这个是我们想要做的这个 Agent 的逻辑 , 那这里面细节有很多 , 不同的场景下面任务不一样 , 输入输出不一样 , 各种各样不一样 ,但是大逻辑是一样 , 就是说你给定一个 job, 你描述清楚要干什么 , 然后这个 Agent 能够帮你自主的干完 ,不需要你的参与 。

当然 human in the loop 有另外一个故事 , 就是说一个好的 Agent 在合适的时候会提出合适的问题 , 对吧 , 我觉得这个是重要的 ,但是总而言之 , 它的大逻辑是说它能够自主的去端到端的完成一个任务 , 所以呢我觉得这个更吸引人, 这就为什么美国在 Agent 赛道上有那么多人愿意投钱 , 它的最大的概念在于说我不再是一个卖 20 美金一个月的事了 , 它可能就是个 2,000 美金

一个月的事了 。

曲凯20:32

对然后首先我是不是能理解成 , 就是你现在有点像一年前 、 两年前的 Cursor 那个状态 , 就是反正相信一个事情 , 然后就在等底层的技术成熟 。

张海龙20:42

有一点对 ,但是我觉得每个人相信的还不一样 , 做 Agent 这个赛道呢 ,有很多不同的切入点 ,不靠谱的切入点呢 ,是我觉得 Devin 其实为这个赛道做了很大的贡献的 ,他讲了一个很大的愿景 , 然后呢让很多人认识到这个赛道 ,但他的那个不靠谱的地方在于是说 ,他那个愿景基本上不可实现 ,也就是说我做一个 Agent 啥都能干 ,其实硅谷这边已经基本上把这个形成一个

共识了 , 就是说你现在如果做个 Agent, 说什么啥都能干 , 基本上没有人相信你 ,其实你啥也不能干 。

对这就是为什么我不是特别看好 Bot 呀 ,Replit Agent 这种 , 就是看起来啥都能干的这种 , 可能 for 小白能够做一个看起来用的 demo, 这有用 ,但是实际上你去真正去做软件工程 , 没有人怎么去写代码 。

所以呢这边的一个共识是说 , 你大概率的需要去找到一个细分切入点 , 让这个 Agent 就干这一件事情 。 对于 Code Agent 这件事情上来讲 ,有的人觉得我做 code review,有的人觉得我做写 documents 帮你补文档啊 ,有的人觉得我做 refactor, 就是我做重构 , 重构这个需求量也很大 。

单元测试21:23

张海龙21:43

那有的人觉得 , 比如说我们 , 我们现在就在做 Unit Test, 我们觉得 Unit Test 可能是一个最容易去落地的 , 或者说准确率容易做的特别高 , 甚至比人都高的一个场景 。

曲凯21:54

我问一下你刚说那个 , 我是没太听懂 。

张海龙21:56

Unit Test 单元测试 。

曲凯21:58

啊 Unit Test OK,但你仍然再解释一下 。 对单词我听懂了 , 事情是个什么事情 。

张海龙22:04

Unit Test 什么意思呢 ? 就是说你写了一段代码 , 对吧 , 然后呢你要确保这段代码是正确的 , 你要写另外一段代码去测这个代码的输入输出是符合预期的 。

就比如说你写了一个算法是排序算法 , 那排序就是理论上讲我给你一串数字 , 你要把它按照 1234567 给我排出来 , 那这样的话我就可以写另外一段代码 , 说我输入 13976, 那你能不能给我排出来什么 13679。

曲凯22:28

嗯明白了 。

张海龙22:29

对然后这个单元测试最大的作用是什么呢 ? 就是叫防止 regression。regression 意思就是说我这段代码本来运行的好好的 ,但是由于系统复杂 , 然后呢在大量的开发过程中, 这段代码被谁因为另外一个原因要做一些适当的修改 , 然后改完了以后, 这段代码 break 了之前的某个功能 , 这是很常见的 ,因为一个系统特别大了以后, 它可能有几十万个功能 , 每个功能之间有错综

复杂的联系 。 所以 Unit Test 某种意义上讲是保证说 OK, 你在改这个东西的时候 , 你要确保原来的东西不被改坏 , 一个比较有效的一个手段 。

曲凯23:04

嗯明白 。

张海龙23:04

就我们为什么觉得这个东西能做 ,有价值又可能做的比较好 。 第一就是刚讲的防止 regression, 它是有价值的 ,但是这个对于小团队可能没有太大价值 , 只能做 enterprise,因为小团队的产品质量啊 , 功能都不复杂 。

第二个呢是说开发者不愿意写 ,因为这东西很无聊 , 它不像写功能代码 , 可能还有一点成就感 , 我在实现一个什么新功能很炫酷 ,但是你去写 Unit Test 的时候 , 就是你在组织输入输出 ,在做各种各样的周边的这种配合工作 , 感觉就不太好玩 。

所以呢你会发现 , 大部分团队的单元测试覆盖率都很低 , 基本上在 30% 以下 , 能不写的都不写 。 对实在不行了再写 , 就是变成这种 。

所以呢我们觉得就这种人不愿意干的活 ,是不是可以让 Agent 去干呢 ? 对吧我不是抢你饭碗啊 , 你都不愿意干 , 对吧那我来干呗 。

曲凯23:50

嗯哼 。

张海龙23:51

然后呢另外呢 , 就是说它对于整个软件工程的其他方面的这个信息的需求相对低啊 , 比如说对于你这个业务到底是做什么的 , 你到底是个抖音 , 你还是个美团外卖什么的 , 就相对来说关系没有那么大 。

另外呢因为 Unit Test 它是一个已经被实践了几十年的这么一个操作 , 它基本上有套路的 , 所以呢在不同的团队里面的工程实践上面也比较接近 。

所以呢这两个事情使得我们觉得它有可能能做一个相对通用的 Agent 来解这一个问题 , 这是我们现在主攻的点 。

曲凯24:22

明白 。 我在听你刚才讲那个场景的时候 , 它改错代码有点像 Cursor 的那个场景啊 , 就是上下补全的话 。

并存之辩24:22

张海龙24:29

啊不不一样 , 就是说你改代码 , 你很难保证你改了不影响之前嘛 ,因为可能有 1,000 个地方都在调用这个代码 , 你不知道别人是怎么调用这个代码的 。

曲凯24:38

对但我重点想问的是 , 如果按这个思路推演下去 , 你觉得 Copilot 和 Agent 是能够并存的东西吗 ? 还是 Agent 如果起来 ,其实后面 Copilot 渐渐就会消失了 ?

张海龙24:49

我觉得这是两件完全不一样的事情 。 我觉得 Copilot 会一直存在 ,并且很重要 ,因为本质上它是解两个问题嘛 , 就是你找了个小弟去拧这个地方的螺丝 ,不代表你不需要一把电钻去拧一个更复杂的螺丝 。

曲凯25:04

嗯哼 。

张海龙25:04

对它不取代 , 就是我依然坚信人很重要 , 软件工程师很重要 ,AI 把什么程序员干下岗这种事情我是不信的 , 除非你本来的水平都很差很差 。

所以呢只要人还存在 ,Copilot 就很重要 , 然后它就确实帮人解决问题 , 能够提高你的效率 。 就有点像科幻片 , 对吧 , 就我人需要一套很牛逼的装备来去打怪 ,但同时我还可以带一帮机器小弟 。

编程非大众25:30

曲凯25:30

嗯所以如果这么讲起来的话 , 就是你是不太相信 AI Coding 的能力未来能变得非常的高级的 , 对吧 , 比如说一个人在这说帮我搭一个 TikTok, 这个好像之前是谁啊 ,在一个讲座去的那个例子嘛 , 这个你是不信的 。

张海龙25:46

我是不信的 , 就是我其实不信任何把代码平民化的东西 。 这里面有几个逻辑 , 就是第一 , 软件工程历史上面这件事情没有成功过 , 就是有很多人尝试过各种办法 , 最后你会发现所有的低代码产品或者无代码产品 , 都只能局限在一个非常小的领域里面 , 才能有商业价值 , 就是没有出现任何一个把软件工程门槛下降的产品大规模广泛使用的 , 没有 ,

几十年了没有过 。

曲凯26:15

嗯 。

张海龙26:15

第二呢是说普通人没有写代码的需求 , 这里面一个假设 , 我觉得这个假设是不成立的 , 就是很多人都觉得我如果把门槛降低 , 我有 10 亿人写代码 , 对吧 ,which is Replit 的 vision 啊 , 我其实以前对于这个 vision 深信不疑 ,但是从去年开始我就动摇了 , 我已经不相信这个 vision 了 ,因为我觉得普通人不想写代码 , 普通人可能想喝咖啡 , 想去拍美美的照片 , 想去

兜风 , 没有人想写代码 , 甚至他连跟一个程序员说话都觉得累 。 所以呢我觉得这个世界最后不会是这样的 ,因为它不符合人性 。

我觉得写代码依然是小部分人创造大量的软件 , 让大部分人用 。 对然后呢 , 如果一个东西变得特别特别的 common 的需求 , 就会变成一个独立存在的软件 , 就跟现在的 SaaS 一样 , 如果你的需求被大量的发现 , 那它就会有一个人做一个特别牛的工具 , 解决你一系列的这样的一个问题 。

就只有非常非常小的 , 没有办法普世的这种很小的需求 , 你可能找一个朋友帮你弄一弄 。 那现在有很多这种什么一句话做 Agent 的这种东西 , 我也不相信的 。

为什么呢 ? 因为一个复杂的 Agent, 比如说你写代码的 Agent, 真的要做这个 Agent, 它的背后的工程复杂度远超你想象 ,不是说你说两句话 , 几个方块拖一拖就能够做出来 ,不可能 , 对吧 。

然后呢如果有需求被大量的发现 ,并且证实可行的时候 , 就会有专业团队做这个 Agent。 然后还有一个巨大的问题是 , 如果这件事情这么的 common, 这么的简单 , 那它就是 ChatGPT 的生意 , 它不是你的生意 。

曲凯27:44

对这个也是我本来想问的一个问题 , 就最终你觉得模型本身跟这些 Copilot Agent 的关系会怎么样 ?

模型边界27:44

张海龙27:51

你看 ChatGPT 现在也集成了开发环境 , 甚至 Anthropic 也集成了 Artifacts,ChatGPT 是搞了个叫 Canvas, 它都是轻量级的 ,在某种办公白领场景下面 , 我做一些 , 就比如说你用 Notion, 你也在里面插入片段代码 , 对吧 , 这种东西 , 我觉得普通人可能到此为止就够了 。

所以呢说回过头来讲 , 就是我不是特别看好这种让普通人什么说两句话就生成一个什么应用 。

对当然我们踩过这个坑 , 我们去年做过一个这样的类似的产品 , 最后我们发现其实真的很难 ,因为我们从 23 年 5 月份左右就开始琢磨 Agent 的这个事 ,其实做过很多很多方向 , 最后发现就这也不 work, 那也不 work, 就是最后想明白了 , 说这东西你不要想的天花乱坠 ,不要有那么多幻想 ,不要想那么多科幻片 , 我们得想想商业片 , 就是到底怎么商

业化 , 到底怎么真的产生生产力价值 。 你往这个方向想 , 你就会越来越窄 , 越来越窄 , 你就会找到一个说 OK,Agent 你作为一个劳动力 , 最重要的一个品质是可靠 , 你招一个实习生不太能干 , 可能可以忍 ,但他经常性不靠谱 , 给你瞎折腾 , 然后浪费你的时间 , 你可能就不能忍 。

所以我们最后觉得 Unit Test 现在跑下来 , 我们也有些客户在试了 , 我们自己也在用 , 每天就觉得这条路应该有可能能通了 。

对我再说一句 , 说为什么我们觉得这个口述需求 , 然后什么做 APP,因为你很多人都讲不清楚需求 。

对你说做个抖音 ,其实没有人真的能讲清楚抖音的产品需求的 , 软件工程需求没有那么简单 。OK 这扯远了 , 然后说模型 , 我去年的时候特别担心这个问题 , 就是说 GPT-5、GPT-6、GPT-8、GPT-10 会不会使得上面的应用都没有意义 。

我现在特别坚定的不会 , 除非所谓的 AGI, 真的 AGI 就是那个超人的出现 , 对吧 , 那如果那个出现 , 那大家就再说吧 。

但我是觉得目前这个 AI 的进展看起来不太像 , 更多的还是它会在准确率上 ,在上下文长度上 ,在速度上 ,在聪明程度上面不断的有一些提升 。

但一个再聪明的应届毕业生 , 你也很难直接在公司里面产生价值 , 进入一个公司要去培训 , 要理解这个公司干什么 , 为什么 , 然后呢要理解这公司怎么干活的 。

所以呢我是觉得软件工程有两个重大问题 , 为什么我说 Agent 特别难做 , 就在于它有一个问题叫做业务上下文 ,有一个问题叫做工程上下文 , 这两个问题无论模型怎么进化 , 无论模型怎么 training, 它都不可能解决 ,因为这两个问题是 domain specific 或者 company specific、team specific, 它每个公司都不一样的 。

所以我是觉得就是模型的进化只能给 Agent 带来的是正向促进 , 就是说我本来这个 Agent 只有 80 个智商 , 我现在有 100 个智商了 , 然后呢我把合适的信息给到这个 Agent 的时候 , 它会更快的 pick up 起来 , 然后呢就能够更好的去解决我这个实际场景的问题 。

就是一个聪明的应届生和一个笨的应届生 ,他适应这个公司的过程不太一样 。 所以我觉得不用太担心什么模型的竞争 , 我觉得 GPT-5 的出现对我们绝对是利好 。

曲凯30:50

明白 。 所以其实你刚才讲的很多 , 就已经回答了一个问题 , 就是现在经常有人在讨论说 , 那未来还要不要学编程 , 按你的这个讲法来讲 , 肯定还是要的 。

编程前景30:50

张海龙31:00

肯定要 , 对 。 我不是很确定未来的编程教育会演进成什么样子 ,但我目前坚定 , 程序员一定是一个依然会被需求的岗位 ,但是它的量有没有那么大 ,以及类型会不会发生变化 , 我觉得现在是不太好说 。

曲凯31:18

嗯我再明确一个点 , 就是你完全不相信未来会有 C 端用它来做些东西 。

张海龙31:23

我不相信 。 我觉得如果这件事情成立 , 那就是 ChatGPT 的事 , 就 ChatGPT 直接就是那个超级 Agent, 就是它能帮你干很多通用的事情 , 就比如说它能够帮你订机票这种事情 。

但是模型的什么能力的进化 , 使得你这个事情能够真正特别靠谱 , 我觉得我没有特别想清楚 。

所以我们花了很多的时间去 build 所谓的叫 evaluation, 就是说你如何评估你的 Agent, 这很重要 。 你制造了一堆所谓的数字员工 ,但上岗之前你得有个考核方式吧 。

曲凯31:56

哎能不能简单分享一两个你们现在在考核的一些指标 ?

张海龙32:01

就比如说 Unit Test 这个事情 , 我觉得你要真正考核一个人, 你不能够只问他一道题 , 对吧 。 所以呢我觉得很重要那个点是你要 build 这个题库 , 就是我们会拿比如说开源的仓库 , 我们自己的仓库和早期客户的商业仓库综合起来 , 然后在里面找不同的语言 , 不同的框架 , 不同的类型的写法整理 , 比如说 1,000 道题吧 , 简单一点 。

然后呢你每次 Agent 改进了一版 , 你要去 run 这个 1,000 道题 , 到底做对了多少道题 。 这个 evaluation 是一件非常耗时的 ,因为这个数据以前没有 ,不存在 。

这就是硅谷特别强调的这个 synthetic data 合成数据 , 合成数据有两个作用 , 一个作用是 fine tuning, 一个作用是 evaluation。

硅谷见闻32:42

曲凯32:42

嗯哼 。 顺着你刚才讲的 , 我想问一下 ,因为你这几个月都在硅谷嘛 , 从你的视角来看 , 整个硅谷那边的情况 , 包括你看起来整个 AI 发展情况是怎么样的 ?

张海龙32:53

我觉得硅谷这边目前看每一个层面上面都非常的欣欣向荣 。 我不说投资额多少或者投资 case,但是我看到的项目的种类的多样性和数量的丰富程度 , 就各种奇怪的东西都有人做 。

什么 AI 鉴定假包的 ,AI 跟时尚 ,AI 跟玄学 , 什么全都有 , 都是成立了公司拿了钱 , 然后呢都是正儿八经项目 ,不是那个什么抖音搞教程啊 。

然后呢更硬核的就是 infrastructure 卷的非常严重 , 我觉得 infrastructure 这一层的投入比国内我不确定 , 可能 10 倍以上吧 。

现在有很多做那个什么 agent sandbox 的 , 什么 agent 数据合成的 , 反正 infrastructure 这一层是美国特别热衷的一个赛道 。 然后呢当然 agent 这一层 , 对 , 美国反而做模型的比较少 。

曲凯33:34

嗯就剩那几家了吧 , 主要是 。

张海龙33:36

之前也没那么多 , 说实话 。

曲凯33:38

嗯哼 。

张海龙33:39

但 anyway 最后回到你最早的那个问题啊 , 那为什么我们都在用海外的东西 ? 那么人家投入的多 , 投入的早 。

曲凯33:45

对但又回到你那个答案 , 就是国内投入的 to be 市场也做不起来 。

张海龙33:50

哎闭环了 。 哈哈哈 。 有个很有意思的现象 , 我跟你说 , 我来了硅谷 ,在这边待的时间越长 , 我发现我买的各种各样的 SaaS 越多 ,因为没办法必须买 。

比如说啊 , 我买了 LinkedIn, 你在这边基本上在商业场合都是叫 LinkedIn, 对吧 , 那你得买一个它的高级版 ,有些功能你得用好 。

要不要买 Zoom? 你得跟人开会啊 , 你不能够一个会 45 分钟就上线了 , 对吧 。 然后呢你得买 Calendly, 你得跟人约会吧 , 约会一来二去 , 邮件很累啊 , 你直接发个 Calendly 链接 , 我发现这是一个这边的 common practice, 对吧 , 我也学会了 。

曲凯34:22

是 。

张海龙34:22

对吧 , 就是各种东西越买越多 , 越买越多 , 全是 SaaS,但你被逼的 , 你没办法 , 就是你在国内你啥也不买 , 买啥 SaaS。

而且其实我就觉得老美这边某种意义上讲的效率是比国内要高的 ,其实这种 SaaS 工具确实是带来提效的 。

嗯哼 。 然后没有免费可选项 , 所有人都收费啊 , 这可能是跟国内卷的竞争的维度不一样 , 国内可能上来就给你整各种免费 , 然后就导致大家都收不着钱 。

但我觉得还是有一些文化习惯了 , 就我也不知道 , 就是我来了以后就不自然而然的开始买这种东西 ,因为别人都在这么干 , 你会一壶烙锅的学吗 ?

曲凯34:55

对就是生态 。

张海龙34:56

对我跟你说 , 我现在要去买邮箱了 , 虽然我们买了那个微软的 Exchange Outlook, 然后我觉得那个不好用 , 然后呢很多人给我推荐那个 Superman, 那个又要花钱 。

曲凯35:04

嗯哼 。

张海龙35:04

国内邮箱花钱 , 当然觉得你天方夜谭 , 为什么邮箱要花钱 ? 嗯回过头来讲 , 就是为什么之前我们在国内做 SaaS, 做 DevOps 产品 , 这挺难的 ,但是在这边的生态可能是一个循环不太一样 , 整个的这个气候不太一样 , 这也是为什么我们产品的商业化也想在硅谷做的一个原因吧 , 就可能付费的意愿 , 付费能力 , 产品早期接受度都会高一些 。

曲凯35:27

OK 好 , 那我最后一个问题啊 , 就是如果给我们现在的 AI 里面的华人创业者一些建议 , 尤其是听你也讲 , 就你们去年其实走过一些弯路 ,也踩过一些坑 , 对 , 我想听听你现在会给他们一些什么样的建议 。

建议35:27

张海龙35:40

我可能没有足够的信息做所谓的给建议 ,因为找这个 PMF 的困难度比我想象中的高的太多太多了 。 好的是别人也没找到 , 坏的是我们也没找到 。

但是我为什么一直还有信心做 ,因为我不觉得我们的认知落后, 或者我们的技术落后 。 所以我的感受是说 , 对于底层的理解特别重要 , 你能自己去看论文的就自己看 , 能自己手写的就手写 , 然后直到一定程度上面 , 你可能再去用现成的工具或者 infrastructure, 才会对你真正的带来价值 。

因为这是个新领域 , 它不是个软件工程 , 已经做了几十年, 大家都熟门熟路 , 上来就应该这样那样 。

如果你上来就开始用各种各样帮你铺好的东西 , 你不理解底层很多东西 , 你以为你解不了 , 实际可以解 。

你自己做了以后你有体感 , 然后那个体感会对你的认知产生很微妙的变化 , 然后呢你突然某天遇到一个问题的时候 , 那个体感给你带来那个微妙变化就会起作用 。

但这个可能只是说对 Agent 这一波做比较底层的 , 或者比较 hardcore 的这个大模型应用有点关系 。 反正我们很大的收获就来源于说我们在去年开始大量的去做底层 , 所以我觉得这可能是我们的 ,不能说是建议 , 我只是说我们的路径 。

曲凯36:55

明白 。 好 , 那就这样 , 感谢海龙 。

张海龙36:57

好啊 , 拜拜