开场0:00
There's something there.
我们今天很高兴请到 Grasp 的创始人雷磊 。 雷磊 , 跟大家打个招呼吧 。
大家好 , 我也是曲凯老师的老观众 , 一直很关注 42 章经 。
谢谢 , 谢谢 。
我呢是一个程序员出身 , 最早呢在 Google, 然后中间也经历了很多创业的过程 。 之后加入了字节跳动 , 然后在字节跳动打造了一个开发者平台 。
嗯 ,在 2022 年的时候呢 , 跟我现在的合伙人我们自己出来创业 ,也是做开发者方向的 。 后面也一直在做 AI 相关的方向 。
最近呢我们在做一个给 AI 用的浏览器 , 叫 Grasp。
对 , 所以我们今天请到雷磊呢 ,是因为你看我们之前录过文风那期讲 Agent 的 , 对吧 ? 你们也挺熟的 。
对对对 。
Agent Infra1:03
我觉得 Agent 今年这波热潮 ,其实从 Manus 开始嘛 , 然后到现在为止也差不多三四个月的时间 。 嗯 , 然后各种 Agent, 你说有通用 Agent,有垂直 Agent,有 Agent 平台 , 各个行业 , 反正很多 SaaS 也可以管自己叫 Agent。
哈哈 ,是 。
对 , 就这波热潮我觉得过去的差不多了 。 然后下一波呢 ,也经常有人问我们说 , 觉得后面有什么东西可以投 , 或者什么东西会起来 。
然后我确实觉得给 Agent 做的产品 , 这些产品就是给 Agent 做的 , 可能这个是比较有意思的 。 然后雷磊他们正好是在做这一块嘛 。
是 。
对 , 你们现在是相当于在做一个给 Agent 用的浏览器 。
对 。
对 , 所以你是怎么想到要做这件事 ?
首先是这样的 , 就是刚才你讲到很多做 SaaS 的 ,也开始说自己是 Agent。其实 Agent 跟 SaaS 完全就是两个不同的东西 。SaaS 是一种工具 , 你得去用它 ,但是 Agent 呢 , 它交付的是结果 。
所以我们更应该用一个人的方式来去看待 Agent。 但是 Agent 呢 , 是一个跟人完全不同的一种形态 。 所以说实际上, 当你给人设计一个软件的时候 , 和你给 Agent 设计一个软件 , 它应该是有完全不同的思路出发点的 。
因为它们有不同的场景 、 不同的痛点和不同的特点 。 嗯 , 那 Agent 呢 , 它会越来越多 , 它会比如说取代一部分人的工作 , 然后带着人类往前去走 , 甚至以后的创新发展 。
那在这种情况下, 设计一些为 Agent 使用的这样的软件场景 、 工具 , 或者所谓的叫 Agent Infra, 它就是一个非常巨大的机会 , 这个市场也会有很大的增量 。
对 , 你看现在全球几十亿人, 然后你如果再把各种网站 、 各种公司主体加起来 , 就不知道是多少了 , 对吧 ?
你是相信未来真的是有千亿甚至万亿个 Agent 这件事情 ?
对 , 业界大家现在经常会有一个讨论嘛 , 就是说这个 Agent 到底是通用的还是垂直的 。其实我觉得这个讨论没有必要 , 它可以是共存的 。
就像现在有一个大型的商场 , 里面既有综合的商超 ,但是也会有一个一个小的店家 , 它解决的需求和面向的人群或者提供服务是不一样的 。
所以说在我看来 , 未来会有一些通用的 Agent,也有无数的垂直领域的小 Agent。
然后数量你是觉得是无限多个 ?
至少比 SaaS 的数量是成千倍的往上涨 。 因为 SaaS 是一种通用的工具 ,但是 Agent 呢 , 它是一个交付结果的店面 。
嗯哼 , 所以店面的数量是无数多的 , 只要你能够交付在你这个垂直领域的更好的结果 , 那你就会收获一波你的用户 。
这个用户量甚至不一定要很大 ,但是它能养活你 。 就像有很多小店铺 , 它长期就那么多客人 ,但是它能活得很好 。
所以你觉得未来像淘宝店一样 ?
对 ,但是我觉得比淘宝店还要更进一步 。 它会更垂 , 更小 ,但是背后也有几个大的通用的 。 它是这样的一种并存的状态 ,而且会长期并存 。
明白 。 然后这个状态呢 , 我觉得大家畅想未来的时候都会有想到过一点 。 但因为那个离我们还比较远嘛 , 所以大家可能还没想到说 , 那到那个时候到底 Agent 会是什么样子 , 它跟人的区别是什么 , 或者它跟人到底是怎么协作互通的一个状态 。
所以你刚才就提到说 , 你觉得 Agent 和人是完全不一样的嘛 。
对 ,有很大的区别 。其实在这个阶段 , 大家可能还是认为 Agent 是为人服务的 ,但是在我看来 , 未来应该是人为 Agent 去服务 。
因为 Agent 它就是有更高的带宽 , 它能接收到比人更多的知识 , 或者比人更多的信号 。 人的认知是有限的 。
对 , 我们上一期播客里面 , 金剑也提了这个点 。
那期我没听 。
还没听呢 , 对吧 ?
对 , 还没听 。
好 , 就说明不是超导他的观点 。 哈哈哈 , 对 ,他的观点就是说 , 现在是工具为人服务 , 人输出结果 , 然后 Agent 呢是辅助人。
他觉得未来应该是输入到 Agent 到结果 , 然后人是辅助 Agent。 然后底下就有人喷 , 说人类为什么不是主体地位 。
你怎么看这个问题 ?
我觉得不用太把自己当回事 。 更重要的是 , 你到底能不能交付一个好的结果 。 我觉得如果人辅助 AI 能够交付一个更好的结果 , 那我们为什么不用这种模式呢 ?
而不用一定要去强调自己的地位 。 我觉得这个地位 , 它本身也是一种 Ego。
那你这里面一个核心的点是谁去下命令 ? 现在其实相当于是老板让人执行任务 。
对 。
就人是为人服务 。 未来是不是就是老板给 Agent 和人这个整体下命令了 ?
首先我觉得人和 Agent 呢 , 我们不要把它放到一个对立的状态 。 我们并不是比如说我一定要打败它 , 它也不是来取代我的 。
我们最重要的目的就是 , 我们要把人类和 Agent 算在一起 , 这样的一个群体完全去发展 。在这个发展的过程中, 它的不同的阶段 , 那比如说 AGI 大家比较认可的现在就有五个阶段嘛 。
第一个阶段 Chatbot, 第二阶段 Reasoning, 这都已经过了 。 第三个阶段是 Agent, 我们现在正处在这样一个阶段 。 那第四个阶段就是 Innovative 创新 。在创新这个阶段中,Agent 会是什么样的一个角色 ?
怎么能够让 Agent 甚至 AI 做出一些人类没有办法去想到的结果 ? 那这些事情之前已经发生过一些了 ,以后会发生的越来越多 。
所以在这种情况下, 我觉得没必要把它作为一个对立 , 只要它产生了一个更好的结果 , 对世界就是一个正向的 。
但这个就是比较哲学层面了 。 回到一些更具体的层面上, 人和 AI 的行动模式就是有区别的 。 第一个区别就是 , 人是一个单线程的工作模式 ,而 Agent 呢 , 它是一种多线程的并行的工作模式 。
差异6:16
人只能一件事情一件事情做 ,但 AI 可以同时出 100 个方式 , 然后它再从这 100 个方式中去获取到底哪个结果更好了 , 再往下推进 。
嗯 , 这种情况下, 它带来的还不仅仅是一个工作结果的变化 ,而是一种工作范式的变化 。 所以我们需要去为 AI 的这种新的工作范式去设计一些新的工具和环境 。
哎 , 你这里面提的这点 ,是不是正好最近大家在聊 Multi-Agent, 就是多 Agent 的协同这件事情 ? 嗯 , 就是你刚才说那个 ,其实是不是在某种程度上也是一种多 Agent 的协同 ?
不完全是 。 因为多 Agent 它是一种工作模式 。 我说的是 AI 和人的一个最重要的区别 。 因为人和人也可以协作嘛 ,Agent 和 Agent 之间也可以协作 。
但是更关键的是 , 人和 Agent 在工作或者说处理一件事情上, 本身有什么区别 。
嗯 , 那我们继续聊 Agent 和人的区别 , 对吧 ? 你刚提的工作方式的区别 。
对 , 第二个区别就是责任的问题 。 人是可以为自己的行为负责的 ,但是 AI 它采取的行为所产生的责任 , 到底是由谁来负责呢 ?
那这个就引申到对于 AI 所处的环境的边界 , 它的划分到底是怎么样的 。 这种划分和和人也是完全不一样的 。
明白 。 这两个区别体现在产品上是怎么样的呢 ? 比如也有人说现在我做 SaaS, 然后我把其中一个环节交给 Agent, 它就代替人。
但感觉你的观点是这个是完全不 work 的 , 未来应该是完全不一样的产品形态 。
对 , 完全不一样的 。
原因就是你刚才说那两点 。
对 。
所以我们可以挨个讲一下, 就那两点原因落在产品上的区别到底是什么 。
那比如说第一个点 , 这个工作模式的区别 。 因为我是一个程序员啊 , 我就用写代码来举例子 。 那我们人在写代码的时候呢 , 它是一个确定性行为 。
我先写第一个方法 , 再写第二个方法 , 然后我再通过某种逻辑把这些不同的方法给串联起来 , 就形成了这个代码 。
就 workflow。
对 ,但是 AI 呢 , 它可能是先生成 100 个方法 , 这 100 个方法呢 , 都跑一下, 看一下哪个是 OK 的 , 然后再把这个 OK 的通过某种方式回到它的系统中进行反馈 。
这样的话 , 它就会不停的去进步 。 所以说在这种情况下, 更重要的就不再是说 , 哎 , 我怎么把这个顺序的代码执行解释下来 ,而是怎么样去设计一个很好的反馈系统 , 怎么样同时生成 100 个实时的反馈给它 , 然后它再生成下一个 。
所以它的执行不再是一个方法先写好了 , 然后咵一次执行 ,而是我先输入进入第一个节点 100 种方法 , 得到一个结果 , 这个结果反馈回去 , 我再生成第二个节点的 100 种方法 , 甚至 1,000 种方法 。
这个是一个完全不一样的思路 。 那体现在软件中, 我们就需要有一个非常好的反馈循环 ,而这个反馈循环在人的这种模式中是不存在的 。
它也不需要很实时的反馈 ,因为它在最后看到结果就行 。
你讲就是人类 ,其实它还是一个线性思考 , 对吧 ? 它得一步一步做就看到结果 。 但 AI 或者说机器 , 它有点那种全局观 , 它直接从结果导向去倒推 , 对吧 ?
对 。
就对于人类来讲 ,是说我要去探地图 , 对吧 ? 我先开第一个地图 , 再开第二个地图 。
对 , 它是一个局部追求 ,而 AI 它有可能同时去触发 100 种探索 。 这个在计算机领域有一个类似的对比 , 就是第一种叫做贪婪算法 , 它永远在看局部追求 ,而第二种叫做动态规划 , 它永远直接看的是全局追求 。
所以人类的方法是较贪婪的 ?
人类在工作模式上是偏贪婪算法的 。 当然有些时候会先全局思考去规划 ,但是你真正执行下来 ,因为人就是单线程 , 它就是一步一步去执行的 。
嗯 ,但是 AI 在执行层面上, 它也可以在全局范围内寻找一个最优解 。
嗯哼 , 所以当下你觉得有没有哪个产品已经是在往这个方向去走 ?
可以举一个例子吧 ,DeepMind 团队最近做了一个叫 Alpha Proof 的这样的一个产品 。 它的逻辑很简单 , 就是让模型去解决商品和数学问题 。
人类的这种方式可能就是一步一步的去学习 , 哎 , 当我遇到这个问题的时候 , 我应该怎么解 。 但是 Alpha Proof 它是一种完全不同的模式 , 它只是设计了一系列的反馈型号 ,并且通过某种办法把数学问题转换成一种机器能识别的题目 。
它只是把题目给它 ,并且告诉它你要去解决它 , 然后让它自己进行推导和训练 , 最终也不知道它到底是怎么去解决的 。
但是从结果上来说 , 它就是可以去解决这个问题 。 所以这里面你看最关键的就是说 , 如果你为人设计一套解题系统 , 你需要设计的是怎么引导它一步一步去完成 ,而你给 AI 设计的系统 , 你最重要是设计的你最后那个反馈信号是什么样的 ,而不用去在意中间它到底是怎么做的 。
因为中间它的那个工作模式跟人完全不一样 。 所以我觉得这是最关键的 ,也是我说的它是一种工作范式的区别 。
我们不再是去做流程 ,而是在去设计最后的那个反馈 。其实回到我们自己做产品的时候 , 我们在设计 Grasp 的时候 , 就考虑到了这个点 。
所以我们所做的这种浏览器跟给人用的浏览器就会有一个很大的区别 。 我们会非常在意这个浏览器的结果怎么反向的去回馈到这个系统中 。
所以我们在每一步的结果中, 我们会去设计循环的一种奖励机制 , 根据执行和它的结果的一个判断 , 把它作为一个奖励信号 。
这个奖励信号就是你这次执行 , 它对结果来说产生了一个正向影响 , 还是产生了一个负向影响 。
然后我们会把这个作为一个数据输入 , 反馈到系统中 。 那在这种模式下, 我们相信它会越来越智能 ,而且越来越优化 。
这个也就是所谓的强化学习的一种方式 。
是 , 这个感觉现在是比较公认的一种方法 。
对 。
只是到底怎么做 , 谁做的更好不知道 。
对 。 嗯哼 ,但是这里面有一个很重要的区别 , 就是这个反馈信号到底来自于哪 。 这个在业界有一种说法叫做 Grounded Signal, 它的意思就是说这个信号它到底来源于真实的反馈 , 还是一些人为的判断 。
嗯 , 这个是完全不同的 。 实际上你看现在的大模型的这个阶段的很多反馈啊 , 它还是来自于 RLHF 人类的这种反馈 。
但是真实的情况下, 它应该是根据结果本身是不是被完善了 。 嗯 , 这也是我们在做这个事情里面的一个很重要的点 。
我们要去关注那个最后真正的真实结果 。 它操作网页去完成这个任务 , 那个结论有可能是它真的完成了 , 还是没有完成 ,而不是当我看到它一个系列的要采取的行为以后, 我去判断哦 , 这个行为是好的还是不好的 。
OK, 这是第一个点嘛 。 第二个点你也可以讲一下具体的例子 。
第二个点 , 安全边界的问题 , 采取责任的问题 。 比如说如果我今天要去生成一段代码 , 这个代码要执行的话 , 那如果是我自己写的 , 它在我的电脑上执行没问题 , 出了问题我也可以负责 。
但是如果这个代码是 AI 生成的 , 它能直接在这上面执行吗 ? 如果它把这个文件全删了 , 到底是谁的责任呢 ?
所以说第一个最基本的要求就是说 , 它需要有个沙盒 。 为什么今天所有的给 Agent 做环境的这样的一些 Infra, 都在提沙盒这个概念 , 都在去做虚拟化 ?
就是因为我们需要有一个边界 , 把 AI 它所产生的影响控制在一定范围内 ,但是在这个范围内也要让它能够更好的去运行 ,并且我们还希望这个沙盒它的启动 , 它的执行是足够快的 。
这个其实回到第一个点 ,因为 AI 它能同时执行很多步 , 所以我们希望这个过程是足够短 , 它能更迅速的拿到结果 , 这样它才能更好的去优化和迭代 。
所以比如说 E2B 这样一个产品 , 它就是主打的是我给了你一个安全的沙盒 ,并且它通过采用像 MicroVM 这种技术啊 , 使得它的启动时间非常非常的短 。
这个是第二个点的一个现实例子 。
对 , 你看像所谓的环境啊 , 沙盒啊 , 包括 E2B 这个产品本身 ,在美国其实现在很火啊 ,但国内我估计很多人可能还不太知道啊 。
E2B14:16
能不能正好给大家解释一下, 就是以 E2B 为例子吧 , 就它大概是做什么的 ,是怎么跑起来的 ? 因为 Manus 用的也是 E2B 嘛 。
对对对 ,其实 E2B 很大程度上它能火 ,也是说 Manus。
也是 Manus 带起来的 。
对对 ,其实很多 Infra 它的火 , 就是它上层的应用火了 , 跟着火起来了 。 那 E2B 简单来说 , 它就是提供了这样的一种环境 , 让你去跑 AI 生成的代码 。
那它为了让 AI 的代码能够更有效的运行 , 里面就会做了很多的工作啊 。 比如说我刚才提到了 , 它启动会非常快 , 它采用一个叫 MicroVM 的技术 , 这是一个进程级的 SaaS, 跟我们传统的理解的那种 Docker 容器不一样 , 它比那个更快 。
哎 , 我在想就是你看像 Manus 这种 , 就大家哪怕没用过也看过它的一些案例 , 对吧 ? 就它肯定是后台会生成一些代码 , 然后执行一些任务嘛 。
对 。
然后大家的下意识 , 至少我自己的感觉是 , 它肯定是在虚拟机或在云上跑嘛 。 嗯 , 那这个虚拟机和云和沙盒和 E2B 这几个的异同是什么 ?
首先虚拟机它是一种技术 , 它不是一个场景 。 嗯 , 它的最关键的点就是说把物理设备虚拟化出来以后, 构建一个隔离的环境 。
那可能虚拟化就会有很多不同的 , 比如说最早的那种虚拟机比较重 , 然后后面有了一些更轻量化的 , 然后包括广义上容器 , 你也可以算成虚拟机的一种 , 包括我刚才说的进程级的虚拟机 MicroVM。
所以它是一种不同的技术方案 。
E2B 是不是一种虚拟机 ?
E2B 它是一个解决方案 。 嗯哼 , 虚拟机是它其中的一个技术路径 。
OK。
那云和本地其实是有区别的 。 那本地唯一的优点就是它没有网络延迟 。 嗯 ,但是它带来了巨多的问题 , 安全隐患 , 没有办法弹性扩缩 , 它没有办法 7×24 小时运行 ,而这些就是云所解决的问题 。
哎 , 那这么说像 Cursor 什么那那一堆 , 它都是算本地化吗 ?
Cursor 的话其实它是 Copilot, 它的更主要的目的是辅助你去生成代码 。 首先它不是一个完全自主的 Agent,也不是一个环境 。
当然它慢慢的也在做 Agent 了 , 当它去做 Agent 以后, 你就会发现它的技术架构就会从本地变成云端 。
嗯 , 它需要在云端去运行它的代码 。
嗯 ,但是那我看也有人会讲说 , 就是因为 Cursor,Cursor 包括其他那些产品 , 对吧 ? 会提示说你要把这段程序跑起来的话 , 可能会遇到错误 , 它会提示你关闭本地的某个技术的端口 , 会有这种吗 ?
这个其实它也是 Copilot 的一种 , 它本质上是在辅助你去做一些判断 ,但是并不是交付结果 。
我知道 ,但是如果比如说我不懂这段代码 , 它这么提示我了 , 然后我就同意了的话 , 那确实是有可能系统就崩溃了嘛 。
呃 , 对对 ,是有这种风险的 。 是有这种风险的 。 不过这个也是一种思维模式的转变 。 从我的观察中, 这种模式也在逐渐的发生 ,因为我周围有很多工程师啊 , 我会发现他们之前在使用 AI 代码的生成器的时候 ,他们会去关注生成的是什么样的代码 。
我要去类似做一次 Code Review。 嗯 ,但是现在其实很多人已经不关注了 , 我就让它去执行 。
这就 Vibe Coding 嘛 。
对 , 那执行出来以后, 它的这个结果只要是符合的就 OK 了 。
对 , 就太把工程师 。
啊 , 对 ,但是如果在这种情况下的话 , 你怎么样信任它 ,其实是一个很关键的问题 。
那你觉得未来就这些都应该到云端 ?
对 , 它一定是在云端去执行 ,但是呢 , 它会通过某种方式把这个界面展示给你 , 让你能够看到它 。 这个展示是一个构建信任的过程 。
嗯 ,但是归根结底 , 你关注的是那个结果 ,而不是它生成的代码本身 。 所以类似的推广到其他行为上, 比如说 Browser Use, 你关注的也是它通过使用浏览器 , 通过去采取一些行为得到的那个结果 ,而不是它具体怎么去用这个浏览器 。
是 。
所以说这个也是给人用的浏览器和给 AI 用的 , 它一个很大的区别 。
嗯哼 , 我觉得这还挺有意思的一个比较大的观点 , 就是未来的 Agent, 包括往 Agent 走的产品都应该云端化 。
对 , 至少它的环境是云端的 , 它的客户端可以是在本地 。 嗯哼 ,因为有一个大前提 , 就是如果你要足够强大的话 , 它的模型要跑到云端 。
那在这种情况下 ,其实把环境和它的模型放在一起 , 是一种很天然的构建模式 。
嗯 , 哎 ,但这么听起来 ,E2B 好像做的事情也没有特别多 , 就它未来跟那些云厂商的关系会是怎么样呢 ?
我觉得云厂商它更多的就是一个基础设施 , 它有点像是比如说我们构建一个房子 , 它提供的是水电这种资源 ,而 E2B 是我怎么把这个资源真正的交付到那些使用这个东西的人身上 。
当然这是人打个引号 ,以后是 Agent。 所以说它可以类似是装修商 , 它去布置这些水管 , 它是去设计这个东西怎么去交付的 。
嗯 , 所以说它们本身是没有冲突的 。 那底层肯定还是云厂商会提供那种最基础的算力 ,而中间的这一层 Infra, 它提供的就是这样的一种环境 。
这个环境是 AI 或者 Agent 它真正去运行的地方 。
哎 , 我觉得你刚才例子举的很妙啊 ,因为你会发现好多地产商后面就拼商品房了嘛 ,他就说我卖的都是装修好的房子了嘛 。
嗯 , 所以那是不是后面一些云厂商也会自己做这些事 ? 反正我觉得至少 E2B 是一个很好的被收购的标的吧 。
嗯 , 对吧 ?
哇 , 这个其实是个很有意思的问题啊 , 就是说什么情况下一个房地产商它会去做商品房 ?
啊 , 这个你也有研究 ?
其实很简单嘛 , 就是它只做拿房修房这件事情 , 只交付毛坯房的时候 , 这个市场容量不够了 。
嗯 , 就没有竞争力了嘛 。
对 , 我就要去往别的更进一步的去卷 。 嗯 , 回过头来 ,AI 的这个市场本身是一个很大的增长的市场 。
我觉得在这个阶段 , 更多的是应该用一种合作和怎么样把蛋糕做大的逻辑来看这件事 ,而不用过早的去想怎么去分这个蛋糕 。
嗯哼 , 我觉得在 AI 的这个时代 , 所谓的这些壁垒都是不存在的 。
明白 , 所以如果按以前逻辑是说人用 Agent, 对吧 ? 然后 Agent 本身是 SaaS 的话 。
在这个时代下, 我觉得 Agent 绝对不能是 SaaS。Agent 就是一个主体 , 所以说你像我们在做的这种东西 ,是给 Agent 用的 SaaS,而不是 PaaS。
明白 , 那我刚才还好奇一个问题啊 , 就是比如还是用 E2B 这个来举例 , 就是那些代码它不能跑在本地 ,是因为它有可能出各种问题 。
那 E2B 说你放到我这来跑 , 那在它那出问题呢 ? 就是它的那些安全能力也很关键 ,是吧 ?
对 , 所以说这就是它所定义的这样一种边界 , 它就告诉你哪怕在这出问题了 , 我的影响最大会有多大 。
这个影响你如果是能接受的 , 那就没有问题 。
所以因为你也是做这一块 , 然后你也多年的 Engineer, 你觉得什么样的团队是最适合做 E2B 的 ?
我觉得是那种在真正写代码和开发 Agent 的人。 因为我觉得给 Agent 做 SaaS 或者给 Agent 做环境 , 需要有两个非常重要的能力边界 。
第一个是你一定要深入理解 Agent 的痛点 , 所以你本身要是一个 Agent Builder。 第二是你本身是这种环境的一个很重要的用户 。
就比如说当你要给 Agent 写代码的时候 , 你本身应该是一个很深度的写代码的这样的一个人。 那回到浏览器 , 那比如说第一还是一样的 , 你需要去 Build Agent, 你要有这样的经验 。
第二 , 你需要有很深度的写浏览器脚本的经验 。在这个情况下, 我觉得反倒是比如说你是做浏览器内核的这件事 , 它没那么关键了 。
因为首先内核本身技术比较成熟 , 第二在 Agent 的时代 , 这个内核可能跟上个时代是不一样的 。 关键的是你怎么构建一种好的开发体验和 Agent 的使用体验 。
所以说一定要在这个场景下有很深的认知 。
嗯 ,但比如还是 E2B 那个 , 就是它又得做过 Agent 又做过环境 , 对吧 ? 但这个还是一个很大范围的人群 。
如果再聚焦呢 ? 比如说我们刚才讲是说它必须安全能力特别好 , 还是说它的云还什么能力 ?
我觉得它不是安全能力特别好 ,而是它能理解这个安全边界在哪 。 这里还有一个很有意思的例子啊 , 就是 E2B 其实有一个竞争对手叫 Forever VM, 那 E2B 已经打了安全了 , 这个是大家拍脑袋都能想到的 。
嗯 ,但是 Forever VM 打的是什么呢 ? 打的是状态 。
什么叫状态 ?
哎 , 这个就很有意思 。 我们写代码的人就知道 , 比如说每一次代码执行 , 它都会有一个状态 。
代码执行完成以后状态就没了 。 嗯 ,但是在 AI 使用代码的过程中, 它可能先执行一段脚本 , 然后中间它又去做别的事 , 然后可能比如说过了一个小时, 它想要接着这个脚本往下运行 。
那怎么样能够保持这两段脚本的状态不丢失 ? 同时这一个小时, 我不可能一直把环境给它热启动在那等着 ,因为这样会浪费巨大的资源 。
怎么做到这两个上下状态的无缝衔接的同时, 中间又可以极大的节省资源 ?
哎 , 这不完全就是你刚才讲的第一个情况的案例吗 ? 它解决的就是 Agent 的并行的问题嘛 , 对吧 ?
它并行任务 , 然后又要来回反复横跳 , 然后怎么样能接上嘛 , 对吧 ?
啊 , 对 , 可以这么理解 。 所以说这个痛点其实在人类写代码的这个情况下, 它是不会出现的 。 你就算做了很多年的代码编译器 , 对你去发现这个痛点 , 它也不一定是有很大的帮助 。
反倒是你就是一边写 Agent, 一边又写代码的这拨人, 哎 , 你就会发现哦 ,在这种情况下它会有这个问题 。
嗯 ,而你去解决这个痛点 , 你就提供了一个解决方案 , 那这个解决方案就具备了价值 。 那这个价值本身就是你这个产品的壁垒 。
哎 , 我再延伸一个问题啊 , 就我理解这个价值它是给 Agent 的 。 就是 Agent 会输出的更好 ,但最后反馈到人类能够衡量的指标上, 是一个什么指标呢 ?
是说它结果更精准 , 成本更低 , 还是什么 ?
就是成本更好 。
对 ,因为安全这个事其实你挺难去衡量那个结果的 , 对吧 ?
其实安全它是一种比较模糊的概念 , 所以我一直在强调的叫做边界 。 就是说在这个边界范围内 , 你能不能接受 。其实 E2B 很重要 , 就是它相当于是把 AI 放到了一个围栏中 。在这个围栏中, 你知道哦 , 它最多就只能影响这么多了 。
那这个围栏到底有多大 ? 太小了可能对 AI 的限制太大 ,不能有办法发挥它的能力 。 太大了可能大家又没办法接受 。
这个度是很难把控的 , 这个我认为也是 E2B 很重要的一个价值体现 。
你说 Manus 在年初的时候 ,他是怎么发现 E2B 这个东西 , 然后怎么知道就要用它的呢 ?
这个其实很简单 , 作为一个开发者来讲的话 , 你要解决你的这个产品中的一个需求痛点 , 比如说 Manus 可能就要解决我需要给我的 Agent 一个虚拟机 , 然后我需要在里面去跑一些代码脚本 。
这个时候我就会上网去搜索相关的解决方案 。 哎 , 我为什么要去找别的解决方案呢 ? 因为我自己做 , 我要解决 12345 这些问题 。
那这些问题可能它在 E2B 上看到了 , 哦 ,他们已经解决很好了 , 所以我就直接用 。 开发者其实选东西很简单的 , 就是你能解决我的问题 。
嗯哼 ,但顺便再问一句 , 那哪些东西是自己应该做 , 哪些东西是直接拿别人的来用的 ? 还是你觉得作为开发者来讲 , 只要有别人做的就会很开心的拿来用 ?
这个问题其实是开发者圈特别有意思的问题 , 就是要不要重复的造轮子嘛 。 从我的观点中, 我是倾向于用现成的 ,因为在我看来其实开发者它的关键的价值也是交付结果 。
就是当一个需求来了以后, 你通过代码的方式去把这个程序构建出来 , 然后这个程序最终交付出去作为一个结果 , 那怎么能够更好的去构建 , 更高效的去完成它 。
这是一个更关键的事情 ,而不是这里面的代码到底是你用别人还是你自己写的 。 所以如果从我自己的角度出发 , 我会倾向于去用那些做好了的 , 除非它没有办法满足我的需求 。
而且这个需求是一个非常非常关键的需求 , 那我就会要么自己写 , 要么基于它去做二次定制 。 这也是我们为什么很喜欢开源世界的原因 。
所以你看好 E2B 吗 ?
我还蛮看好 E2B 的 , 我觉得它是一个非常重要的 Agent 与这个世界交互的渠道 。
那你刚才说的另外它那家竞品呢 ?Forever VM 嘛 。
在我看来 , 给 Agent 用的环境这个市场是足够大的 , 它能够容纳很多家 , 每一家可能提供不同的解决方案 , 可能在不同的场景下它能够满足的更好 。
哎 , 这些如果对标之前的那些产品的话 , 大概像是哪一类啊 ?
我的感觉就是像原来的给人用的 SaaS, 现在只是说它变成给 Agent 用的 SaaS 了 , 或者叫 Infra 吧 ,但是它不是最底层的那个 AWS 那种 Infra, 比如说像 Databricks 啊 ,Snowflake 这种 。
我觉得这是一个比较泛化的一层 ,但是到了今天这个情况下, 它可能不是像原来那样一模一样的切分方式 。
那如果 Agent 我们假设未来它起来 , 对吧 ? 有千亿万亿个 Agent 在全世界无时无刻在运行 , 然后有很多给它们做的环境跟 Infra, 或者说给 Agent 做的 SaaS, 然后这些会怎么影响你刚才提到那些现在的 Infra, 就包括 Databricks 啊什么的这些 ?
就是你要么顺应潮流 , 要么你就被历史淘汰 。
嗯哼 , 这个事情我们已经经历过很多遍了 , 无数的公司它没有顺应潮流 , 没有变化 , 它有惯性 , 它就在历史长河中消失了 。
但是也有一些公司它很快的调整 , 它就能适应这个变化 。 那按这么讲 ,其实就首先如果在听的人认可说未来 Agent 会起来 , 我觉得哪怕不知道什么时候 , 大概率它是会起来的 。
那就是背后现在我们能看到一大堆的机会 ,有非常多东西是能够重新做 ,而且市场是非常大的 , 应该能得到这么个结论才对 。
对 , 这个市场在我看来是刚刚才开始 。 如果你把大模型的出现想象成人刚开始有了智能 , 我们可能今天还处于我刚刚才会生活这样的一个阶段 。
实际上还有巨量的事情是可以去做的 , 甚至因为现在的大模型 ,其实它还没有真正的与这个世界发生交互并且获取反馈 , 所以它还有很长的路要走 。
那这里面就会蕴藏巨大的机会 。
Browserbase28:32
嗯 , 好 , 讲完 E2B 再回来讲一下 Browserbase, 就美国那边给 Agent 做的产品两个典型 , 对吧 ? 一个就是 E2B, 一个就是 Browserbase 的 。
对对 ,Browser Use 应该是被收购掉了 , 好像是 。 那个就是 YC 投嘛 , 然后最近也刚刚拿了新融资 , 它也是 Browser 这个领域的一个玩家了 。
对 , 然后正好你们现在想做的也是给 Agent 用浏览器相关的东西嘛 , 对吧 ? 你可以先给大家介绍一下这个赛道啊 ,Browserbase 啊 , 什么这些公司的情况 。
Browserbase 呢 , 算是一个现在的当红明星了 , 从融资额也可以看出来 , 它一年的时间估值涨到了 3 亿美金 。
它其实打的概念也很简单 , 就是给 AI 用的浏览器 。 它跟传统浏览器区别就是它首先把浏览器云化了 , 它在 AI 使用浏览器的这些场景上做了一些优化 , 比如说 AI 是需要 RAG 的 , 对吧 ?
所以说它在使用的过程中, 它可以去自动的获取这个网站的一些信息 , 作为上下文来辅助 AI 去操作这个网站 。
对 , 所以它主要就是优化一下 AI 在使用浏览器中可能遇到的一些痛点 。
如果说 E2B 当时内部主要靠 Manus 搭起来的话 ,Browserbase 是谁搭起来的呢 ?
哦 ,Browserbase 这个就更有意思了 , 为什么我们会做 Browser 这个生意啊 ? 它也是这样的一个逻辑 , 就是我当时在字节跳动的时候 , 我特别喜欢一名的一个说法 , 叫做务实的浪漫 。
嗯 , 我们前面都在聊仰望星空 , 对吧 ? 以后未来很大 ,但是你回到今天 , 你也需要去解决具体的问题 , 你需要脚踏实地的去切入 。
那一个最基本的数据就是说 , 现在互联网上的流量有 40% 其实已经来自于机械 , 那你能够去解决现在的这些 40% 的流量所遇到的那些问题 , 它就是一个很好的切入点 。
所以实际上 Browserbase 很多还是在去解决现在 40% 的那些机器人 ,他们在去爬取网页信息的时候所遇到的那些具体的问题 , 比如说它不够智能化 , 比如说它没有办法适应这个网页的调整 , 比如它因为不知道这个网页的信息 , 所以当网页发生变化以后它就失效了 , 类似于这些问题 。
对 , 所以它的客户很多是传统的爬虫公司 , 可以这么理解是吗 ?
对 , 或者是比如说自动化测试 , 就 RPA 什么的 。
啊 , 对 ,RPA。 哎 ,但你看从 Manus 到 Fello,他们两个好像都没有用 Browserbase 吧 ?
对 ,但这是为什么呢 ? 就他们也都有 AI 用浏览器这个功能 , 对吧 ? 然后同时呢 ,Manus 还选择了 E2B,他为什么不选 Browserbase 呢 ?
我觉得可能有一个原因 , 就是 Peak 它自己本来就是做这一块的 。 对 , 还有一个点是 , 如果你真正去使用 Browserbase 的话 , 它产品的使用体验上面还是有比较多的问题的 ,而且 Browserbase 不开源 ,E2B 是开源的 ,Manus 我可以基于 E2B 去做 。
就这个阶段其实大家都处于很早期 , 你没有办法说真的那么拿来就用 , 所以说实际上就是还有很多工程问题没被解决 。
嗯 , 哎 ,但过了这么久应该有些开源的解决方案吧 ? 就在 Browser Use 里面 。
肯定是有一些的 ,但是呢 , 解决的都不算特别好吧 , 包括 Playwright 自己也开源了一个叫 Playwright MCP 嘛 。 嗯 ,但是实际上这种浏览器环境本身是比代码环境要复杂一些的 , 就是它涉及到的网络问题 、 延迟问题 , 包括状态管理问题是复杂很多的 。
对 , 正好我们讲一下就给 AI 用的浏览器跟人本身用浏览器的具体的几个区别是什么 。
首先第一个比较简单的点就是给 AI 用的浏览器 , 它一定是跑在云端 。 嗯 ,因为 AI 是不会睡觉的 。
第二个呢 , 就是 AI 它对浏览器的页面的读取 , 它不一定要跟人一样通过视觉去操作 , 所以它可以是 Headless,也就是说它不需要真正的像人一样 , 就是看到这个界面然后用鼠标去操作 。
哎 ,Headless 这个词在这一类的场景里面总提嘛 , 对吧 ? 但你能不能用大家都能听懂的话解释一下到底 Headless 是个什么东西 ?
其实一个浏览器它有前端的界面 , 它就是 To Say 的用的浏览器 。 如果没有前端那个界面 , 它只是用一种进程跑在后端 , 它就是 Headless。
哎 , 这里顺便插一句 , 就如果未来 Agent 真的起来了 , 那是不是就都是这样 ? 就 AI 是不是就都不需要前端 ?
理论来说 。
给 AI 用的 , 它是完全不需要一个这样的交互界面 ,因为人的使用方式和 AI 使用方式是不一样的 。 嗯 ,但是呢 , 这种给人用浏览器也会长期存在 ,因为人也会一直存在下去 。
是 ,OK, 这是第二个点 。 还有吗 ?
第三个点就是从安全的层面出发 , 比如说如果你今天去用一个浏览器操作的时候 , 那到底登录的时候要不要把这个账号名密码给到大模型呢 ?
嗯 , 肯定你不希望 , 对吧 ? 但是你也不希望它每次遇到登录问题的时候就来问你说 :" 哎 , 你帮我做一下 。"
所以说怎么样解决既能够它能登录 、 自主去操作 ,但是同时又不会把你的账号名密码给大模型 , 这是给 AI 用的浏览器里面一个特别的问题 , 跟人完全不一样 。
这个问题你们能解决的啊 ?
对 , 这个问题我们做了一个功能叫做 Secure Local Login, 就是安全本地登录 。 我们通过对浏览器的一个定制化 , 使得当你去要登录的时候 , 它会自动去判断 ,并且通过一种纯本地的方式把你的账号名 、 密码 , 甚至是收邮件验证码填进去 。
整个过程不需要人的干预 , 它是一个全自主的 ,并且绝对不会把你的任何信息传给大模型 。 嗯 , 这也是我们做的一个比较核心的差异化功能了 。
嗯 , 第四个点其实跟刚才我提到的 Forever VM 很类似 , 就是实际上大模型在操作这个浏览器的时候 , 它很多时候会是多步骤的 ,而且很多时候它中间会有很多的间隔 , 比如说我先去协成 , 我收掉了机票的信息 , 然后我把这个信息拿到另外一个系统中进行推理 , 整个过程可能还需要人的介入和参与 , 最后我决定要买哪张机票了 。
好 , 我回过来去操作这个浏览器 , 你肯定不希望你回过来的时候这个浏览器你又从头开始了 , 你肯定希望是继续上一个页面 ,但是中间这个推理和人决策的过程可能持续很长时间 。
那我们这个浏览器因为是跑在云端的 , 如果我们一直让它等在那 , 它就会非常耗资源和占用时间 , 所以怎么能够让你在下次回来的时候 , 你直接接着上面的东西继续运行 。
这个过程中你的感觉好像这个网页从来没有消失过 , 一直在那一样 ,但是中间又不会消耗你的资源 , 这也是我们做的一个叫做 Stayed for Browser Session 的一个功能 ,在解决这种问题 。
那这些就是一些很具体的问题了 , 所以这个就是人在使用浏览器和 Agent 在使用浏览器的时候 , 它的一些很显著的区别 。
你刚讲最后那个点 , 我觉得人类也遇到一样的问题 , 我经常跳出去再跳回来 , 跳不然我买了多少 ?
它说价格已更新 , 然后还重新搜索 , 再重新进 , 就很烦 。
啊 , 对 ,但是这个有一个点在于 , 你的这些行为是跑在你的个人电脑上的 , 所以它本质上也就是在浪费你个人的资源 。
可以浪费我个人的资源 ,不可以浪费 Agent 的资源 。
因为这东西跑在云端的话 ,而且 Agent 它是并行的 , 所以它可能会同时进行很多 , 那这个资源的浪费可能就不一定能够接受了 。
是 , 明白 ,但 Browserbase 已经做的还行了嘛 , 对吧 ? 嗯 , 那你们还要做这个事的原因是什么 ? 你跟它的区别会是什么 ?
如果你今天想要构建一个有 Browser Use 功能的 Agent, 它一共就分成三层 , 最下面这层就是浏览器的运行时, 你可以认为它是一个传统的内核浏览器 , 它解决的就是比如说当我要去访问一个网页的时候 , 我怎么从网上把这个网页的信息拉下来 , 那拉下来以后我可能要执行一段脚本 , 我怎么去执行这个浏览器的脚本 , 那怎么去渲染图片 , 就类似于
Grasp35:56
这些的问题 。
有点像就是云端有个引擎 。
对 , 这就是最基本的一个 , 我们把它叫做 Runtime 的这样的一层 。 那不管是 Browserbase 也好 , 还是原来传统的 Playwright 或者 To Say 的话 ,Chromium 它本质上都是这一层 。
嗯 ,但是实际上 AI 来了以后呢 , 上面多了第二层叫做 Agentic 层 , 这一层控制的是 AI 怎么去跟这个网页交互 , 怎么从网页获取信息 , 怎么去产生信息来影响这个网页 ,以及怎么去推理你的整个过程 , 行程它到底要干什么 。
再上面一层呢 , 就是 Knowledge 层 , 就是垂直行业的 Know-how。 那这一层呢 , 我觉得是所有的那些真正去 Build Agent 的那些人他需要关注的 ,因为他需要去设计怎么样去反馈这个系统的这种机制 , 来去优化它最后交付的结果给它的终端用户 。
我们做的是哪个呢 ? 我们做的就是最底层的这两部分 , 就是 Agentic 加 Runtime, 我们把它合而为一 。 因为在我们的观察中, 这两个点呢 , 第一它的工程量非常大 , 需要解决很多个问题 ; 第二是它的很多问题都是比较通用的 , 开发的时候你都需要去面临 。
所以我们公用把它解决以后呢 , 我们提供这样的一个封装的 Agentic Browser 给开发者 , 那这些开发者以后只需要带着自己的行业认知 , 你可能就可以构建一个自己的 Manus 或者自己的 Fello。
但 Browserbase 做的是哪一层 ?
Browserbase 做的就是 Runtime 那一层 , 就最下面那一层 。
最下面那层 , 那最下面那层我听起来 ,因为浏览器已经这么多年了嘛 , 应该有非常多很好的解决方案了嘛 , 或者说比如说今天 Google 说我想做一个这个东西 ,是不是分分钟就能做出来 ?
对 , 所以实际上在我看来 , 如果纯做下面这一层 , 确实它的壁垒不是足够大的 ,但 Browserbase 有一个很强的先发优势 。
不过 Browserbase 确实也提供了一个开源的框架叫 Stagehand, 它的逻辑就是开发者可以自己通过 Stagehand 实现 Agentic 这一层 。 嗯 , 然后你再接它的 Runtime 这一层 , 然后你就可以构建一个 Agentic Browser, 再把你的行业认知进去 。
但是在我看来 , 这样的话它的工程量太大了 ,因为我们实际做下来中间这一层 , 包括我刚才提到的 Secure Local Login 啊 , 比如说长状态的管理啊 , 这些都是很复杂的 ,并且你要去解决这些问题的话 , 实际上你就是要有对底层的 Runtime 的一个控制能力 , 你才能够把这个问题解决得更好 。
所以说你必须要最下面层和中间层一起做 , 你也不能说我就是接 Browserbase 做中间层 。
对 , 如果这样的话 ,其实很多你想实现的功能就是实现不了的 。
OK。
啊 , 所以这也回到刚才点一下, 为什么 Manus、Fello 它不用这些 ,因为它可能是做的一些更通用的 Agent, 它就是需要对底层有更足够的操控 , 它要去设计自己的反馈循环 。
嗯 , 啊 , 那可能就真正的从最底层开始自己做 ,但是未来并不是每个人都需要这样做 ,也不是每个人都有这么强大的工程团队去做这件事 。
所以我们做的就是把这个工程问题我们帮它解决了 , 提供这样一种基础架构给大家 , 然后让大家基于我们去构建自己的 Agent。
OK, 我在想啊 , 就是你说的中间那层 , 就是 Agentic 那一部分 。 嗯 , 它具体在产品上的体现会是什么东西 ?
具体的就是比如说你给我一个任务 , 我们会首先去基于你现在这个网页和你的任务进行一次推理 , 然后呢去判断到底要执行哪些步骤 ,而不是说你告诉我啊 , 你在这个地方要执行哪些步骤 。
对 ,但从这个角度来讲 , 你跟 Fello 的区别是什么 ? 因为它也是说人类给它一个需求 , 它也是去分步骤再去执行嘛 。
首先 Fello 是 To Say 的 ,而我们是给开发者用的 , 这个面向的用户不一样 。 所以从这个层面上来说 , 理论上 Fello 也可以基于我们去构建 ,Fello 没有办法解决你的需求的时候 , 你就可以快速基于我们去构建一个 Agent。
哎 , 比如我想基于你们做个 Fello, 应该是还蛮快的嘛 ,是吧 ?
呃 , 相对的 ,但是实际上 Fello 和 Manus 它都不仅仅用到了 Browser 这一种环境 。 嗯 , 啊 , 所以说实际上未来的这种形态就是有大量的 AI Infra 或者 AI 环境公司 , 它去提供这种基础设施 , 然后每一个基础设施就像一个乐高积木一样 , 你买了把它拼起来 , 然后再带上你自己的行业认知或者你相关的一些特定的解决方案 , 然后你就可以构建你自己的 Agent。
对 , 我觉得现在大家就认为说 Agent 的有些组成部分肯定要有 , 对吧 ?AI Coding 肯定是它一部分 , 所以它一定会需要一个 E2B 这样的一个 Coding 的在线的云的环境 , 然后用浏览器去跟人的互联网世界去做交互 , 去搜集信息 , 去完成一些 Action 肯定也是有的 , 所以就会有 Browserbase 这一类的 。
对 。
除了这两个呢 , 你觉得别的还会有什么 ?
首先在我看来 ,Coding 和 Browser 一定是两个非常非常重要的环境 , 这个其实都不用看 Manus 和 Fello, 你就看行业最大的公司 ,ChatGPT 的 Deep Research Agent, 本质上就是一个 O3 模型 , 再加上一个网页浏览能力和一个 Python 的代码执行器 。
嗯 , 所以代码和 Browser 一定是两个最重要的环境 。 那除此之外呢 , 可能还有一些更抽象的环境 , 比如说运行数学公式的环境 。
那再往下一层呢 , 它可能有一些更具体的环境 , 比如说跟物理世界的接触 , 比如说传感器啊 , 具身智能啊 , 包括像李飞飞他们在关注的空间智能 , 这种就是给模型提供的与真实世界交互的环境 。
所以你觉得中间那块就是除了 E2B 跟 Browser Use 就没别的 ?
这是两个非常大的类 , 一个类就是 Coding,Coding 解决的问题就是执行一个逻辑 ,而 Browser 解决的问题就是与 Web 信息的交互 。
所以说如果你从大类上来说 ,其实就是这两类 ,但是中间会有非常多的细分 , 比如说我会有不同的浏览方式 , 我有可能获取信息多 , 我有可能是产生信息多 , 那不同的方式它会有不同的痛点 , 就会有不同的解决方案和环境公式出现 。
嗯 , 啊 , 代码也是一样 , 我执行的是脚本代码 ,是解释性语言还是编译性语言 , 它可能都会有一些区别 。
嗯 , 啊 。
所以这两个赛道 , 包括你们现在选的这个赛道 , 应该是未来非常非常大的赛道 。
AI Coding42:40
对 。
哎 , 我记得之前我们聊天的时候 , 你提到过一句 , 你说今天的 Browser Use 就有点像 23 年的 AI Coding 嘛 , 对吧 ?
对 。
这个观点可以再给大家解释一下吗 ? 因为你们 23 年的时候 , 一开始纯做 AirCode,也算是 Coding 产品 , 对吧 ?
对 , 对 ,其实你回过头来去看 23 年的时候 , 那个时候 AI Coding 也有非常多的问题 , 大家也都在怀疑它到底是怎么样 ,但是到今天基本上已经没有问题了 。
那今天的这个时间点 , 为什么是当时的 AI Coding 呢 ? 其实是这样的 , 就是实际上一个大模型能不能解决某个具体的问题 , 它有一个很简单的公式 , 就是这个事情的样本集和这个模型的成功率 ,因为大模型它本身是一个概率模型 , 那它们俩一乘完以后, 它得到的那个结果的这个成功数能不能满足人的需求 , 如果能满足人的需求 , 它就会开始变成主
流 。 回到 2022 年的时候 , 那个时候的 GPT-3 是不行的 ,但是从 GPT-3.5 开始 , 它就突破了一个阈值 , 使得像代码这种量级的样本数 ,在乘以它的这个概率以后, 达到一个可以被人满足的结果 。
回到今天 ,Browser Use 它的这个样本数是更大的 ,而今天的模型的概率显然是没有办法去满足它的成功率的 。
所以说为什么在今天还有很多人会认为说 Browser Use 不实用 ,但是随着大模型模型能力的增长啊 , 然后它的这个概率的提升 , 使得当这个样本数乘以这个概率所达到的那个结果能够满足人的阈值和需求以后, 这个事情就立马变成了今天的这个 Coding。
嗯 ,而且这个事情会发生的比之前更快 。
嗯 ,AI Coding 的结果是现在甚至于全球几百家公司在做吧 , 估值很高的也有非常多家了 。 你觉得未来 Browserbase 或者 Browser Use 这个领域也会是这样吗 ?
其实哪怕是 AI Coding, 我觉得还在非常非常早期 ,因为如果你从商业层面来看的话 , 全球软件开发的总市值大概有 3 万亿到 4 万亿美金 , 如果 AI 能够在其中提升 5% 的效率 , 那就是一个 1,500 亿美金的市场 。
但是今天 AI Coding 可能也就是一个几十亿小 100 亿美金的这样的一个市场规模 , 所以它还有很大的空间去增长 。
那回到 Browser Use 是一个道理 ,因为今天大量的这种商业行为都是发生在互联网上的 , 我们在用互联网去做销售 , 去做招聘 , 去做沟通 , 去展示我们的成果 , 去获客 , 那这些事情如果能够通过 AI 提升哪怕 5% 的效率 , 它就是一个非常潜在的巨量增长市场 。
那在这档市场机会下 ,其实你做这个事情 , 它就是有非常大的机会 。 所以说我觉得现在其实还刚起步 。
嗯 , 你应该日常也跟不少人在聊类似的话题嘛 , 你觉得大家对于给 Agent 做产品这件事情 , 现在有什么很强的非共识吗 ?
就是 Agent 的产品到底最需要什么 , 这个我觉得是一个非共识 , 每个人的看法都是不一样的 。 有很多人会认为我需要给它更好的上下文 , 更好的知识 , 或者说我需要采取更合适的模型 ,但是在我看来 , 最关键的是怎么设计最好的反馈循环 。
嗯 , 这个是设计整个 Agent 中最最最重要的一点 。
对 , 你看对做 Agent 的人来讲 ,他的产品设计本身也是一种环境 。
对 。
你的那个环境其实是另外一种环境 。
他们做的其实不是那个环境 ,他做的是 Agent 本身 , 环境呢是 AI 和它所处的那个外在世界的一个交互方式 , 那通过这个交互方式 , 它去获取一些真实的结果 , 去作用到这个 Agent 本身上, 然后通过这种反馈再设计一个奖励机制或者一种反馈循环 , 使得它去往上提升它的能力 , 然后交付更好的结果 。
嗯 , 对于 Cursor 来讲 ,VS Code 那套东西应该是环境吧 ?
对于 Cursor 来说 ,其实它 VS Code 里面内置的代码执行器是它的环境 。
但未来这些东西你觉得都应该到云端 ?
对 。
哎 ,但如果这么讲的话 , 这个就聊得有点偏啊 ,但我还蛮好奇的 , 就是那如果 E2B 未来应该把这些事都做了 ?
E2B 其实现在也在做类似的事 。
那你们的产品什么时候上线 ? 大概 。
啊 , 我们预计应该是下个月就可以开放 。
对 , 就是如果我用你 , 可能很快能做出来个 Fello, 那我未来可能我用 E2B 的 , 很快我也能做个自己的 Cursor, 至少是个低级版的 Cursor 吧 ,是这么一个类比关系吗 ?
可能是一个更专注在你的领域中的 Cursor, 你可以把 Cursor 认为是一种叫通用的代码 Agent,但是实际上还有很多专业领域的代码 Agent, 比如说今天这个 Agent 呢 , 就专注于生成一个更好的登录页面 , 那它在这种环境下它所需要的点是不一样的 , 这些点更多的来自于上层的需求 ,在下面的代码执行环境中它是没有区别的 , 这一套公用的代码执行环境是可以跑在 E2B 中的 。
嗯 , 然后我还在想 , 如果未来 Agent 特别多的话 ,但现在留下来好像就是 E2B 的那个环境和 Browser Use 的环境是值得做的 。
新机会47:46
那比如说我今天想创业 , 我相信未来 Agent 会起来 , 我就是要给 Agent 做产品 , 那除了这两件事 , 还有什么事你觉得能做的吗 ?
除了环境以外, 还可以做工具 ,因为 Agent 呢 , 如果你把它作为一种新的服务对象的话 , 那在服务人的过程中, 这些工具都是有机会重新做一遍 , 比如说身份 ,Agent 要不要有自己的身份呀 , 它甚至要不要有一个自己的电话可以接收短信 ,Agent 要不要有支付能力啊 , 啊 , 所以支付也有机会可以做 。
所以你这些应该也都考虑过 , 对吧 ? 那最后选择了 Browser Use 的方向 。
对 。
那原因是 ?
第一个是我们本身是有很多年经验的这种前端开发 , 所以说我们对于 Browser 本身以及做这种自动化流程有很深入的理解 。
嗯 , 第二就是 Browser 在我看来 , 它是 Agent 与这个世界交互的一个非常非常重要的渠道 , 所以说这是一个非常非常大的机会 , 那我们希望在今天这个很早期的阶段去做这个更大的机会 。
嗯 , 明白 。 所以你觉得未来几年吧 , 甚至更长时间 , 你怎么看 Agent 的整体的发展 ?
在我看来 , 一个最重要的范式转变就是 AI 会从人类的数据变成它自己去体验这个世界 , 然后从这个体验中去获取那些真实的反馈作为数据 , 来训练它自己不停的去增强 , 只有在这种情况下, 它才可能突破人类的认知去发现一些更新的东西 。
怎么赚它自己的体验跟数据呢 ?
我举个例子 , 你让大模型去产生一个川菜菜谱 , 那今天我们的做法是怎么样的 ? 我会找一个非常厉害的川菜的大厨 , 看到这个菜谱 , 然后他就告诉你这个菜谱行还是不行 , 然后我们把这个东西告诉 AI, 然后 AI 不停的去学习 ,但这样的后果就是 AI 会越来越受人类的偏见的影响 。
啊 , 这里插一句啊 , 我觉得可能人类最大的一个偏见就是我们非常相信人类的知识和人类的先验的这些经验 , 对大模型来说是很重要的 , 所以我们不停的把我们的知识灌给它 , 希望它越来越聪明 。
那有没有一种可能 , 就是人类的这种知识对它来说其实是毫无必要的 ?
就像那个 AlphaGo 一样 , 对吧 ? 就最后发现人类的棋谱其实没有那么重要 。
对 , 所以这个就是所谓的叫 The Bitter Lesson 嘛 , 所以说在这种情况下, 我们能不能去发现一种更好的方式 , 让 AI 去获取更多的更适合它的数据呢 ?
那就是我需要去跟这个世界进行交互 。 所以我回到刚才的这个例子 ,其实你让一个大厨来判断它好还是不好 , 它永远只能无限的去逼近这个大厨 , 真实的情况难道不应该是按照这个菜谱把这个川菜做出来 , 然后你尝一下, 它要么就很好吃 , 要么就很难吃 , 然后把这个真实的结果作为一个反馈给它 , 然后它这样的去学习 , 它才有可能某一天
做出来一个菜谱 , 然后这个川菜的大厨觉得这个菜谱很难吃 ,但是实际做出来很好吃 。 嗯 , 这个就叫创新 , 它才能突破人类的边界 。
所以我觉得未来的这个 AI 的发展 , 它一定要是通过跟这个环境和这个世界进行真实的交互 , 然后去获取一些真实的反馈 , 所以这就是我认为在整个的 Agent 的发展中, 环境为什么非常重要的一个原因 。
云厂商51:14
嗯 , 明白 。 我最后一个问题就是我听了半天 , 我就觉得那是不是有些云厂商的股票未来应该是能涨得更好更好啊 ?
我觉得很关键点就是说 , 你到底能不能在这个时代快速的去转变 , 跟上这个时代的发展 , 就跟今天的智能手机已经比 10 年前 、20 年前的手机市场大了那么多了 ,但是并不是在 20 年前你只要是做手机的 , 你的股票就一定涨得很好 , 你也可能像诺基亚一样淘汰 , 你也可能从一个完全不做手机的变成一个非常知名的厂商 。
不过整体上来说你说的是对的 , 我觉得未来的云厂商会有更多的机会 ,因为云厂商的机会就是来源于它是卖资源的 , 那如果我们这个世界会消耗更多的资源 , 我们会产生更多的数据 , 它就更值钱 。
所以你甚至于会觉得现在有个新的云厂商的机会吗 ?
对 ,在我看来 AI 的环境这件事情 , 它就是一个 AWS 级别的机会 。
那就还是我们最早聊过的问题 ,但它最后跟 AWS 的关系会是什么呢 ? 因为现在这些肯定都是基于别的云嘛 ,AWS 级别的机会 AWS 自己也可以做 , 这个是毫无疑问的 ,但是在我看来更关键的是谁能抓住这个点 。
所以说如果真的要聊到非常遥远的未来的竞争关系的话 ,其实你可以认为像我们这种 AI-Native 的 Infra, 就是从上往下做 , 我们从最贴近 Agent 的人使用的那些环境工具开始慢慢的做 , 那有一天我们可能就会构建完全自己的浏览器内核 。
但这个就太难了 , 就最后都是大厂在做 , 肯定还是有道理的嘛 , 它还是一个重资源的事情 。其实我觉得更多的它就是一种相互合作和补足的关系 。
嗯 , 明白 。 然后我最后问一下, 就是我们今天聊的很多东西的基础就是未来 Agent 会起来嘛 , 对吧 ?
对 。
那到底什么时候会起来 ?
我觉得我没有办法判断这么长远的事情 ,但是我能够看到的是 , 今天 Agent 它就是不停的在崛起 ,而且我觉得相对于思考 Agent 什么时候会起来 , 更重要的是思考 Agent 是不是一定会来的 ,而 Agent 来到的那一天 , 我们能够为 Agent 做些什么 , 发挥什么价值 。
但是从商业上来讲 , 这个产品肯定很重要嘛 , 所以你们那个产品如果做出来以后, 你也是会像 Browser Base 一样 , 先面向那些传统已有的那些什么 RPA 啊 。
对 , 它一定是一个转型的过程 , 这个世界上它不会凭空出现一些需求 , 它一定是现阶段已经在用的这些人 ,因为它有一些需求没有办法被满足 , 然后正好大模型对于它的这些需求能够很好的去满足 , 比如说智能化营销或者智能化销售 , 原来的销售工作流和营销工作流它都是不够智能化的 , 那 AI 或者 Agent 给了它这样的机会 , 那这些人可能是第一
波去转型的人, 包括自动化测试 , 那可能我们要先服务这样的用户 。
好 ,OK, 我们今天就聊到这 , 我们发的时候应该会把活动跟上, 到时欢迎对给 Agent 做产品感兴趣的同学来参加我们活动吧 。
好 , 谢谢 。
哎 , 谢谢曲凯老师 。
哎 , 拜拜
。
