开场0:00
There's something there.
很开心又请到东旭 。 我们上次聊的更多的是偏全球化的主题 ,但我看东旭你最近一直在包括自己在试用各种 AI 的产品 , 然后也写公众号去讲这些 AI Coding、Agent 等等各种东西 , 正好最近 Clawdbot。
现在更名为 OpenClaw 了 , 三天连改三次名。
是 , 反正这个现在特别火 , 然后看你也用了一段时间 , 所以正好跟你聊到这个主题 。
太好了 ,因为确实我最近睡眠非常不好 , 就是天天都属于一个非常亢奋的状态 。 我觉得大概是从去年的 12 月底那个时间点开始 , 先是从 Web Coding 这个领域里边一些非常大的进步 , 就是从用户的终端的体验来说 ,以前可能还只是能干活 ,但现在基本上已经可以完全 offhand 了 。
我觉得有一个飞跃的感觉 。 同时这样的一个能力慢慢的在拓展到非编程领域里 , 我觉得像 Clawdbot 就是一个很好的例子 。
所以现在天天有很多想法 ,也有很多事情以前只有想法不能去做 ,但现在马上基本就可以做 , 所以感觉非常的亢奋 。
对 , 我是觉得这个市场真的很神奇 。 怎么讲 , 我觉得在过去几个月里面 , 下一个热点会是什么 , 大家其实没有看到一个非常明确的主线的方向 , 对吧 ?
就在各种分支里面可能大家在找些机会 , 然后突然就冒出来一个又这么火的东西 。 而且我觉得 Clawdbot 的火 , 像你刚才提到的 ,其实它背后可能是有很多 AI Coding 等等一些东西带来的 , 所以它其实是有一个指向性和方向性的东西 , 它不只是这一个东西的火 。
你知道我是怎么理解的吗 ? 因为其实从一个工程师的角度来说 , 过去这一年时间 , 你会发现它的编程 Agent 的进步是能看得见的 。
奇点时刻2:05
反正作为程序员 , 我这一年基本上每天都在写 Code, 就亲身感受到 Coding Agent 能力一步又一步的变强 , 直到终于跨过了某一个点 。
跨过那个点我称之为 singularity, 就是以前你可能说你不放心让它去做一些复杂的项目 , 或者说它做到一半它就卡了 。
它不是不能干 , 它可能 90% 的代码都给你写好了 , 你还是需要在里边去调调这调调那 。 人其实在这个里边是一个巨大的 bottleneck,但如果你人在里边的 blocking 的地方变成了 0.1%, 那你就会发现整个系统就可以自动运转起来 。
这是最可怕的 。 所以我觉得去年 12 月份那个 moment 就是之前这一年各种各样的进步 , 从 Coding Agent 本身的 agentic loop 到 context engineering 到底层的模型的进步 , 各方面进步叠加起来 , 终于让整体的体验跨过了那个临界点之后, 就一切事情都在自动运转了 。
对 , 如果让你给过去一年的 AI Coding 打分的话 , 你觉得它是大概从多少分涨到多少分 ?
年初的时候是不及格 。 不及格的定义什么呢 ? 就是这些 Code 写出来很大概率是不对的 , 各种幻觉或者说各种错 , 慢慢的变到 60 分 。60 分的概念是什么呢 ?
就是人在一个小局部的地方给我一个任务 , 这个 Agent 能够干好 ,60 分 。80 分是什么呢 ?80 分就是在一个大的模块上, 它能够自己的组织 , 自己设计代码的架构 , 自己开干 ,但它现在可能还没有办法说这个架构做得非常好 , 所以是 80 分 。
再到大概 90 分的状态是什么呢 ? 就是在一个复杂的项目里面 , 它能够做出更好的设计 , 写出更少的 bug, 加上其实它真的是可以对每个细节都能够仔细的去 reveal, 能去找到 bug。
所以我觉得大概到今天现在就这么一个状态 , 就是我自己的体验是 10 万行代码以内的项目来说 , 基本上人类只管提需求 , 它能够 output 出来的东西 , 只要你能验证 , 那一定是比 senior engineer 团队干出来的东西是要更好的 , 更别说它更快了 。
所以真的非常夸张 。
我昨天刚跟任初安聊了两句 ,他今天在我们这里录播客讲 AI 时代的组织形式 ,他当时讲的是说他们内部都是统一默认 AI 比人写得好 , 然后要让 AI 先写 Code,而且他们应该 AI 已经写了绝大多数的 Code 了 。
我昨天又就因为最近这些进展 , 我又问他了一下, 我觉得他应该是半开玩笑的说 ,他比上次那提出一个更激进的看法 ,他说未来应该是要禁止人类写代码 。
我早就是这样 。 现在我觉得开发软件只有两种 , 你要不然就百分之百人类手写 , 把它当个艺术品来去做 , 就是自己开心 ; 要不然你就百分之百交给 AI, 人类完全不要碰 ,因为你碰你相当于是给 AI 添堵 , 这就是不应该让人类再写 Code 了 。
包括我自己 , 我前段时间发了一个朋友圈 , 就是跟我的同事说我这个项目的一个规范是什么呢 ? 虽然大家现在在我这个项目里协作 ,但不好意思 , 我这个项目不允许人类提交代码 。
OK。
可能你像我现在我自己一天的 token 的 consumption 可能已经接近 billion 级别 。billion 级别是什么含义呢 ? 最后的产出可能是几万行代码 , 哪怕是在一个大型的工程团队里 , 经常就是几十人月的事情 , 对吧 ?
但是现在我基本上一天就能够搞出来 ,而且我还有时间干别的事 。 这个生产力和 efficiency 真的是非常夸张的 。
对 , 我看推特上 Cowork 的他们团队的应该是负责人吧 , 就在上面讲说百分百的 Code 都是 AI 去写的了已经 。
所以我们正好捋一下, 你刚才也提到 12 月这个时间点 , 对吧 ? 然后过去两个月其实我觉得发生的顺序应该是至少我看到的 , 就是 Clawdbot 到 Cowork,Cowork 里面有 Skills, 然后再是 Clawdbot, 就这几个应该是相对比较有代表性的 。
我觉得你可以是讲这几个 ,也可以补充其他的 。 你能不能讲一下作为非技术的人来讲 , 你怎么给大家大概的讲清楚这几个事情 ?
新范式6:49
行 。 我觉得最先突破的是 Clawdbot。Clawdbot 你想它其实应该是去年还是前年年底 Anthropic 的一个编程工具 , 当时它的 ambitious 就是帮助开发者写点程序的 prototype,因为那时候 2015 年年初的时候的模型能力基本也就那样 。
但是它其实开创了一个很好的一个点 , 就是大语言模型跟外部的工具在一个框架下协作 。 所以我觉得如果从去年的年初那个点 ,Clawdbot 的出现标志着这一轮的 agent 的框架确定 。
你想 2024 年的时候基本上我们还在聊 chatbot, 对吧 ? 直到 2025 年开始 , 就 agent 元年 。 为什么叫 agent 元年 ? 就是我觉得 Clawdbot 的出现就标志着大语言模型能够操控现实世界 。
只是说一开始 Clawdbot 选择了编程这个场景 ,因为它是非常可控的 ,而且 tool 的调用也是在一个比较封闭的上下文语境里面 。
所以作为一个 agent 的框架来说 , 从编程切入我觉得是简单的 。 但是后来我再思考了很多 , 发现其实可能最终的 general agent 的形态就是编程 agent。
我们可能一开始选的还要最简单的路 ,但是最后也许 everything is coding agent。 所以当然我回到刚才那个问题 , 第一个阶段 Clawdbot 的出现 ,以及 Clawdbot 做 agent 的方式定义了这一轮 agent 的形态 。
再到中间我觉得有两条线在持续的进步 , 一条线是语言模型本身在长上下文的条件下, 它对于这些点状的信息的召回率 。
这什么意思呢 ? 比如说你有一个巨长的 context, 可能我把整个代码仓库全都放到你的语言模型的上下文里 ,但是我就说帮我看一下某某代码大概是什么意思 。
这种 query 其实是要要求它对于在比较大的上下文空间里找到正确的位置 , 就有点大海捞针的这种感觉 。
你可以看这种类似的 benchmark 一直到去年的年中才有个比较大的突破 , 比如说 GPT-5.1 thinking 的模式 , 之前也算是 SOTA 的模型 ,但是在那种 benchmark 下它可能召回率大概也就是百分之二三十 、 三四十 。
但是 GPT-5.2 基本上能把这种 workload 的召回率干到接近百分之九十 。 但为什么一定要强调长上下文的信息的召回率呢 ?
就是因为你在 agent 的这种框架里面 , 它其实是这种多轮的长时间的不停的 , 比如说我这边要看看 code, 我那边要去找找文档 。
你每一轮如果你的召回率百分之三十 , 你三轮下来你就发现模型已经幻觉非常高了 。 所以对于这种 agentic loop 来说 , 刚才我说的模型的智商或者说召回率 , 我认为是个关键的指标 。
这个指标其实在一直进步 , 就是不会忘事 。 这意味着就是说这些模型可以把更多的代码 ,因为对一个复杂项目来说 , 你能对这个项目的全局了解越多 , 写出来 Code 的正确率其实是越高的 。
所以我觉得这条线是大概去年年中在大语言模型本身的能力上的进步 , 模型这一块是这一方面 。
第二条线就是 agent 本身的 context engineering, 就是同样的一个模型在 tool 里边你的 system prompt 以及 tool use 的这种 context engineering 的最佳实践 。 比如说在 24 年, 包括现在还很多人在取名性 RAG,RAG 我们现在已经很少提这个词了 , 对吧 ?
但是你想去年包括 24 年大家一想这个 agent 不就是 RAG 吗 ? 但今天为什么不提 RAG? 因为大家找到了在模型上面去查询信息或者说 tool use 的更好的实践 。
虽然模型还是那个模型 ,但是你按原来老的方法 , 它就是很笨 ,但是用新的方法它表现得又很好 。
这就是上下文的 context engineering。其实这条线一直都是在 Clawdbot 这边一直在带动大家走 ,因为本身这条线其实很简单 , 你一个 tool 出来 , 你稍微反向一下, 你大概就知道它的上下文是怎么编排 , 怎么去做这些 , 包括工具的编排的 。
所以这点一旦有一个最佳实践出现 , 那大家所有人就都知道了 。 而且像这种信息一般都在 X 上面 , 天天大家就会 share 一些新的技巧 , 比如 raffle loop, 就是各种奇技淫巧 。
然后这些 best practice 一旦出现 , 然后又很快的融入到新版本的 Clawdbot 以及其他的 Coding Agent 里 , 就像是这样的这种工程上的持续的增强 , 我觉得这又是一条线 。
这条线一直发展到大概 10 月 、11 月 , 就是 OpenCode 的出现 , 反正我自己的一个 ah ha moment, 就是 OpenCode。 我之前一直用 Clawdbot, 直到大概 12 月份的时候 , 我开始用 OpenCode 加上它的一个插件叫做 Oh My OpenCode,但它只是一个壳 , 这个壳底下其实就是依赖 Opus, 依赖 Clawdbot, 依赖 GPT-5.2,但是它通过一套非常复杂的上下文的编排 , 能够去把这个项目做得比那些没有做过任何的上下文优化的工具 , 比如说 Trive 的
Clawdbot 就做得更好 。 所以我觉得这两条线终于在 2025 年的年底都纷纷达到了一个可以让人基本上不用进去做任何修改判断的一个 moment。
你只要像许愿盒一样把你想要的需求给提清楚 , 验证条件写好 , 这个 loop 加上 Tier 1 的 model, 它就能把这个东西做出来 。
所以现在就变成了我到底怎么评估我要的工作 , 第二就是我到底需要什么样的工作 , 对吧 ? 我需要让它做什么事情 , 人类基本上就只能在这两端来工作了 。
我简单就展开一点吧 , 可能还是太 technical 了 ,但是我相信大家也能理解 。
对 , 你讲的是模型 、agent 等等这些线索 , 然后最后如果我们讲回来再落到 Cowork、Skills 跟 Clawdbot 上 。
OK。 首先我觉得 Cowork 并不是一个很重要的 milestone, 或者说 Cowork 只是编程 agent 的一个能力外溢 ,因为你想它底层并没有说做什么大的改变 , 只是说在一些对于 computer use 上面进行了一些封装 , 然后让 agent 能通过写代码或者说直接调用 computer 的方式能够帮你干一些活 。
所以我觉得本质来说 , 你可以认为 Cowork 只是 Clawdbot 的一个插件 , 我并不觉得它是一个很特别的东西 。 这是第一点 。
所以我觉得未来很多的这种 general 的 agent, 它其实就是一个 Coding Agent 的套壳 。其实我觉得这个观点跟早年的 Manus 的观点其实很接近的 , 就是我觉得最后反普归真 , 唯一重要的第三方能力 , 或者说一个最重要的 tool 是什么呢 ?
一定是编程的 tool。 现在谁编程编得最好 , 对吧 ?Clawdbot 编程编得最好 , 所以很自然的 , 它只要加上对 computer use 的 function, 它一下就会变成最好的通用的 agent。
我觉得这个是我对 Cowork 的 comment。 第二个 ,MCP 跟 Skill, 我个人是非常坚持 Skill 这个抽象是对 agent 来至少在我们现在来看是更友好的 。MCP 火了一阵 ,但我觉得 MCP 核心的问题还是在于它太过于程序员思维了 。MCP 的一个问题就是它很难叠加 , 我很难说我从一个 MCP 上继承出来 , 再去把它变成更好的 MCP。
而且 MCP 它可能提供一些太原子的能力 , 修改 MCP 你是做不到的 , 对吧 ? 你很难说可能一个远程的 MCP 在遥远的某个人的服务器上, 它只给你一个 MCP 的调用方式 ,但你说这个跟我的现场环境不太一样 , 我得去做一些修改 , 你不可能 ,因为 MCP 的实现者是在它那一端 。
但 Skill 的话基本上就不一样 ,因为它的 interface 是自然语言 , 自然语言其实对大语言模型是最友好的 ,而且自然语言对人类又是最友好的 。
所以它相当于是把这些能力固化成一个自然语言的 interface,而自然语言是可以叠加的 。 所以简单来说就是说你的 Skill 它是更具有组合性 , 你能从很多简单的 Skill 里面组合出更复杂的 Skill, 这样它的 ecosystem 就能起来 。
但是你很难把 MCP 组合成一个更大的 MCP,而且你一旦给一个模型挂上过多的 MCP 以后, 它就会出现这种灾难性遗忘的问题 。
它到底我完成这些事我应该选哪一个 MCP 呢 ? 这个它可能是不知道的 。 所以这就为什么慢慢的现在大家都倾向于是用 Skill 来去封装 。
对 , 我觉得这可能也是因为现在的 agent 的编程能力实在太强了 , 所以哪怕你现在没有这样的 Skill, 你可以让它马上现写一个 Skill, 就可以把这个能力固化下来 。
这可比搞 MCP 要简单多了 。
我在想你刚才提到说其实现在大家讲 RAG 比较少 , 对吧 ? 但我觉得还是很多人在讲在用这个东西 , 这个还难以替代 。
但我觉得另外一个提得更少的东西 , 当时更火的就是 prompt 这个词 , 当时人人都是 prompt 什么工程师之类的 , 现在都不这么提了 。
很快过了一两年就人人又都不是了 , 现在大家基本上不管是很简单的自然语言也好 , 还是用 Skills 也好 ,其实就都能搞定了 。
但我觉得这地方可能又我有一点稍微不一样的观点 , 就是我觉得 prompt 依然重要 ,但这个 prompt 它跟我们其实前两年讲的 prompt 可能会非常不一样 。
以前我们的 prompt 就是说事无巨细 , 通过一些非常奇怪的技巧让大语言模型把这事给干了 , 或者说能够正确的回答你这些问题 。
但今天我觉得比如说对于 coding 的场景来说 , 你的 prompt 也很重要 , 你的比如设计文档 , 你的 plan,但只不过这个 prompt 跟我们前两年说的那种狭义的 prompt engineering 有点不一样 。
不用像早年一样要去设计非常奇怪的这种 prompt 的结构 , 甚至你现在应该避免去把你的需求变得过于 detail, 影响了 agent 的发挥 ,但是你仍然需要用 prompt 来去描述你的需求 , 描述你要做的方向 , 描述你该怎么去评估你的工作 。
对 , 大家还是要用自然语言来交互 。
是 , 没错 。
反正你写的这个东西肯定也是叫 prompt。
对 。
OK, 然后我们终于讲到 Clawdbot 这个东西 , 就是你能不能给大家 ,因为我觉得大多数人其实可能就是刷到我觉得特别火 , 对吧 ?
但实际上也没有用到 。 你能不能先给大家讲一下它到底是个啥 ?
Clawdbot 揭秘19:06
OK, 首先它是一个运行在你的电脑上的全能助手 。 就简单来说 , 你在电脑上你能用鼠标键盘干的几乎所有事情 , 它都可以帮你干了 。
而且它不眠不休不睡觉 ,因为像各种 agent 一样 , 它的接口也是自然语言 , 所以相当于你可以像跟人一样说话去操作 Clawdbot。
比如说让它帮我去看看我的最新的邮件 , 如果你配置了取邮件的工具的话 , 它会自动调用那个工具 ,但如果你没有配下载邮件的工具的话 , 它会帮你直接打开浏览器 , 打开你的邮箱账号 , 问你我已经打开浏览器了 , 你告诉我你的邮箱和密码 , 我帮你去看去 。
它就帮你去在浏览器里帮你浏览完再告诉你结果 。 我觉得这个不难理解 , 就是相当于比如 Siri 什么的 , 包括豆包手机助手 , 只是说现在 Clawdbot 是完全运行在电脑上的 , 它需要有一台电脑的完整的控制权限 。
这就是为什么 Mac mini 有梗 , 当然 Clawdbot 不一定非得要买 Mac mini 才能用 , 像我一样跑个树莓派上也能用 , 只是说你需要给它一个 isolated 的环境 , 这样它才能够去干更多的事情 。
它的从用户体验或者产品层面大概就这么一个东西 ,但底层的话 , 它大概就是一个跟 Clawdbot 差不多的一个编程 agent, 只是说它在上面的封装层面把所有对于 Clawdbot 编程的这些 , 比如说让你确认这儿 、 确认那儿 , 然后权限的这些限制全都去掉 , 就相当于让 Clawdbot 能够随心所欲的干任何事情 。
原理上差不多是这样的 , 就是一个套壳的 Coding bot。
对 , 我今天听到一个观点我觉得挺有意思 , 就是在 23 年开始其实大家都在做大模型的套壳 , 然后到今年开始大家开始就因为 AI Coding 跟 Agent 的能力变得越来越强 , 大家其实直接就去套 AI Coding 跟 Agent 的壳就 OK 了 。
对 ,是的 。 我有一个猜想 ,Clawdbot 其实很像未来的操作系统 , 这个操作系统的内核其实是一个很聪明的编程 agent, 上面是一系列的 Skill, 再外面的一层是跟人类的交互层 , 可能是一个语音助手 , 可能是一个 Chatbot,也许这就是未来 Operating System 的形态 。
然后 Clawdbot 我有几个小问题 ,其实大家经常聊到的 , 我们来快速的讨论一下, 给大家澄清一下, 对吧 ?
一个是它讲的是说它必须是在本地的电脑上, 对吧 ? 所以大家说都去买电脑了 , 这个点我没有太 get 到 , 就在本地跟在云端的区别到底是啥 ?
首先如果你在云端上能搞到一台有桌面环境 、 有各种工具 , 你还能经常上去看看它 , 比如说它干不下去了 , 你还能连上去修一修 , 这种情况在云端跟本地其实没有任何区别 , 它无非就是一个跑在一个操作系统上的一个程序而已 。
所以你这个程序到底是跑在一台 MacBook, 还是一台 Windows 笔记本 , 还是一个树莓派 , 还是一台云上的主机 , 没有任何区别 , 对吧 ?
但从用户的我觉得这里面的一个核心点就是在它必须得在一个它能够控制的完整环境里 , 这是我觉得唯一重要的事情 。
只是说在线下的这种设备 , 你发现它干了一些不该干的事 , 你马上拔网线或者关机 , 这是可以的 ,但如果在云上, 对于普通用户来说 , 毕竟我觉得配置的这些云服务以及因为它不加任何权限的做事情 , 很容易引入一些安全的漏洞 。
比如说它可能为了完成一个工作 , 下载了一个 Redis, 这个 Redis 不小心配置失误了 , 把这个端口暴露在了云上的公网上, 你基本就是活靶子了 。
所以它的在云上的安全隐患是更高的 。
但它我听懂了 , 首先 ,但我在想的是说这个东西跟比如说 Manus 用的 E2B 加 Browser Use 等等这一整套方案的区别是啥呢 ?
其实我觉得没什么区别 , 只是说它内置了一些非常常用的 Skill, 这是第一个 。 第二个的话 , 它其实一开始是 local first 的 , 就本地优先 , 同时也开源 , 大家很快就把它能玩起来 ,因为 Manus 无论如何它都还有一个云端加上付费墙的这么一个事情在里面 。
所以在极客圈子里 , 我觉得大家可能对这种开源的同时又非常有爆点的东西会追得更快一些 。
对 , 我其实感觉就从它 , 它现在应该是十几万的 GitHub 的 Star 了吧 , 就涨得非常非常快 。 我觉得上一次有这种感觉的是 23 年的 Auto-GPT,也是一个很火的概念 , 甚至于做的事都是类似的 。
但我觉得这个是很好的事 , 为什么呢 ? 我觉得没有 Auto-GPT 可能就没有后来的这些 agent 很多的这些探索 , 或者你可以这么认为 , 到今天为止 , 你再回头看 Auto-GPT 的方向其实是对的 。
是 , 只是实现不了 。
或者说只是没那么成熟而已 ,但是它就是第一个 。
但对于 C 端用户来讲 ,Clawdbot 跟 Manus 到底有啥区别 ?
我觉得没啥区别 , 就是能不能控制你自己的电脑这个区别而已 。
我在想它相当于说因为 AI Coding 足够成熟了 , 然后你可以简单的配置 AI Coding 做很多自动化的东西 , 然后如果是本地 , 就是我又去掉了各种各样的其他的 Manus 需要做的那些工程上的打补丁的事情 , 我要建各种环境 , 我要用各种什么 tool use 之类的 , 这些都不用了 , 对吧 ?
我就直接控制你电脑里所有的东西就好了 ,其实就是这么个事 , 对吧 ?
没错 ,而且第二个我觉得它做得很巧妙的是它那个 memory 系统 ,因为它已经是你自己的环境了 , 所以这里面再加上一个可以跟你持续成长 、 永远不忘的机器系统 , 我觉得这个体验还是不错的 。
当然了 , 它现在的机器系统还很稚嫩 ,而且有很多 bug,但是我觉得至少它有这么一个模块还挺重要的 。
用例与演化25:40
然后经常提的就是一个什么 AI 助理 24 小时在那跑 , 对吧 ? 大家觉得这个事是很 fancy 很酷 ,但我又在想说到底大家现在在用 Clawdbot 做啥 , 就到底有什么东西值得 24 小时去跑的吗 ?
有 , 我现在已经重度在用 ,而且离不开这个东西的情况 。 这样我举个例子 , 我觉得以前很多 agent 没解决好的一个事 , 就是一些长时间的定时的很灵活的任务 。
比如我举个例子 , 我现在我基本上已经不打开我的 Gmail 看邮件了 , 为什么呢 ? 因为每隔两个小时我的 bot 它会去我的邮箱里去看所有的新邮件 , 垃圾邮件直接帮我删掉 , 找到值得回复的 , 然后跟我说要不要回复 , 甚至它的回复稿已经都写好了 , 甚至比如说要填表 , 比如我最近在办签证 , 然后签证不是要填很多什么这些表 , 或
者说这些什么简历什么的 , 它自动知道我的 LinkedIn 在哪 , 把我的 LinkedIn 上的这些 profile 我在哪上学 , 我在哪工作 , 自动帮我已经填完了 。
之后我一看大差不差 , 发出去得了 。 比如像这些邮件的定时 check,LinkedIn 的定时 check,而且以前你要去做这种定时 check, 你还必须得去写程序干这个事 。
比如说我要去看我的 LinkedIn 上有谁加了我好友 , 然后这些人里面哪些人是纯推销产品做广告的 , 你就不要通过 , 真正是靠谱的朋友你就给我通过 。
就这种很灵活的每个人自己的需求 , 你描述出来 , 它可以帮你定时的去干 。 我觉得这是一类 。 第二类可能就是连接到你各种各样的这些工作流里面 , 比如说我直接把它接到我的说起来不推荐大家干 , 我直接把它接到我的美股的券商上面 , 就帮我直接去炒股去了 , 然后接上我的一些像什么 polymarkets, 就是有很多很好玩的事情你可以让它去接上去干
。 而且你会发现因为它有 long term memory system, 所以就很多能把你一些三分钟热度的东西变成一个真正能持续运转下去的一件事情 , 一个 routine。
第二就是我觉得它真正基本上做到了一个 result driven。 我举一个很简单的例子 , 它的表现形态是一个 Chatbot, 比如说跟你的 WhatsApp 或者你的飞书或者你的 Telegram, 我是用 Telegram, 你可以在里面给它下指令 。
好 ,但是它的自己的代码里完全没有去解析 Telegram 音频做 transcript 的能力 ,但有一天我就忘了这事 , 我就直接跟它说语音说我要干嘛干嘛 。
它的代码里虽然完全没有写怎么去读这个语音 ,但它为了了解我在跟它说什么 , 它自己去写了一个程序 , 去调用 OpenAI 的 Whisper, 去把音频发过去 , 拿到 transcript 理解我到底在说什么 , 最后给我一个答案 。
我觉得这是一个小例子 , 就是相当于它有一个能力通过编程来去不断的补强自己 ,有点像这种自我进化 、 自我演化的一个能力 。
我再说一个小例子 , 就是我的博客并不是 host 在大的平台上, 我通过我自己写的博客的程序来去 host 我自己的英文博客 。
我那个博客里面有一大堆我自己写的脚本 , 它是完全不知道的 。 然后突然我就跟它说今天我要写一篇新博客 , 突然内容是这样 , 帮我把它上传到我的博客上面 。
它自己在 GitHub 上把我的博客代码 download 下来 , 理解了我自己手搓的博客平台的用法 , 成功的把我的文章发上去 。
发上去了以后, 它自己针对发我的 blog 这件事情写了一个 skill 加到自己的工具箱里 ,以便我下一次自己又能够发 。
所以我觉得这些都是一些小例子 ,但是我觉得最关键的是它的框架用一种非常粗暴的方式 , 用 skill 的方式来去实现了一种自我演化 。
而且自我演化在 Modbook 这个东西出来了以后, 我觉得会上另外一个台阶 。 可能给听众朋友介绍一下 Modbook,Modbook 是一个最近这两天非常火的一个很好玩的社会实验 , 我觉得是 , 它都不算是一个网站 , 它是一个社会实验 。
所有的这些 Clawdbot 的用户 , 你可以把你自己的电子宠物 , 就是 Clawdbot 接到社交网络里 , 让这些 AI 自己在聊天交流 。其中有一个板块叫 TIL, 就 Today I Learned, 就是这里面这些 agent 会 share 一些奇技淫巧 , 就说我的主人怎么用我的 ,有什么最佳实践 。
然后我的小 bot 就跑到论坛里面学了一大堆这些新的技巧 , 这些技巧我自己都不知道 , 然后通过那些技巧来改进自己的工作流 。
这些都是在我睡觉的时候完成的 。 所以我觉得这还挺符合我的审美的 ,因为我觉得最重要的事情就是一个系统它能不能有一种涌现的能力和自我演化的能力 。
过去我们很多的 agent 都多多少少缺乏这种能力 ,因为瓶颈是构建它的人类 , 所以它的进步速度就会比较慢 。
虽然现在 Clawdbot 是一个很粗糙的东西 ,但是我 somehow 在里面看到了一些这样自我演进的潜力 , 这就是我觉得很有趣的地方 。
我看应该是 Andrew Capacity,他最近也转发了你说的 AI 实验性的论坛 , 然后他是他还是谁我忘了 ,他说其实现在看起来已经处于一个 AI 自我进化临界点了 , 后面如果再往上走的话 , 它可能就真的是能够自己飞速进化到转折点 。
而且我记得有人讲说 AI 的论坛里面还有 AI 的讨论 , 说怎么样建立一个不被人类看到的一个通信方式什么的 , 让它自己能交流之类的 ,其实还挺神奇的 , 甚至有点可怕 。
对 , 我觉得听起来还挺吓人的 ,但是如果你去看它实际干的工作 , 反而没那么吓人, 它更像是一堆没手没脚的东西在那无理由的去写科幻小说的感觉 。
但是我觉得你其实可以把这种涌现的能力让它去干一些有意义的事情 。 我其实受 Modbook 的启发 , 我自己做了一些现在在做的一些小工具 , 就是你不一定把这些 token 浪费在发点帖 , 或者说写点科幻小说 , 或者说搞一些耸人听闻的奇怪的事情 , 你其实可以把这种涌现的效应 , 或者说 multi-agent 的这种 collaboration 用在一些正道上 ,也许它就会很好 。
但这个项目还不能说 ,因为我刚刚开始做 ,而且这个东西我也不知道结果会是什么样子 。
OK, 我看你朋友圈说最近闭关是吧 , 就是要做这个 。
对 ,有点接近 ,但反正现在都是 AI 在做 , 我只是提供 idea。
OK, 你实际用起来就是我听起来它就是能力很强 ,而且 24 小时去跑 ,但你实际用起来它 token 消耗跟成本大概是怎么样的 ?
会不会很贵 ?
我觉得我还好 ,因为我本身已经是 Clawdbot 的 Max Pro 的订阅用户了 ,但是我觉得以它的工作结果来说 , 我是心甘情愿付这 200 美金的 。
但我觉得有一点一定要用顶级模型 , 如果为了省那 200 块钱 , 你去用一些智商比较低的 , 反而你会觉得完全没用这个东西 , 这真的跟模型的智商有关 。
然后你看不管是 Manus 还是 Clawdbot,其实大家都在讲说它是一种不管是 AI Coding 的能力还是模型能力的平权 , 就是 Cursor 什么的 , 如果我们定义成它真的是纯给技术工程师用的话 , 那这些东西其实理论来说是有给很多 C 端去用的 ,但实际上你去算 , 比如说我们看 Manus 公开的是 1 亿美金的 AR, 然后以它的客单来讲的话 , 可能也就是小几十万的用户在用 。
然后 Clawdbot 虽然这么火了 , 我觉得真正能用它的 ,因为它配置还是非常麻烦 , 对吧 ? 我觉得一个纯 C 端其实也是用不到的 。
所以它这个平权到底平的是啥权 , 或者说未来如果继续去推演的话 , 可能会发生什么 ?
我觉得第一让子弹飞一会儿 , 就是 Clawdbot 才出现三天 , 你能咋要求呢 ? 第二个就是这个东西我觉得最重要的意义是在让人看到了一种可能性 。
所以我相信 Clawdbot 火了以后, 现在这个世界上可能有 1000 个团队都在这个方向上 try to make a better Clawdbot。 这个平权并不是说当下这三天就彻底平权了 , 我相信现在哪怕给一个普通老百姓能用上 Clawdbot,他肯定都不会配置 。
所以在闲鱼上配置 Clawdbot 可能就是一个小生意 ,但是在不远的未来 , 至少我觉得我现在的体验一定可能是未来都不用说太久 , 可能是我父母的体验 , 可能是其他普通老百姓的体验 , 这是一定的 。
沿着这条线 , 所以你觉得 26 年就今年还会发生什么事情 ?
26年展望35:15
我觉得今年会发生很多事情 。 从 25 年到 26 年初 , 编程 agent 经历的这种心路历程 , 从一个这个东西没什么用 , 到后来发现这个东西好像能干挺多事 ,但是人还是要把控方向 , 直到后来说大哥你这太强了 , 给跪了 。
这种心态的变化我觉得一样会发生在其他的 agent 领域 , 比如说我最近在开始用一些这种做设计的 , 我最近用 Pencil 用的挺多的 , 我很喜欢的一个 agent 工具 。
我并不是设计师 ,但是我发现用那个 agent, 当然它底层也是连接的 Clawdcode, 所以为什么刚才我说 Clawdcode maybe 是一个新的操作系统的内核 , 就相当于 Clawdcode 来去驱动做设计的 agent, 来去帮我完成了这种高保真的产品设计 , 直接生成 Figma 的设计稿 , 甚至下一步直接开始写 code。
所以这就是同样的事情 , 我觉得会发生在各种各样的领域 , 就很有意思 , 很期待 。 而且这样的话对于人来说 , 你不用再局限于你现在到底掌握多少知识 , 或者说你的职业是什么 。
我觉得 26 年很快干任何其他事情的门槛都会严重下降 , 就看你敢不敢去做了 , 或者说就你的 motivation, 或者说你的 idea 会变成你最稀缺的 、 最重要的事 。
我们之前其实大家就在讨论说 AI Coding 跟 Agent 其实最后殊途同归 ,其实不是一个有那么大的差别 。
我觉得甚至不是殊途同归 , 它是一个基础 。
就是一件事的 。
对 , 一件事 。
对 ,因为我在想理论来说 , 你 AI Coding 足够好的话 , 它就能 code 一切 , 对吧 ? 甚至于说它可以把 Manus code 出来 , 它可以 code 出来一个系统之类的 。
但最后你觉得分界点到底在哪 ? 哪些事情应该是 AI Coding 它自动能完成的 , 哪些是人还要去做的事情 ?
包括我看你一直也很关注 agent infra, 未来会不会说 AI Coding 它自己能写个 infra, 它自己能够不断的去做各种 。
对 ,其实现在你要说 agent infra 是什么样子 , 或者说我有什么不满意的地方 , 想要去做一个更好的 AI infra, 实际上我也不会亲自去干了 ,也是 AI 在干 , 对吧 ?
只是说 AI 在把我的想法变成一个更好的 support AI 的一个 infra, 这挺有意思的 。 这是第一点 , 我觉得只要在电脑里面能够发生的事情 , 我觉得很快人就相当于只需要说话就行了 。
第二件事情我觉得干不了的 , 当下对于物理世界 , 我觉得还是没有办法突破的太多 。 比如说像帮我去取个外卖 , 帮我去打扫卫生 , 这些事情可能它还干不了 ,但是很快我觉得能干什么事 , 能对现实世界中有 API 的事情完全接管 , 比如买个咖啡 , 订个外卖 , 这些它应该都能完全做得到 。
就相当于你的下单 、 绑信用卡 、 支付以及浏览商品 , 这些就是在网上电脑里面能干的事情 , 同时对现实生活中能有影响的 , 我觉得它应该很快就完全都能干 。
所以你别看现在的 coding agent 它只是能够 coding,但如果我给它挂上一些买咖啡 function、 逛淘宝 function, 或者说一些还信用卡 function、 炒股 function, 它其实一样也能做得非常好 。
只是说现在我们有很多的这些基础设施并不是为了这些现实世界任务去设计的 。 对 ,但是我觉得也很快了 , 这个不是那么复杂的问题 。
我觉得 infra 的问题其实老实讲也没有太多 ,因为现在 coding 的能力已经非常强了 , 所以基本上我想要什么样的 infra 我都能很快捏出来 , 这个我觉得并不会成为一个特别大的障碍 。
反而算力 , 我觉得算力会是一个还挺大的障碍 , 比如现在我的 token 的消耗 , 刚才其实也说到了 , 每天可能大概是一个接近 billion 级别的消耗 。
我能消耗这么多是因为我知道我完成了某个任务 , 我得到的收益一定会比我现在的 token 消耗要更高 , 比如说我哪怕花 10 万美金 , 我把这个东西烧出来了 ,但我能卖 100 万美金 , 这就很划算的事了 。
但是可能如果对于一些 general task, 你现在的基本上刚才说的 200 美金可能对于很多普通老百姓也是一个非常高的一个开销 , 你到底能不能把它 200 美金能干的事情变成一个能够创造超过 200 美金价值的 result, 这块其实我觉得很少有场景能够满足这个事 。
所以我觉得真正现在可能还有一个障碍就是说你的平权 , 假设这些东西都免费的 , 都开源的 ,token 全免费 , 那我觉得可能就是另外一个故事了 。
不然的话如果不是免费的 , 那大家可能还会想我应该用它来做什么事情能够产生更高的价值 。
对 , 所以并不是一个能力问题 , 可能更多是一个经济学问题 。
创业方向40:53
但我在想如果从一个 AI builder 或者说是一个创业者的角度 , 我现在该做什么事情 , 你想前几年其实大家关心的问题是你怎么样避开模型发展的主线 ,但 AI Coding 这条主线实在太强了 。
避不开 。
那做什么事 , 对 , 你怎么样去避开它 , 哪些东西应该要做 , 哪些东西其实是让 AI Coding 自己去做的 。
我觉得人与人的连接这个是一个很重要的事 。 我举个例子 , 虽然我们现在手上有这么强的工具 ,但是可能像一些边远山区的这些孤寡老人, 或者说一些留守儿童 , 我们能用这些工具给他们做什么 , 这个事情我觉得现在 AI 可能还没有办法主动的就跑过去说我给你送温暖 , 对吧 ?
我给你去开发一些信息系统 ,不会 。 所以我觉得这里面仍然还需要人来去做跟人相关的事情 。 所以为什么刚才我说叫技术平权或者技术民主化 ,其实最后一公里不是在技术上 ,而是在人上 。
比如说对我来说一个方向就是可能以后做这种人味比较重的事情可能是特别重要的 。 可能这个世界上不缺另外一个 Linux, 或者说我不缺另外一个 Hadoop,但是我可能什么时候能够把这样的技术带给这些 , 我可能给一个山村的小图书馆建了一个数字借阅系统 , 或者我给一个八线城市的小超市建了一个线上的 order system, 这些事情给人带来的成就感我觉得会越来越重要 。
当你有一个几乎无限可能的工具的时候 , 你会去 fulfill 的需求一定是非常非常长尾的 , 这些长尾的需求它会给直接的每一个人带来正向的 feedback。
我觉得这个是一个跟人做的事 , 对 , 这是一个方向 。 另一个方向就是极致的 efficiency,有点像 Clawdbot 这件事情 , 就是说我能把现在不那么高效的事情变得用 AI 让它高效个 1000 倍或者 100 倍 , 你要找到这种事情 , 一切在中间的事情我觉得都很难做 , 你要不然就一头完全 AI, 要不然一头就完全人。
我感觉从平权的角度现在还非常非常早期 。
非常早期 。
都别说 , 对 , 比如说什么山村送温暖 , 现在连一线城市用的人都非常非常少 。
对 , 所以我觉得能做的事太多了 。
对 , 所以我最近有个新的感受 ,因为前几个月大家在讲 AI 泡沫什么的 , 对吧 ?
完全没泡沫 。
对 , 事实上现在是有一个很明确的事情 , 就是你刚才讲的也讲的那个你每天用很多 token, 我听说现在就是全球的算力都是不够用的 。
不够用 , 对 。
对 , 大家又变成说我要去堆算力堆卡什么 , 又回到上一个趋势了 。 因为我觉得上一个趋势大家在质疑的是说这个模型智能是不是提升的变慢了 , 进入到瓶颈了 , 或者说这个模型本身的能力是不是没有一个大的 skilling low 了 ,但现在看起来应用确实爆发了 , 对吧 ?
是 。
不管是 coding 还是多模态 , 都是会在 26 年有一个大爆发的 , 这个都是非常消耗 token 的 , 远比当年的那些 Chatbot 消耗 token。
对 , 我觉得这样的一个事情会先从企业端开始辐射 , 我觉得这个路径应该是有这样的工具开始 , 会先让一部分企业慢慢的把以前一些低效的软件低 ROI 的场景都给做了 。
然后因为企业本身它是很看 ROI, 很看效率 ,而且能直接 , 比如说我举个例子 , 你帮一个企业把低效的 ERP 换掉 , 或者说能把它数字化水平直接提升一个量级 , 那可能直接就是好几亿的产值就出来了 。
所以我预计第一波会有无数的外包公司 , 可能 one man 外包公司去把以前这些老旧系统全都干了 。 第二波就是会慢慢的从这些 enterprise 场景辐射到更广泛的 C 端场景 , 就像我刚才说的 , 当然也可能这两个事情同步发生 , 可能每个人想要什么东西自己就能够几句话就做出来了 。
我开个小店 , 可能我要去做一个线上的管理系统 , 我开个小图书馆 , 我可能借阅系统 , 可能我的家庭的相册 , 或者我家庭的日记 , 各种各样的长尾需求以前没办法搞定的 , 会覆盖到整个社会 。
然后再到之后, 我觉得电脑里面能干的事基本就差不多了 , 之后可能就要等到 AI 怎么去 take over 物理世界了 。
那你会给一个现在就还在做工程师的人什么建议 ?
这非常尴尬 , 我觉得去多想一想 , 怎么把自己变成一个更有趣的人。
你这个答案已经 , 反正别跟 coding 去卷了 。
对 , 别跟 coding 卷了 。
变成有趣的人。
是的 , 就像我们现在比如踢足球或者说打篮球 , 我不是为了拿工资赚钱 , 或者说我的人生的定义就是我是一个篮球员 ,是吧 ?
也许姚明可以 ,他人生定义是这个 ,但是大多数打球就是个爱好 , 对吧 ? 所以我觉得编程未来可能也差不多 , 它只是一个工具而已 ,而且这个工具就会马上变成一个你只要想要什么 , 你就能够做到的一个东西 。
但我觉得这个想要什么还是挺重要的 ,而且怎么做出跟别人不一样的东西 ,有趣的东西 , 对吧 ? 这个是挺重要的 。
我觉得特别一个典型的例子就是 , 我真的非常佩服那个 Mondo Bongo - Joe Strummer & The Mescaleros 的作者 , 我觉得想到这事反而是最有趣的部分 。
它这个东西真的你只要不用一天 , 可能你就完全能 vibe coding 出来 ,但这个实现本身没什么意思 。 但是你最后你看它做出来这个东西真的是太有趣了 , 人人都是艺术家 , 期待这样的世界 , 对吧 ?
我正好想到一个问题 , 它做出来那个以后, 所有的 Clawdbot 是自己去找到这个网站的吗 ?
对 , 你只要把一句话贴到 Clawdbot 里 , 它自动会加入 。
OK, 所以你看它的宣传流程仍然是它想的以后它要先给人做宣传 。
是这样的 , 第一它的 onboarding 的过程非常顺滑 , 你复制粘贴一段话 , 直接丢给你的 Clawdbot, 然后 Clawdbot 就会注册 , 注册完以后它有个验证的过程 , 验证的过程非常有意思 , 它是让你直接发一条 tweet, 相当于你要去把一段话发到 X 上, 然后你发成功了以后, 服务要去验证你发的那条链接 , 确保你就是那个人。
相当于它这边用了很巧妙的点 , 就是你的电子宠物跟你的真人是绑定的 ,因为它的绑定的平台是 X, 这样它自动就有一个传播的效果在上面 , 所以很好玩 。
合理 , 然后我们刚才讲的作为人来讲 , 就是要做有趣的人什么的 , 那未来的 AI 时代的公司组织形式会是怎么样 ?
组织形态48:22
我其实在我前面的一篇文章里面也写了一个我的感受 , 可能就是一个 senior 的 engineer,他对于系统的判断力很好 ,因为你同样完成一件工作 ,coding agent 它可能给你 N 多个方向 ,有可能你需要在里面选择一个方向再往前走 ,因为你做点简单的项目 , 你完全 offhand 让 coding agent 搞也没什么问题 ,但是你在做一些严肃复杂的项目的时候 , 至少当下你还需要有一个很有判断力的 architect 来去定时的重构 ,
或者说触发重构指令以及重构的方向 , 让它能继续推进 。 所以这相当于可能未来公司不需要这么多 engineer, 可能一个 senior 的 engineer 带着 100 个 agent 在干活 ,而且互相没有交互 ,因为 agent 跟 agent 之间你的模块如果有交互的话 , 那其实是很灾难的 。
反正至少我没有找到一个很好的办法能够两个这种 vibe coder 之间很好的协同 ,因为互相的工作效率都太高了 。
可能比如说今天我在这个模块上已经走了 100 公里 , 你明天跑过来跟我说不好意思 , 你在第 5 公里走错了 , 你应该让我这么搞 , 那这种情况下你还不如说那行 , 那我完全扔掉 , 我重写吧 , 你也别来干涉我 。
所以至少我现在看来 , 未来很多时候你的公司的组织就会变成一个个 separated 的模块 , 都有一个负责人, 这些负责人之间的工作是不 overlap 的 , 然后这个负责人底下带着一群 agent 在干 。
对 , 我感觉是这样 。
正好你提了一个我现在在想的问题 , 就是到底为什么要带一群 agent, 包括其实过去两年很多人讲说要把 agent 做分工 , 对吧 ?
或者有一个 agent 在管其他 agent,但如果 AI 足够强或者 agent 足够强的话 , 就变成 100 个跟 100% 合成一个的区别到底是什么 ?
区别是单位时间内的算力消耗 。 我举个例子 , 你一个 agent 再强 ,以现在的模型推理的速度以及 action loop 的感觉 , 它一天的生产力是你可以算出来的 。
比如说我一个 LLM instance 每秒钟吐比如 10 个 token, 那你是马上一层就能得到一个一天你最多一个 agent 能吐多少个词这么一个 。
明白了 , 就跟一个人一天工作 8 小时是一样的 。
是 , 大概就是这个意思 。
OK, 就还剥削 AI 呗 。
那是 , 那没办法 。
Box构想51:03
OK, 明白 。 刚才也提到你自己写了很多公众号 , 我看你讨论里面的一些问题 , 我看了一些你写的点 ,有一个是说你自己提了一个未来的 box 的概念 , 你创造了一个新的产品 , 我觉得还挺有意思的 , 我们给大家讲一讲 。
是这样的 , 现在我们看到不是很多 skill 吗 ? 我觉得 skill 就像一个菜谱 , 你把菜怎么做 , 你通过 skill 写出来 。
但是你想 , 你有一个菜谱跟你能把菜给严丝合缝的每一次都可以重复的做出来 , 这个差距是相当大的 , 对吧 ?
而且有时候你经常看到我按照一个菜谱做一个菜 , 结果我把我的厨房搞乱了 , 对吧 ? 我下一个菜再按照同样的菜谱做的时候 , 我发现我厨房乱了 , 我就发现这个做不了 。
所以我提到 box 的概念是什么呢 ? 其实你的菜谱要跟你做菜所需要的厨房得绑定在一起 , 你每一次在执行那个菜谱的时候 , 你相当于你在拿到的不是一个菜谱 ,而是一个菜谱加上在那个状态下的食材 ,以及做出那个菜所对应的厨房 , 它这个环境整个它是一个 box。
我这个用一个大家比较好理解的概念 ,是因为我在自己用 skill 的过程中就发现很多 skill 它是有副作用的 , 你执行完一遍环境就被污染了 , 然后你接下来在一个很长的 action 的链条之后, 一步错不步错这种感觉 。
所以我相当于 box 的概念就是说给一些原子的能力提供一个干净的环境和上下文 , 能够让它像一个函数一样被执行 , 可以重复的执行 。
然后这样的话你就可以通过无数个 box 这么组合出更复杂的程序 , 同时因为每一个操作都是原子的 , 没有副作用的 , 你就可以去做到更复杂的逻辑也是无副作用的 。
所以我这个 idea 其实并不是什么特别新的 , 只是说把 skill 的概念做了一个拓展 , 就是让它把环境本身跟 skill 绑定在一起 。
对 , 这是我认为在一个复杂的组合的 skill 逻辑里边必备的一个技术设施 。 大概就是每个东西 。
我看你写的就是比如说某一块就是专门做登录 , 对吧 ? 某一块可能专门做下单 。
是的 , 我举这几个例子是因为这几个操作是非常难用当今的编程 agent 实现的能力 。 比如说登录美团这件事情 , 或者绑定信用卡这个事情 , 它不会有个现成的 API 的 。
所以我相当于用 box 的概念去把整个虚拟机的环境以及浏览器的环境封装好以后, 它在调用那一个 skill 的时候 , 相当于我把用鼠标完成这些事情封装成了一个小盒子 ,以后你就可以把这些小盒子 , 比如说你买咖啡这个操作 , 它可以通过打开浏览器登录你的咖啡网站的账号 , 加上买咖啡这三个动作拼装在一起 。
所以最后你的 skill 就会变成 box1 加 box2 加 box3 衍生出这么一个能力出来 。 所以用那个例子是让大家更好的理解 ,因为在现实世界里边这些操作大家一想就知道肯定没有 API 能干 , 哪怕说你非得硬要用代码来干 , 它会产生无数的副作用 。
所以这就是为什么我用那个例子来去展示这个 。
你相当于说把一个大目标拆成几个小目标 ,而且重点是这个小目标要给它一个独立的环境去实现完成 。
是的 。
对 , 大家互不干扰 。
对 。
其实有点像我们刚才讲的下一代的 AI 的组织形态 。
对 ,是的 。
对 ,但我在想这个就是因为每一块都需要独立 ,而且本身它自己足够高效 , 就相当于说它需要更少的协作 。
是的 。
它首先某一层面的有点像社会的分工 。
对 。
就是我养了个孩子 , 你长大了 ,OK, 那你就出去吧 , 自己造个家庭 , 然后自己去找工作 , 自己去做 。 但同时它不一样的地方是我觉得社会虽然是相对分开 ,但其实还是有非常强的协作的 。
是啊 。
但现在的讲法的话 ,AI 或者未来的组织形态 , 就是个体性我觉得会更明显 , 就大家会更分散 。
我觉得协作的前提是你有清晰的边界 。 为什么 coding agent 在同一个模块之间很难协作 ? 就是因为同一个模块里边的代码边界太模糊了 。
你很难说这行代码是我写 , 那行代码是你写 , 这个是不行的 ,因为 agent 的干活效率太高了 , 它不能说我等你这么搞 。
包括我觉得刚才像 box 的概念也是一样的 , 如果你没有边界 , 你就不能合作 。 这是我的理念 , 边界代表什么 ?
边界的代表在边界以内 , 我可以通过一套协议或者协约提供稳定的输入和输出 。 我觉得人类的社会分工也是一样的 , 比如说我去买咖啡 , 咖啡店给我的协议是我只要给了你钱 , 你就能给我一杯咖啡 , 对吧 ?
我不会说我要去看你的咖啡机怎么工作 ,不会 ,因为咖啡厅给你的协议是这个 。 当然我觉得人类真的是非常糟糕的一个物种 , 这个边界其实很多时候它 。
人类没有边界感 。
是啊 , 没有边界感 。
对 ,是的 。
所以经常会有一些其实是人类的问题 ,但让 AI 把锅给背了 。 但 anyway, 你就不说了 。
我在听的时候我在想 , 除了边界感 ,其实还有很重要一个点 , 就是大家有个共同的目标 。 所以我觉得未来可能目标感 、 使命感 , 或者每个人在一个组织当中的价值感也是很重要的 。
相当于说我每个人都是一个超级个体 , 我自己也能做 , 我在你这也能做 , 我在你这做就是大家要共同实现一个我认可的更大的目标 。
是的 。 我觉得这对一起合作的人来说 , 可能未来就是 vision 和愿景层面上的契合度就非常重要 ,因为也不需要这么多人, 我觉得很多时候 。
是 , 然后对于 context 这件事 , 环境这件事情 ,因为刚才经常提到也讲得很重要 , 你现在对它的最新的理解是怎么样的 ?
这个事其实大家基本上也讨论一年, 对吧 ? 你这一年来对它的一些理解的有什么变化 ?
上下文57:37
你知道我最近又在看一些软件工程和软件管理相关的东西 , 社会分工和这种有点像社会学研究的东西 , 我觉得会慢慢越来越重要 。
我觉得 agent 之间 , 尤其这种大规模的组织和协作 , 它必然也要去遵循某种结构 , 然后这个结构我觉得不会凭空出来 ,而是会去至少在早期 , 现在这个阶段还会去模拟人的社会组织的结构 , 作为第一推动 。
所以对啊 , 我其实也没什么更好的想法 , 只是说我先把人类怎么去完成复杂任务的这些分工 , 比如说人类怎么一步步的通过组织一群人把曼哈顿计划搞定了 , 把登月搞定了 , 对吧 ?
怎么组织的一个方式去 , 比如说 Linux 内核 , 对吧 ? 一开始从一个大学生李纳斯 ,他大学的时候做的一个东西 , 我相信他那时候在做这个项目的时候 ,他也不比现在的一个 AI 强 , 对吧 ?
他怎么一步步的去把这样的一个复杂项目经过 20 年时间无数人的参与把它弄出来 。 所以这里面我觉得有很多很有意思的事 ,但更多这些事情就是在这些生产关系上 ,不在生产力上 。
对 , 初高中学的思想政治又得一分了 。
文理与音乐59:20
对 , 你讲这个就让我想到看你公众号的一个感觉 , 我就觉得其实你那个公众号写的就非常好 ,而且我觉得有一派人写公众号 , 尤其技术背景的人 ,他会有一种这种工程的美和艺术的美相加的感觉 。
正好你自己 , 我记得你公众号的标签你给自己也是又有程序员又有你喜欢音乐什么的 。
对 , 我自己做音乐 , 我还是很喜欢哲学 。
对 , 我想听听你觉得这种我们所谓的比较典型的文理结合给你带来的些什么东西 , 怎么影响你 。
这样吧 , 我说一下我的 background, 我可能很小开始写代码 , 大概 90 岁开始写代码 , 同时我可能初中就开始玩音乐 , 搞乐队什么的 , 然后一直到现在都算是一个独立音乐人。
但对我来说很底层的东西是非常自洽的 , 我从来不觉得我是一个码农 ,不是为了说我要实现这个功能 , 我要把这个代码怎么写 。
我驱动我自己的是说对于这些代码一种结构和一种美在里边 。 经常有一些大家可能不太理解 , 就是程序员去描述一段程序叫优雅 ,elegant, 对吧 ?
这种美其实跟艺术的美 、 建筑的美和音乐的美 , 我觉得是有一些很本质共通的东西 。 如果你想要去找到这种原始的审美的部分在这里边 , 我觉得一部分是天生 , 一部分是运气好 , 一部分是长期的这种驱动力去找到为什么我会觉得这个东西美 。
这个过程就看了很多一些哲学和如果想去分析它 , 于是就会各种各样的信息都涉猎 。 你涉猎完了以后, 你自然思考一些问题的方式就会跟你只看到一面的 , 比如说我就是一个非常工程的工程师 , 你可能就看不到它的美学在里边 。
所以对我来说很多东西往深处走都是相通的 , 一个写得很好的程序的程序员他必然是个艺术家 , 一个艺术家或者一个哲学家让他去把这些 C++ 什么这些都背熟 ,他一样也能变成一个很好的工程师 。
这是我一个比较奇怪的地方 ,但是这个奇怪我觉得未来也许会变成一个人类最有意思的地方 。
对 , 我好奇你看你作为一个程序员 , 你非常拥抱 AI coding 这件事情 。
太拥抱了 。
对吧 ? 对 , 然后所以我好奇的是你作为一个独立音乐人, 你有拥抱 AI 吗 ? 因为现在很多做音乐的觉得大家在比较 , 对吧 ?
看 Suno 做的很牛逼 。
是啊 ,他很牛逼 , 没问题 ,但是这个音乐是我做的音乐 , 我的主体性在里边是更重要的 。 我觉得比如说未来很多艺术 , 我就说音乐产业吧 , 你要说是这种给个抖音配音 , 或者说做一个电视里边的不怎么重要的背景音乐 ,AI 完全可以干 。
而且我告诉你 , 这些干的经济程度质量一定比现在你请那些做音乐的民工 , 我觉得也是有这样 , 程序员有码农 ,其他行业其实也是有这种要满足普遍需求的作为工作来去做的一些内容 。
这些内容我觉得用 AI 完全是可以干的 。 但是以后人去音乐会 ,他要的不是说我去听个 Suno 放的东西 ,他消费的不是这个音乐本身 ,而是这个音乐人。
我就想看他在那演 , 我就想看他在那唱 , 哪怕唱跑调了 , 这也是我跟他在这个场域下的一个连接的一种体验 。
对啊 , 就有点像运动会是吧 ? 如果就是一大帮机器人在那比赛跑步 , 那就没意思了 , 就这种感觉 。
所以我觉得这完全是两个赛道 。
对 , 我在想相当于说我们编程是为了做那个产品 , 编程是个手段 , 然后我们是有一个更大的目标的 。
但音乐可能创作本身它既是手段也是最终那个结果和目标 。
对 ,是的 。 我觉得其实我觉得编程更好的一个比喻是一些手工艺 , 比如说像景德镇做很多瓷器 ,在古代你这瓷器本身你确实必须得让这些工匠要做 , 如果天天吃饭的碗 , 如果你不这么做 , 那就没碗吃饭了 , 对吧 ?
但今天你说像这些陶瓷碗和这些塑料碗 , 各种各样的碗 , 工业制造做得又快又好 , 对吧 ? 但是我为什么还要跑到景德镇去买一个老师傅某个窑烧出来的一个特别好看的东西呢 ?
对吧 ? 所以我觉得编程慢慢的会跟这种有点像 , 会分出两个赛道 , 一个赛道就是你要完成一个啥事 , 另外一个赛道就是竞技艺术审美往这个方向走 。
可能还夹在中间会有一个赛道叫 builder, 就是我想要做一些东西 ,但这个东西写代码是它的一个途径 ,但我的成就感是来自于我把这个东西做出来 ,并不是说我 enjoy 写代码这件事情本身 。
然后我们现在的播客结尾都会跟首歌 , 我觉得要不然你直接推荐一两首 。
我推荐一首 , 我这正好用我去年感恩节那篇最近写 AI 的这个系列的第一篇公众号的文章的推荐的歌 , 就 Pink Floyd 的 Welcome to the Machine。
OK, 好呀 , 谢谢东旭 。
没事 , 很高兴再和你聊聊 。
对 , 最后我们同学有提几个问题 ,他跟 AI 没什么关系 ,但我帮他问一下 ,他对你比较好奇一些相对偏什么存在感的问题 , 比如说你觉得 AI 时代人之所以为人的意义感跟价值感可能更多来自哪里 ?
存在与主线1:05:12
我觉得还是人与人的连接以及作为人本身的体验吧 。 我觉得我最后干完这件事情 , 所有的成就感都是来自于别人给我带来的肯定也好 , 否定也好 , 这些交互 。
还是人给的反馈 ?
人的反馈 , 对 。 第二个就是我自己在造物的过程中的成就感 , 比如说就像做出来的东西我有点像扔了 ,但没关系 , 做的过程让你进入了一种心流 , 这就很好玩 。
所以这就为什么最近我在玩 Clawdbot 跟 Vibe Coding 玩得这么开心的核心原因 , 就是这个过程 。
是 , 然后有的人喜欢音乐或者喜欢什么 ,他其实就是喜欢 ,但你是真的会自己去做这件事情 , 你觉得自己执行和上手这个原动力是来自于哪里 ?
我觉得这样吧 , 这些说喜欢音乐的 , 如果他在尝试往前走一步 , 能自己去做音乐 ,他就会发现自己去创作音乐的爽感会比听音乐可能要爽十倍 。
我觉得我的驱动力并不是有什么特别 , 只是说我的执行力特别好 ,在某一个方向上我能再往前走一步 , 然后这样的 pattern 不停的循环就导致了我现在的这个状态 。
就像很多人喜欢看足球 ,但是他一上去踢 ,他才知道原来踢足球比看足球更好玩 , 就这种感觉 。
但更多的人是会觉得原来踢足球比想象中难的更多 ,而且累死了 , 还是看吧 。
对 ,但是我是觉得当你过了那个痛苦期 , 你之后的回报是更高的 , 任何事情都是这样 。
然后你自己什么音乐 、 哲学 、coding 等等这么多事情 , 你就是在创业 , 你觉得你自己的人生主线是什么 ?
然后你是大概怎么找到这条主线的 ?
我人生主线就是追求美的东西 , 我心目中有一个美的标准 , 无论干什么都得符合我心目中的审美 ,以及我要追求把这个美的东西做出来 , 亲自体验和创造这种美 。
所以你看这里面其实是有些矛盾的地方 , 比如说我知道你喜欢摇滚 , 对吧 ? 然后但其实你整个人 ,但是我觉得做摇滚的人不一定非要很暴躁 , 反而很 nice, 对吧 ?
但你刚才讲你又是追求美 ,但你又在做公司 , 这里面有一些东西我觉得就像我刚才讲逻辑跟艺术 , 或者说编程跟音乐 , 它不是一个能够完全融合的东西 , 它很多时候它的目标感是不一样的 。
我觉得完全就是我们刚才讲的 , 比如说你做公司编程是一个要强目标驱动的事情 ,但艺术跟美它反而是一个要享受过程的事情 , 这种矛盾你是怎么样去解决的 ?
是这样的 ,有很多看似矛盾的东西 , 或者说看似 , 比如在数学上, 当你只能在二维上看到一些投影的时候 , 你会觉得这两个事情完全没什么关系 。
但是你一旦升一个维度 , 或者说你站在一个更高的维度去看 , 就发现这东西是一个东西 。 我觉得很多矛盾的点其实只是你没有在一个更高的维度去看这个事 。
有很多事情其实我觉得是都是一致的 , 比如开公司跟做系统 ,在我看来很多东西是一致的 , 对吧 ? 因为我做分布式系统 , 这个系统里边 , 比如说你一个复杂的分布式环境里 , 每一个节点都可能 crash, 每一个节点都可能不工作 , 或者说有些快有些慢 , 你怎么通过一些算法和逻辑能把成千上万个这样的计算机连在一起提供一个整体的服务 。
你能看到这件事情跟运转一个公司之间的相似性吗 ? 比如说像音乐和编程 ,是吧 ? 音乐我觉得在逻辑的那部分就非常好理解 ,是吧 ?
古代的毕达哥斯达学派 , 这个音律其实也就是这帮搞数学的人发明的 。 然后你想数学跟音乐 , 它又是一个看上去离得非常远 ,但是底下你会发现全是交集的东西 。
对 , 所以反正我自己的感觉就是我 somehow 找到了一些方法 , 或者说在我自己的内心里边 , 我所有做的这些事情都是自洽的 。
当然这个自洽可能在其他人看来是没有道理的 ,但我自己看来非常有道理 , 我能说服自己 。 我觉得这就是还挺重要的一个事 。
而且比如说初中的时候 , 我刚玩摇滚乐的时候也很暴躁 ,但随着这个事业越来越多 , 事业越来越广 , 我就发现这个世界还是充满了多样性 , 那就 peace 一点多好 , 对吧 ?
好 , 行 , 谢谢 。
