文 | 窄播,作者|博斯
OpenClaw作为一条技术路线,让Agent第一次有了区别于聊天机器人的清晰轮廓:有一个人格化的灵魂,24*7永远在线,主动执行任务,看上去可以打理一切。旧势力希望借此守住入口,新势力想要利用它站上风口。
3月,从字节、腾讯、阿里、百度等互联网巨头,到月之暗面、MiniMax、智谱、阶跃星辰等大模型新贵,再到华为、小米这样的手机厂商,都在谈龙虾。新旧科技公司共同完成了一场将龙虾广而告之的共谋。
4月,变阵之后的科技公司在继续将龙虾之战从「极客的工具」推向「服务大众的系统」。一方面在积极构建支撑龙虾类产品稳定、安全运营的基础设施;另一方面也在寻找龙虾类产品能更快进入的具体场景,将使用龙虾与提升生产力划上等号。
字节依然积极。4月2日,「火山引擎2026AI创新巡展」武汉站上,火山引擎团队提出了敏态和稳态并行的企业Agent建设方法论,进一步完善了ArkClaw和HiAgent两个分别对应敏态和稳态的产品。4月7日,字节旗下的扣子升级到2.5版本,不但有了龙虾一样的交互界面和执行能力,还增加了Agent Word开放生态。
![]()
腾讯也保持了3月的速度和惯性。3月30日,WorkBuddy微信小程序上线,同时支持云端沙箱与本地电脑远程执行双模式。4月3日,腾讯云正式发布了TencentDB Agent Memory(龙虾记忆服务),为OpenClaw补上了长期记忆。4月8日,QQ浏览器正式发布国内首个浏览器「龙虾」QBotClaw。
此外,OpenClaw之外的新Agent形态还在继续涌现。Hermes Agent在2月开源之后,凭借自我成长型Agent的定位在4月迎来的大爆发。目前,腾讯云已经支持Hermes Agent的云端一键部署,小米也宣布旗下Xiaomi MiMo-V2系列大模型实现了官方集成接入。
大家此前都在讨论谁的龙虾平替更好用,谁的部署门槛更低,谁的生态接入更方便。但在4月之后,大家可能会更倾向于讨论这场狂欢的终局是什么,什么样的产品形态会最终抵达主流市场。
从500万工程师到10亿普通用户,这中间的距离,与其说是模型能力的问题,不如说是产品化的问题。此刻的群雄逐鹿,在某种意义上,正是跨越这道鸿沟前的投石问路。
两条探索的路径
细看百虾大战,各个厂商的选择可以被归纳为两条路径。
动作最密集的,是封装OpenClaw的路线。它当然是当下最快的打法,也是大厂强烈的fomo。
腾讯 QClaw、智谱 AutoClaw、MiniMax MaxClaw、百度DuClaw、字节 ArkClaw,这些产品的共同选择是:暂且绕开对Agent底层范式的重新定义,围绕OpenClaw 已经验证过的能力做产品化包装,是什么没那么重要,做了再说。
部署流程从小时级压缩到20秒,从命令行脚本安装到双击可用,云端托管、预置 Skill、预装模型、免费额度、主流IM接入一并打包交付。用户触达龙虾的所有的门槛都在被快速降低。
这个路线核心指向:OpenClaw太像一套开发者系统,想要扩大用户基础,需要有人来把它翻译成普通用户能读懂的语言。
这样做能在短时间内,以最快速度圈住用户。MaxClaw、AutoClaw、Kimi Claw代表是大模型公司,将OpenClaw视作一个绝佳的Token消耗载体,让人看到了Token经济学非常性感的一面。QClaw和ArkClaw面向龙虾时代变现了腾讯和字节的用户基础,展示了旧入口+新产品的可行性。
但是,封装路线的发展逻辑,在某种程度上依赖于上游不再生长,维持稳定的产品框架。而对还需要不断完善的OpenClaw来说,这个前提从一开始就显得有些脆弱。OpenClaw新版本和官方通道的每一次更新,都在悄悄左右着第三方产品的独立生存空间。
互联网巨头们往往会选择两条腿走路,再走一条自研Coding Agent,搭建自己执行底座的路线。
相较字节和腾讯,阿里是这条路径的更坚定地执行者。阿里巴巴通义实验室推出了开源的QwenPaw,支持定制化轻量小模型、强化安全机制、支持多智能体协同作业、优化长期记忆管理。钉钉团队发布的悟空也是一款以企业智能体为核心的AI原生工作平台。
钉钉的核心动作,是把大量平台能力CLI化,让Agent原生调用平台能力,不再模拟人的点击操作。这背后有一个清晰的产品判断:企业真正需要的,可能不是一个远程操控电脑的演示工具,而是能够继承组织权限、嵌入业务流程、可被审计和计费的AI员工。
![]()
此外,Claude的Cowork、腾讯的WorkBuddy、字节的扣子2.5也不约而同地选择把 Coding Agent 改造成自己的执行底座。
Anthropic的Cowork不是「更易用的Agent」,而是一种设计哲学的分野。OpenClaw追求Agent的极致自主性,Cowork追求的恰恰相反——更好的人机协作关系,一个让人类能够深度介入AI工作过程的协作环境。Cowork要「从一个有用的助手,变成一个真正的全职同事。」
![]()
WorkBuddy则呈现出另一种形态,更像是AI原生的工作台:多Agent并行、跨平台下达指令、直接交付文档表格PPT成果、安全沙箱和企业级审计一并到位。腾讯内部两条线的分工隐约可见:WorkBuddy做深执行,QClaw做广触达。
扣子2.5给自己的定位是「满配AI伙伴」,与OpenClaw类似包含有人格、装备、技能三个基础部分,同时又为付费用户增加了使用云电脑和云手机的能力,有日程系统和文件系统。整个产品像一个更完善的龙虾类产品。让我惊讶的是,扣子2.5会自主提醒我某条信息可以被用于前两天讨论的某个选题上。
自研路线可以把Agent深度绑定进自己的生态和权限体系,代价是研发更重、封闭性更强、扩张更慢,往往只能先在自己的场景里站稳脚跟,再图谋更远的地方。
两个真正关键的动作
两条路线,一重一轻,各有各的逻辑。但如果视野只停留在这两条路上,可能会错过这场战争里真正悬而未决的那一部分。
龙虾大战背后的共识是,Coding Agent正在成为新一代Agent的操作系统底座。竞争的焦点是Coding Agent的交付完成度,即谁能把LLM、Coding Agent和Harness Engineering整合成一个真正可以交付的系统。
这种竞争在围绕两个关键动作进行:
第一个动作是CLI的复兴。这也是旧世界和新世界的联结。Agent的发展正在悄然分化出两个界面:GUI服务于人和软件之间的交互,CLI服务于软件和 Agent 之间的交互。龙虾类产品很有可能将对话窗口与CLI结合起来,取代GUI主导的交互。
基于这个判断,钉钉把办公能力CLI化,某种程度上是在把自己改造成一个更适合Agent操作的执行层。飞书CLI将协作能力接口化,也是把自己定位成「让人类和AI Agent都能在终端中操作飞书」的命令行工具。他们都是在基于传统软件,长出一套可以被Agent调用的操作界面。
![]()
与之相对应,微信、企业微信、飞书、钉钉都会成为人类沟通Agent的频道。CLI打通软件到Agent的接口,频道打通人到Agent的入口——两者共同完成了旧世界和新世界之间的接线工程。
第二个动作是人类和Agent的协作。我们可以看到面前有两个选择:
一个选择指向大一统的操作系统底座——以一个通用的平台承载很多Skill,由Skill覆盖无数的垂直场景,就像微信上无数的小程序。
这个选择中,Skill本质上是在把人类经验、工作流经验、行业know-how和最佳实践,压缩成可以被Agent调用的能力模块。通用平台解决的是能不能做,Skill解决的是该如何做、按照怎样的经验做、在什么上下文里做。如何让用户能够高效封装Skill会成为一个关键环节。
另一个选择是App的Agent化。多个入口与多样的垂直Agent构成了类似当下APP生态的行业格局。
如果说Skill是要将垂类APP拆分成多个原子化的能力,那么APP转化成的Agent则是要维持相对孤岛的状态。类似我们通过自己的龙虾调动美团的小美为我们点外卖。但这并不是个好选择。
按照第一个选择来发展,自然语言的交互是符合人最沟通习惯的,但目前的对话框式的交互界面不一定是最佳方案。这个答案还有可能是NotebookLM那样的,输入-整合-输出的三框工作界面,也可能是Flowith、可灵、即梦都在尝试的画布式工作界面。
无论是什么界面,背后都需要足够强大的Skill生态做支撑。而Skill生态的丰富程度可能会在未来决定人与Agent交互界面的最终呈现。
五点下班的可能性
对Coding Agent或Cowork方向的产品来说,供给侧的条件正在成熟,需求侧的心智却尚属空白,海外的标杆产品又因地缘因素无法直接进入。三个因素叠加,构成了一个罕见的机会窗口,也带来了百虾大战的盛况。
但绝大部分用户都不会是pro user,未必有能力把自己的经验Skill化,也未必清楚什么是自己场景里的最优解。大众用户期待的是一个能简单上手、直接干活的Agent,而不是一个开放而强大、难以快速入门的底座。前者意味着直接的生产力,而后者只是一个带来幻想的脆弱半成品。
我们不知道Agent什么时候真的会替代人类完成那些繁重的工作,但在这样的旅途中一定会有一段时间,需要人类悉心的指导和检查Agent如何产出一份可以完整交付的结果,直到Agent可以称心如意地完成人类需要的工作。
这就像自动驾驶行业有一场持续多年的路线之争:L4派主张一步到位实现全自动,L2派主张人机共驾、渐进演化。最终,L4定义了方向的想象空间,L2赢得了真实的市场。其原因不在于L2技术上更先进,而在于它更务实地处理了人与机器之间那段需要时间积累的信任关系。
人类可能暂时还无法冀求一个无需工作的丰裕社会,但从当下的视角来看,一个编排良好的Agent,确有让人五点下班的可能性。