找到
1752
篇与
互联网
相关的结果
- 第 4 页
-
多地深入实施“人工智能+”行动,三大城市群占据绝对主导地位 来源:环球网【环球网财经综合报道】5月1日,全国首部具身智能机器人领域地方性法规《杭州市促进具身智能机器人产业发展条例》正式施行。数据显示,杭州已集聚机器人产业相关企业700余家,2025年具身智能产业集群产值达1068亿元。不仅有杭州,多地纷纷出台相关措施,深入实施“人工智能+”行动。重庆市日前也发布了《重庆市推动经济稳中向好若干政策举措》,提出对开展人工智能大模型训练推理、数据标注、数据分析等算力应用的企业、高等院校、科研机构等,依法依规给予算力补贴,每个单位每年补贴最高不超过100万元。 公开报道现实,根据国家《新一代人工智能发展规划》实施进展,2023年中国人工智能核心产业规模突破5000亿元,同比增长25%,成为全球最大的AI应用场景市场。 -
海报荐读|AI进美术馆,会抢讲解员饭碗吗?AI侵权与人工维权,一场艰难的保护战;上海外卖小哥在人民大会堂领奖 海报荐读,速览一周(2026年4月27日-2026年5月3日)大小事。4月30日上午,习近平总书记在上海出席加强基础研究座谈会并发表重要讲话。总书记强调,基础研究是整个科学体系的源头,是所有技术问题的总机关。要以更大力度、更实举措加强基础研究,提升我国原始创新能力,进一步打牢科技强国建设根基。上海外卖小哥张传武、水处理专家周珉同获2026年全国五一劳动奖章,新就业形态劳动者与一线技术人才获广泛认可。“五一”假期,上海南京路再迎大客流,上海施展 “绣花功夫” 以精细化治理保障秩序。此外,各类民生热点与社会议题引发关注。如:AI时代版权侵权频发,维权陷入机器侵权与人工维权的不对称困境;浦东美术馆AI讲解员上岗,人机讲解的价值边界引发讨论;被拐人员团圆后的家庭融入难题凸显,社会支持体系亟待完善;上海街边书店“不可无字”坚守品质选书,为小众好书搭建展示平台,点亮社区文化空间……同时,这些思考与观点引发广泛共鸣:施一公坦言顶尖科学家不可能成建制培养,西湖大学坚守因材施教之路;AI时代工匠精神并未过时,执着专注、精益求精仍是核心底色;基础研究根基越深,科技创新高地就越高。|2026年4月27日|专访西湖大学校长施一公邵竞 设计AI侵权与人工维权,一场艰难的保护战 雍凯 设计|2026年4月28日|AI进了美术馆,它会抢讲解员饭碗吗 苏唯 设计为何说它是植物界的“演技之王”?国人对它的情感超越了植物本身 邵竞 设计|2026年4月29日|15万个零部件的碳账本:振华重工拿下全球首张碳足迹证书,冲破绿色壁垒 苏唯 设计上海外卖小哥在人民大会堂领奖!上海给了他“没想好”的底气 徐佳敏 设计被拐男子三次拉黑民警,“团圆”后如何踏上真正的回家路? 徐佳敏 设计|2026年4月30日|上观时评|乡村T台何以出圈? 徐佳敏 设计1646个人物、98艘船…金山这家人用画笔把江南水乡“搬”进了26米长卷 雍凯 设计观见 | 总书记关注的基础研究:“根基”越深,“高地”就越高 徐佳敏 设计|2026年5月1日|既跑半马,又进电站!具身智能落地元年,特种作业场景缘何成为“第一站”? 邵竞 设计复杂变局之下,“大国之学”如何助推企业出海?上海高校区域国别研究做足功课苏唯 设计上海顶流街区迎来假日大客流,城市治理如何施展“绣花功夫”徐佳敏 设计|2026年5月2日|上观时评|当谈起“工匠精神”时,我们在强调什么 雍凯 设计|2026年5月3日|白天治污水,晚上当主播:上海“水处理”高手的“斜杠”技能观苏唯 设计探访上海街边书店|开书店的滋味,开过才知道邵竞 设计原标题:《海报荐读|AI进美术馆,会抢讲解员饭碗吗?AI侵权与人工维权,一场艰难的保护战;上海外卖小哥在人民大会堂领奖》栏目主编:秦红、顾万全、张武、蒋竹云、戴慧菁 题图来源:上观题图 图片编辑:邵竞来源:作者:解放日报 邵竞 徐佳敏 苏唯 曹立媛 雍凯 -
35岁主管被公司用AI替岗月薪降低1万 协商不成后被裁 来源:中国新闻社近日,浙江杭州市中院发布了一起AI替岗典型案例。35岁的周先生在一家金融科技企业担任AI大模型质检主管,负责对AI与用户交互所生成的答案进行把关。去年1月,公司提出要将他从主管调到普通运营岗位,原先2.5万元的月薪降为1.5万元。协商不成后,公司直接通知他解除劳动合同。直至周先生提起劳动仲裁,公司才告诉他具体原因,由于技术升级,他从事的质检工作AI就能完成,他被AI替岗了。 35岁主管被公司用AI替岗从劳动仲裁到法院一审、二审,均支持周先生诉求,认定公司构成违法解除劳动合同,并且需要向他支付26万余元的赔偿金。法院判定,公司以AI成本优势为由和劳动者解约,并不属于劳动合同无法履行的“客观情况发生重大变化”,现在的AI技术发展也还没有达到实质性替代劳动者岗位的程度。 法院判决书在竞争激烈的互联网行业重新起步并不容易。周先生告诉记者,自去年一月公司解除劳动合同至今,他还没能找到合适的新工作。华东师范大学经管学院教授张敏表示:企业是因为通过引进AI来调岗降薪,很明显在法律层面上不具有合法性。对此,央视主持人白岩松在节目中表示:眼下是一个人人都在面对AI的时代,技术的进步不以人的意志为转移,因为你不进步,别人很快就会超越你。在新的科技浪潮下,AI确实带来了效率,文案写的快了,图纸出的快了,代码跑的快了,好像一夜之间什么都快了。企业引进AI,追求降本增效,从商业逻辑上讲也无可厚非,但问题是涉及到社会治理,效益就不是唯一的标尺,甚至应该排在劳动者权益之后。不能AI来了劳动者的岗位就很快没了。在这个案件中,杭州中院也给出了一个正面指引,确实需要岗位调整时,应当优先考虑培训员工、提升技能、内部转岗,而不是直接让人走。这也提醒我们,是不是需要尽快调整一下相关制度。 央视报道截图无论AI如何壮大,法律都应守住劳动者权益的边界,企业也不能在“AI来了,你该走了”之间直接画等号。社会需要做的是抓紧行动,无论是在劳动保障,还是在预警监测方面,都需要尽快达成共识。我们应该确保,AI可以改变世界,但不能改变谁是主角,这个世界的主角永远是人,也只能是人。来源:央视新闻 -
这套题,GPT-5.5、Opus 4.7加起来没考到1分,人类却拿了满分100 机器之心编辑部在大模型「卷生卷死」的今天,大家似乎已经习惯了模型在各大榜单上刷出逼近满分准确率。然而,在一项名为 ARC-AGI-3 的基准测试中,堪称当下「最红炸子鸡」的两款顶尖模型 ——OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7,却双双「折戟」……近日,ARC Prize 官方发布了针对这两款顶级模型的详细分析报告,结果令人震惊:在面对未见过的逻辑任务时,两者的表现得分均低于 1%,GPT-5.5 得分 0.43%,Claude Opus 4.7 得分 0.18%。 这意味着,即便拥有千亿级参数和近乎无限的算力,这些模型在处理「全新逻辑环境」时的表现,甚至不如一个 6 岁的儿童。这是怎么一回事?ARC-AGI-3:智能的「真伪试金石」为了更好理解这一成绩,首先我们来了解一下 ARC-AGI-3,这是由 Keras 之父 François Chollet 创立的基准测试系列的最新一代,于今年 3 月分布。François Chollet 当时称,当一个 AI 系统在首次接触所有环境时,其行动效率能够达到或超过人类水平,才算真正「攻克」ARC-AGI-3。而根据团队进行的大量的人类测试结果来看:在没有任何先验训练、没有任何说明的情况下,人类在第一次接触时可以 100% 解决这些环境中难题,与此同时,目前所有前沿的 AI 推理模型在这一测试上的表现都低于 1%。 彼时,OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 还没有发布,如今来看,这两个模型也同样难逃这一结果。具体来看,ARC-AGI-3 是由 135 个全新环境组成的测试集,每个环境都由人类手工设计,用来测试模型面对「未知」的能力。对于测试者来说,无论人类还是 AI,进入环境中将不会获得任何的玩法说明,要前进,取得进展,必须做到以下几点: 探索未知界面 ; 从稀疏反馈中推断规则(构建世界模型) ; 提出并验证假设 ; 从错误中恢复 ; 将经验迁移到下一关(持续学习)。 每个环境的构建都缺乏模型通常依赖的文化知识,只保留「抽象推理能力本身」。换句话说,可以把 ARC-AGI-3 理解为,一个在「新颖性、模糊性、规划、适应性」上的最低共同测试集合,而这些,正是现实世界任务对智能体的核心要求。因此,ARC-AGI-3 也被公认为目前最接近「人类智能本质」的测试。顶尖模型纷纷「败北」背后的三大失败模式此次,GPT-5.5 和 Claude Opus 4.7 的表现得分均低于 1% 的成绩固然令人「心痛」,但比起成绩,知道背后的失败原因似乎更重要。ARC Prize 研究团队通过分析 160 组完整运行轨迹,包括模型的每一步操作和推理过程,总结出了导致模型「崩溃」的三大核心失败模式:一、真实的局部反馈,虚假的世界模型模型能够理解哪一步动作产生了变化(局部反馈),但无法将这种因果效应转化为一套通用的全局规则。这是一个最为明显的原因。比如,在一个需要旋转物体以匹配插槽的任务中,模型能够识别出「我按下这个键,物体可以旋转」这一局部规律,但它无法将此逻辑上升为全局目标,进一步推理出:「旋转会影响结果,因此我需要在行动前调整物体方向以匹配目标。」换句话说,模型失败不是因为它们「看不见」,而在于无法把观察的事物整合成一个完整的世界模型。比例,Claude Opus 4.7 在运行任务 「cd82」 时,在第 4 步已经意识到执行 「ACTION3」 可以旋转容器,随后在第 6 步也观察到执行 「ACTION5」 可以倾倒或蘸取油漆。然而,它始终无法将这些碎片化的认知转化为一个完整的逻辑策略,即「先调整桶的方向,然后再蘸取油漆,以还原左上角的目标图像」。 Claude Opus 4.7 理解 ACTION3 旋转物体,但未能理解游戏的概念。或者在任务 「cn04」 中,Claude Opus 4.7 虽然发现了一个成功的「旋转后放置」交互逻辑(这是正确的假设,见第 23 步),但随后却陷入了追求「整体形状重叠」的误区(错误假设),并为了追求「顶行进度」的假象而偏离了目标(见第 60 步)。 二、被训练数据「绑架」的抽象思维模型对当前环境产生了误判,由于受到训练数据的影响,它们会将一个全新的「ARC-AGI-3」任务误认为是在玩另一种已知的游戏。这种失败模式源于模型对训练数据的「错误抽象」,在多次运行中,模型反复尝试通过将其映射到已知游戏来解释陌生的机制,这些游戏包括:「俄罗斯方块」「青蛙过河」「推箱子」「粉末游戏」「填充颜色」「打砖块」等。虽然从核心先验知识中提取抽象概念在理论上有助于解决问题,但这些来自训练数据的字面类比反而「绑架」了模型的动作选择,从而演变成:局部视觉相似、导致被误认为完整的游戏规则、行动方向被带偏。比如,在任务 「cd82」 中,GPT-5.5 的思维被锚定在了流沙、物理模拟或 「填充颜色」的游戏机制上;而在任务 「ls20」 中,它将本应是按键组合的逻辑误判为了「打砖块」。 三、通关了关卡,却没学会规则模型侥幸通过了某个特定关卡,却无法利用那个成功的奖励信号来强化并执行正确的后续操作。这说明,「通关并不等于理解」。Claude Opus 4.7 的两次记录很好地说明了这一点。在任务「ka59」中,Claude Opus 4.7 用 37 步完成了 Level 1,但它对「点击」这一操作的理解其实是错误的 —— 它认为点击是在「传送当前角色」。虽然结果看起来像是一次干净利落的胜利,但本质上只是对底层机制的误读,恰好碰上了一个比较宽容的关卡。因此,当进入 Level 2,需要真正的机制(形状匹配与推动)时,Opus 将这种错误理解进一步固化为「点击每个目标来填充它」,结果可想而知,整个过程彻底偏离、崩溃,且无法恢复。 Opus 4.7 正在运行任务 「ka59」,陷入了「盲目点击(Click-fishing)」的死循环,游戏得分:2.04%。在「ar25」任务中也是如此。Opus 在 Level 1 通过对「镜像移动」的正确解读成功通关(见第 4 步);随后在 Level 2,它实际上已经发现了新的「可移动轴」机制(见第 227 步),但紧接着它又陷入了幻觉,开始臆想出诸如「打孔」或「需要翻转」等并不存在的规则。 在这两种情况下,Level 1 的成功掩盖了模型对底层机制的缺失或扭曲,这种「局部胜利」反而为错误的 Level 2 策略提供了一个看似自信的支撑框架。这也说明,早期关卡的推进并不能可靠反映模型是否真正理解了任务。如果没有明确检验模型「为什么能过关」,它就会把错误的认知带入下一关,并在此基础上不断放大偏差。GPT-5.5 vs Opus 4.7:不同的「翻车」姿势有意思的是,虽然 GPT-5.5 和 Opus 4.7 的得分成绩都不尽如人意,但研究团队通过对比两者的运行记录发现,它们的失败方式完全不同。简单来说就是,Claude Opus 4.7 的问题是「压缩错了」,而 GPT-5.5 的问题则在于「压缩不了」。具体来看,Opus 4.7 在短周期的机制发现方面表现更强。例如在任务「ar25」中,它几乎立刻识别出镜像结构,并顺利通过 Level 1;在任务「ka59」中,即便世界模型并不完整,它也能读出「双角色、双目标」的布局,并完成较短的 Level 1 操作序列。但问题在于,它也更容易抓住一个错误的「恒定特征」,并坚定执行下去。比如在任务「cn04」中,它构建了一套「进度 / 计时 / 转换」的错误理论,并在这一假设下不断尝试操作(第 60 步)。它确实形成了一套「可运行的解释」,只是这套解释是错的。GPT-5.5 则是另一个极端。它的「假设生成」更广泛,这使得它更有可能说出正确的思路,但同时也更难将其转化为具体行动。比如在任务「ar25」中,它识别出了镜像效应,但不断重新打开「可能的游戏类型空间」,在「俄罗斯方块」「青蛙过河」「乒乓球」「汉诺塔」之间反复横跳,始终无法坚定地执行镜像逻辑。而在任务「ka59」中,它也构建出了正确的对象结构 —— 两个目标轮廓和一个可切换的第二角色 —— 但始终没有真正执行这一理解。换句话说,Claude Opus 4.7 有点像「过度自信的直觉主义者」,GPT-5.5 则像「思维发散的理论家」。而归根结底,两者之间的这种差异在于「压缩」能力的区别:Claude Opus 4.7 将观察压缩成了一个「自信但错误」的理论,而 GPT-5.5 则几乎无法完成压缩,始终停留在分散的可能性之中。不得不说,此次 Claude Opus 4.7 和 GPT-5.5 双双在 ARC-AGI-3,这一堪称目前最接近「人类智能本质」的测试上的低分表现,揭示了一个事实:AGI 之路「道阻且长」啊。你呢,如何看待 AI 的这一成绩?欢迎在评论区留言、交流!https://x.com/fchollet/status/2050328852107612559https://arcprize.org/blog/arc-agi-3-gpt-5-5-opus-4-7-analysishttps://x.com/GregKamradt/status/2050262126120632554 -
阿里字节留的“参考答案”,小红书能抄多少分? 文 | 超聚焦小红书,“穷则思变”。4月30日,小红书发布全员内部信,宣布新一轮组织升级,架构调整后的小红书如下: 具体来看,此次调整全面整合了社区、电商、商业化三大业务及公司技术体系,将CMO之恒、帕鲁和夏侯分别任命为三大业务的负责人,并直接向星矢汇报。而在整合业务部门的同时,小红书也成立了AI一级部门Dots和企业智能部,从产品技术和组织两方面加大对AI的投入。其中,Dots的目标是建设从模型研发、基础设施、工程到产品的完整技术体系,整合顶尖AI人才与资源,同样归于星矢管理;而企业智能部则整合了原企业效率部、数据科学部,协同战略部、组织人事部,内部信中给出的理由是要从智能、人才、数据和资源四个维度为AI时代的组织打下基础。如果把这封内部信放在中国互联网过去三年的组织变革谱系里观察,你会发现一个有趣的对照:它像是阿里“1+6+N”之后吴泳铭式的集权,又像字节Flow和Seed那样把AI团队直接拔到了一级部门。但对照归对照,小红书的境遇,终究是大不相同的。有阿里之心,固然是抱负,无字节之命,才是底色。01 破除部门墙, 能告别“只长草不结瓜”吗? 很多人看到小红书的调整,觉得能从中看到阿里“1+6+N”到当前三大业务板块的影子。2023年,张勇推出了“1+6+N”的组织架构调整计划,把阿里拆成阿里云、淘宝天猫、本地生活、菜鸟、国际数字商业、大文娱六个业务集团,外加N家独立的业务公司。 每个业务BU都有自己的董事会和CEO,目标也很清晰:各自对盈亏负责,成熟一个、上市一个,阿里作为类似华技的母公司存在。但执行了不到一年,问题就显现了,各业务集团之间的协同成本急剧上升。阿里云想给淘天降价?不行,淘天要保自己的成本线。盒马想用菜鸟的物流?价格谈不拢。本应是手足兄弟,结果各筑城池,中间层层关卡,自己卡住自己。更危险的是数据割裂。一个用户上午在淘宝浏览、中午在天猫下单、晚上在饿了么点餐,这些行为被切割在三块数据池里,根本无法拼成统一的用户画像,导致推荐不准、投放效率低、跨业务转化难。到了2023年底,吴泳铭接手,做了一件和张勇完全相反的事:收权。吴泳铭亲自下场,把阿里云、电商、AI三块核心业务全部抓在自己手里。2025年初,阿里云智能事业群和电商事业群成为两大核心;2026年3月,ATH(AI大模型及应用)事业群成立,成为第三极。三块命脉,再没有中间层。分,是为了放活;合,是因为干不好活。小红书的星矢,走得是吴泳铭的同一条路。过去,小红书的社区、电商、商业化是三条平行组织。三个团队,三套KPI,三种看世界的眼光。社区想的是“用户留存”,不希望太多广告破坏体验,商业化想的是“广告收入”,希望更多曝光位,电商想的是“GMV”,希望流量优先导给自己的直播间。三种力量来回拉扯,最后体现在用户身上就是:种草和拔草断链了。 用户在小红书看到好东西,截图去淘宝搜。这笔交易,小红书一分钱都拿不到。从数据来看,小红书的痛点一目了然。2024年广告收入贡献了约216亿元,占总营收的72%,同比增长48%。对品牌广告的过度依赖,已被外界持续诟病为收入结构单一。电商GMV虽然做到了千亿体量,但在抖音直播电商全年3.5万亿、快手的1.39万亿面前,只是零头。更关键的是,互联网电商转化率的平均水平是3%—5%,而小红书的直播电商转化率仅为头部综合电商平台的三分之一。用一句话概括:种草力强,拔草力弱,这是小红书长年卡在估值天花板的核心死穴。它的人均使用时长、用户黏性,都超过了B站,但就是结不出交易转化这颗“瓜”。星矢也知道问题的症结所在。从2025年试水“红猫计划”打通淘宝外链,到内部组建“大商业板块”由柯南统一负责广告和交易,路径已然清晰:小红书不想只做“种草”的中间商,它要做“种草-拔草”的闭环。于是,才有了这次的最终一锤,把核心业务的关键决策权,进一步收拢到柯南一个人手里。区别在于,阿里是三块业务都抓在CEO手里;小红书则更进一步,名义上有三个负责人,实际上社区、电商、商业化三条线的“总导演”是柯南。她以总裁的身份,统管从流量入口到交易出口的全链路命脉。这就是星矢的底牌,用制度强制解决内耗。但制度能解决“部门墙”,解决不了“规模差”。小红书的真正难题,不在于组织结构有多精巧,而在于如何在强化社区感的同时,将惊人的用户时长,转化为真实有效的商业产出。 这既是无数内容平台共同的魔咒,也是小红书估值能否说服下一轮投资人的终极问号。阿里的问题是“大象怎么转身”,小红书的问题是“怎么长成大人”。这道题,逻辑上对了,但能不能走通,还得看真金白银能砸出多少成果。02 拥有阿里的蓝图, 却没有字节的子弹 如果说商业板块的收拢,是柯南沿着吴泳铭的脚印在走,那AI部门的建立,则让她在黑暗中踏过另一条幽径,这条路字节走过。本次架构调整中,小红书同时成立了两大AI组织:Dots和企业智能部。一个管技术落地,一个管组织基建,一明一暗,分工明晰。Dots的使命,是“建设从模型研发、基础设施、工程到产品的完整技术体系,整合顶尖AI人才与资源”。这种不挂靠业务部门、直接向核心高管汇报的设计,很像是对字节跳动Flow和Seed部门的对标。字节的AI体系,由CEO梁汝波直接掌控。Seed团队由从Google DeepMind挖来的吴永辉博士亲自带领,主攻基础大模型,直接向梁汝波汇报。Flow部门则主攻AI应用层产品,快速迭代、敏捷落地,同样直通CEO办公室。小红书的Dots,试图穿上同一双鞋。但字节的这双鞋,并不是谁穿上都能跑得起来。字节的Flow和Seed之所以能高速运转,靠的是两样东西:全球顶级的AI人才储备,以及“不设上限”的投入决心。据浙商证券估算,字节2024年AI相关资本开支达800亿元,2025年翻倍至约1600亿元。小红书2025年全年营收不过420亿元,字节一年花在AI上的钱,够小红书挣三四年。而Flow之所以能快速落地AI产品,也因为它能第一时间调用字节在推荐算法、用户增长、内容分发上的全链路能力。这是一套为字节量身定制的AI引擎,油箱里烧的不是预算,是字节十几年积累的数据与流量资本。小红书在AI领域的布局并不算晚。早在2023年它就推出了AI绘画产品“Trik”;2024年12月推出了独立AI搜索应用“点点”。这些小步快跑的尝试体现出小红书对AI的热情,但力度和战略优先级,跟字节显然不在一个量级。而处在“暗线”的企业智能部整合了原企业效率部、数据科学部,协同战略部、组织人事部,内部信给出的定位是“从智能、人才、数据和资源四个维度为AI时代的组织打下基础”。它的逻辑,与阿里的ATH事业群相似。ATH的核心使命是降低Token的生产和使用成本,让阿里云、电商、本地生活各条业务线都能从这口“AI水井”里低成本取水。但小红书与阿里之间隔着一道巨大的鸿沟。阿里的ATH之所以需要存在,是因为阿里云提供的服务本身就横跨IaaS、PaaS、SaaS、AI SaaS。它既有自研芯片,又有千亿参数的通义大模型,还有庞大的云客户群体等着购买Token。ATH的本质是一个对外输出的AI生产力体系,不仅要服务内部,还要卖出去创造营收,这是一个完整的AI商业闭环。小红书的企业智能部,目前几乎看不到对外输出与商业化的可能。它只是一个内部降本增效的工具部门。这种定位从根本上决定了,无论组织设计得多么精巧,它的资源优先级和战略分量,跟ATH不在一个量级上。柯南并非不清楚,她曾在与经济学家薛兆丰的对谈中,谨慎地向外透露了她对小红书商业化的理解:社区有自己的原生性和生长性,沿着原生的用户需求和商业生态链路去构建商业系统,才是最适合小红书的路径。这表明小红书的AI,不是为了去外面跟Chatbot抢用户,也不是为了卖Token赚钱。它是为了让小红书的“种草”更准,“拔草”更顺,“广告”投放更聪明。Dots盖技术之屋,企业智能部打地基,一个管“能不能跑得起来”,一个管“能不能跑得远”。但两个部门并行,也带来了结构性的新难题。Dots做技术,企业智能部做基建,两者的边界在哪里?当AI能力需要落地到具体业务场景时,是Dots直接接入社区、电商、商业化,还是通过企业智能部作为中转站?两个部门之间如何协同,会不会从旧的组织墙中生出新的部门壁垒,这些悬置的问题,内部信里没有给出答案。残酷的是,小红书毕竟只是一家中厂。它不像阿里,能把AI做成独立的对外业务;它也不像字节,能用无限资源养出一支顶尖AI军团。它用阿里的思维设组织,用字节的模式建AI团队,却只能用中厂的体量去供养这个体系。当资源不足以同时供养两条线时,哪一个会最先被松手?这封内部信里没有写出的答案,也许要在接下来两到三个季度里,由财务报表和人才流失率来揭晓。不过,也不必太早唱衰。从最早的“社区优先”,到后来的“商业化提速”,再到大商业板块的整合,再到今天社区、电商、商业化三线收拢,小红书每一次调整都不甚完美,有的甚至被内部员工吐槽“折腾个遍”。但折腾本身,说明这家公司在努力寻找自己的形状。2024年小红书11周年内部信里,星矢和木兰写道:“这些现象让我深切感受到一线小红书同学们的痛,他们常常有劲儿用不出,眼看时机就这样错过。”柯南的被提拔,正是对这封信最具体的回答。在AI时代,这或许才是最珍贵的特质。技术路线可以试错,组织架构可以迭代,人才可以慢慢培养。真正可怕的不是走弯路,而是停在原地不动。 -
上观时评 | AI会取代人类工作吗?关键是这项无法替代的核心竞争力 随着人工智能的快速发展,最近一段时间,不少人开始感到担忧,自己的工作会不会被人工智能取代?假如未来机器什么都能干,我们何必再辛苦学习知识、学习技能?不可否认,如今的AI发展迅猛,写文案、做设计、编代码,辅助诊断、规划行程,有些时候看起来无所不能,一些行业的从业人员确实受到冲击。就在前几天,一位短剧演员因行业受到AI冲击,无戏可拍,只能回家种地,还一度登上了新闻热搜榜的前列。但我们也要看到,面对AI的冲击,影视剧行业中率先受到影响的恰恰是对演技等要求较低、制作比较粗糙的短剧。同样遭遇AI“入侵”的还有配音行业,一家由多位专业配音演员组成的工作室近日在接受采访时就明确表示,虽然会对AI配音侵权多发一事感到焦虑,但坚信其无法取代真人配音。两者的不同境遇再次证明,人工智能越普及,学习和掌握一门扎实专业技能,反而越能成为普通人安身立命的根本。究其原因,人工智能的本质是工具,是辅助我们高效完成工作的“超级助手”。上海有一家使用人工智能来设计服装的公司,开发的软件能让设计效率提升几十倍乃至上百倍。但人工智能设计出的服装越多,越离不开设计师的最终把关,人工智能呈现出的,归根到底是设计师脑海里的想法。由此可见,掌握扎实专业技能的人,不仅不会被取代,反而能成为AI的“指挥官”:用AI辅助创作,自己把关专业标准;用AI生成初稿,自己优化落地细节;用AI处理流程,自己把控核心环节等等。而这一切,都建立在个人的知识和技能基础上。当然,技能本身也是在不断进步的。今年9月,第48届世界技能大赛将在上海举行,本届比赛就新增了轨道车辆技术、无人机系统、智慧安防技术、软件测试等7个比赛项目。固步自封会逐渐落后直到被淘汰,不只发生在当下这个人工智能时代,而是具有普遍性的道理。这就意味着,我们每个人都要拥有终身学习的热情和能力。这才是真正的、无法替代的核心竞争力。上海星瀚汽车维修服务有限公司总部技术经理陆长云,是今年全国五一劳动奖章获得者。他所在的工作车间和人们印象中的修车场所不同,不仅格外整洁,技工们手里的检测仪器都是数字屏显、机械按键。新能源汽车大规模普及后,修燃油车出身的他,立刻主动学习起新能源车的内部结构和原理,迅速提升了自身的技能。总而言之,人工智能淘汰的不是专业技能,而是只会机械重复、不愿学习提升、无法驾驭新工具的人。学习技能的过程,本身也是在塑造终身成长的能力。AI时代知识更新速度比以往更快,单一的技能或许会过时,但学习能力、思考能力、解决问题的能力,永远不会过时。原标题:《上观时评 | AI会取代人类工作吗?关键是这项无法替代的核心竞争力》栏目主编:简工博本文作者:王闲乐题图来源:上观题图图片编辑:徐佳敏 -
大厂布局思路升级,新一波“养虾热”来袭,这次有什么不同? 3月上旬掀起的第一波“养虾热退潮后,“五一”前夕,新一轮“养虾热”再度来袭。百度、阿里、联想等大厂密集出手,开启新一轮赛道布局。业内人士表示,与第一波热潮相比,新一轮“养虾热”已跳出C端用户尝鲜式普及的浅层阶段,全面提速个人消费、中小企业办公、政企合规商用三大场景分层落地,全民“养虾”正快速升级为大厂角力、产业落地、普惠商用并行的AI生产力新赛道。大厂布局思路全面升级4月底,第二波“养虾热”强势回归。4月27日,在百度AI Day开放日上,百度文库与网盘联合发布通用智能体GenFlow 4.0,全面升级Office Agent能力,个人与团队均可在网盘内一键部署OpenClaw,将文库网盘打造为专属“AI工作台”,让AI Agent真正成为可落地的生产力工具。4月28日,支付宝上线“支付宝AI收”,帮助商家和个人开发者通过OpenClaw这类AI Agent提供商业化服务,实现按调用即时收款。这是继推出“AI付”后,支付宝在智能体支付领域的进一步布局。这也标志着,AI Agent从“能干活”迈入“能赚钱”的商用新阶段。联想则宣布,将于5月19日发布天禧AI 4.0大版本,升级重点包括智能体核心升级为天禧Claw,“端—边—云”一体架构升级,以及AI原生OS全面接管人机交互。凭借“软件+硬件+AI服务”三位一体的生态模式,联想打通了AI Agent从C端普及到B端落地的完整链路。其中,面向个人用户,联想百应围绕OpenClaw持续发力,携手美团、京东、中国移动推出远程部署服务,实现全国线上覆盖。此外,工程师线下上门与到店部署服务同步上线。联想AI服务“想帮帮”也同步上线OpenClaw部署入口,个人用户可自主选择线上一键部署或预约线下门店安装。面向政企客户,联想推出擎天Claw,提供开箱即用的AI Agent能力。围绕企业落地AI智能体的核心挑战,擎天Claw给出了系统性解决方案:在安全合规层面,通过原生安全架构、沙箱隔离、最小权限审计与内容安全扫描等多层机制,从源头规避运行风险;在企业管控层面,提供集中化管控平台统一纳管全域智能体实例,支持组织架构同步、分级授权与运行状态监控,确保规模化落地始终可管可控;在技能沉淀层面,将个人使用中形成的能力转化为可复用、可传承的企业数字资产。“硅基生产力”成核心导向第二波“养虾热”的强势回归,让AI Agent热度再度走高的同时,发展内核也完成重构。3月上旬,第一波“养虾热”突然爆发,OpenClaw凭借“数字员工”等概念快速破圈,普通用户出于好奇争相体验,线上平台与线下门店一度出现排队安装的景象。这一阶段的核心诉求是“装得上”,“养虾”快速破圈,完成了大众普及。但热潮很快消退,“卸载潮”随之而来。究其原因,一是早期OpenClaw版本稳定性不足,本地部署硬件门槛高、云端调用Token成本高;二是用户以个人尝鲜为主,缺乏明确使用场景;三是大厂多以快速上线部署服务跟进,产品轻量化、同质化严重,缺少深度定制与安全保障能力。第二波“养虾热”则呈现完全不同的发展逻辑。用户结构发生根本性转变,从个人兴趣驱动转向政企需求主导。企业不再满足于浅度体验,转而追求可落地、可管控、可沉淀的AI生产力工具,重点关注数据安全、权限管理、成本控制、业务适配等硬核指标。联想集团高级副总裁、中国方案服务业务群总经理戴炜表示:“AI正重新定义企业工作方式,但真正的挑战从来不在模型本身,而在于如何让模型能力安全、高效、无摩擦地抵达每一个业务岗位。联想擎天Claw所做的,就是为企业架起从大模型到硅基生产力的桥梁。待企业能安全、高可用地通过智能体改造生产环节,将快速迈入‘AI原生企业’之路,开启新一轮生产力革命。”围绕“硅基生产力”这一新定位,大厂布局思路全面升级:腾讯依托社交与办公生态,推出WorkBuddy与QClaw,打通微信、QQ与办公设备协同;字节跳动火山引擎推出ArkClaw SaaS平台,主打轻量化、低成本云端部署;百度聚焦移动端与普惠场景,简化操作流程,进一步降低大众体验门槛。业内人士认为,随着技术持续迭代、安全体系不断完善、行业方案日益成熟,“养虾热”将进一步褪去浮躁,回归价值本质。未来的竞争不再是“谁能养”,而是“谁养得稳、管得住、用得好、能创造价值”。以OpenClaw为代表的AI Agent,将成为数字经济时代的新型生产力。原标题:《大厂布局思路升级,新一波“养虾热”来袭,这次有什么不同?》栏目主编:秦红文字编辑:程沛本文作者:中国证券报题图来源:上观题图 -
详解 DeepSeek V4:Infra 巨鲸 “四连击”,百万上下文走进现实 系统级耦合优化比单点创新更难。 访谈丨程曼祺整理丨付自文、李清旸上周五(4 月 26 日)DeepSeek-V4 终于发布后,《晚点聊 LateTalk》第一时间邀请一线 AI 从业者详解 V4 技术报告。两位播客嘉宾,一位是 UCLA 在读博士刘益枫,他是模型架构背景,曾在 Kimi(月之暗面)和字节 Seed 实习,参与 K1.5 研发,也自己做过优化器。一位是开源推理框架 SGLang 核心开发者赵晨阳,他是 Infra 背景,目前已加入 SGLang 背后的商用创业公司 RadixArk AI。他此前也曾在字节 Seed 实习。这期我们从 V4 切入,自然而然聊地到了 Kimi、Seed、MiniMax、Qwen、智谱等中国其他大模型团队的努力和进展。关于从字节 Seed 提出的 HC 到 DeepSeek 的 mHC,再到 Kimi 的 Attention Residuals 的讨论,还有 Kimi 和 DeepSeek 围绕 Muon 优化器的改进,又或者是 DeepSeek 对北大团队开源的 TileLang 的深度使用……这些成果相互联系、彼此激发,鲜活地刻画了,一定的人才密度和竞争烈度后,开源模型社区在正迸发怎样的进步与质变。而一批中国公司,是开源大模型生态最活跃和坚定的投入者。从 R1 的一鸣惊人到如今的百花齐放,这一年多发生了太多迭代和变化。V4 的技术报告是了解这些细致且艰辛努力的一个切片。不再用 MLA、全新注意力机制:“系统级耦合优化比单点创新更难”晚点:DeepSeek-V4 发布后,你们的实际使用体感如何?刘益枫:数学推理、代码能力和 Agent 指令执行都比 V3 好不少,尤其是幻觉少得多。代码能力还是比 Opus 4.6 等闭源模型弱,和智谱 GLM-5.1、Kimi K2.6 等开源模型体验相近。同时 V4 比 V3 大很多(V3 参数为 670 B ,V4 为 1.6T),价格贵了不少。但最近 V4-Pro 输入缓存命中的价格从最初 25% 优惠上又打了 1 折,降价很猛,这让很多用户愿意尝试。晚点:正好这几天正在开 ICLR (国际学习表征会议,International Conference on Learning Representations,AI 顶会之一), 大家在会场是如何讨论 V4 和同期进展的?刘益枫:有意思的是,V4 放弃了从 V2 到 V3 使用的 MLA(注:多头潜在注意力,由 DeepSeek 提出),而目前 K 2.6、GLM-5.1 等模型依然采用 MLA。其实几个月前,大家都认为先进的开源模型架构已收敛到 MLA 了,接下来是一些小改进。而 V4 放弃 MLA、重回 MQA(注:多查询注意力 Multi-Query Attention,是相比原始注意力更低显存占用和更低推理带宽的一种改进),这说明模型架构还有很大改进空间。晚点:MLA 和 MQA 的区别是什么?刘益枫:简单来说,MQA 更接近原始多头注意力(Multi-Head Attention) 。相比 V3 的 MLA,它是一种 token-wise(词元级)的压缩机制,通过混合使用 CSA 和 HCA 实现 4:1 甚至 128:1 的大尺度压缩。这时如果继续保留 MLA,再叠加这些压缩,实现起来会相当复杂。这可能是 V4 没有继续用 MLA 的原因之一。(注:CSA 是 “压缩稀疏注意力”,HCA 是 “重度压缩注意力”。在 DeepSeek-V4 中,CSA 是先压缩序列、再做关键选择,能从长上下文中定位关键信息; HCA 是高度压缩大量 token 信息,保留压缩后的全局感知。二者交替使用,能在大幅减少计算和显存开销时,既了解全局脉络(HCA)又能抓到关键细节(CSA))晚点:RadixArk.AI 这次同时完成了 SGLang 压缩 token 信息对 V4 的推理 Day-0 适配和全参数 RL Day-0 适配。适配过程中,有哪些对 V4 变化的观察?赵晨阳:DeepSeek 仍是 Infra 的巨鲸,每年他们发布都会为 infra 优化 “续命一年”。比如说去年的 MLA、DeepSeekMoE(DeepSeek 提出的一种 MoE 混合专家模型架构,最早用在 V2 中) 等,我们扎扎实实做了一年,才能在开源框架上跑得比较好。而 V4 换了一套全新的混合注意力方案。推理侧,V4 的混合注意力、双压缩和 HashTop-K MoE,意味着前缀缓存、FlashMLA、投机解码这些链路都要重建。我们团队为接入前缀缓存和投机解码做了大量优化,拿出了 ShadowRadix、HiSparse CPU 扩展 KV,并完成了英伟达 Hopper、Blackwell、Grace Blackwell、AMD、NPU 的全平台适配。(注:HashTop-K MoE:哈希路由混合专家模型。DeepSeek-V4 在前几层 MoE 模型中引入的新型路由策略。不再依赖模型计算亲和度,而是直接通过输入 Token 的 ID 计算哈希值来固定分配专家。FlashMLA:DeepSeek 开源的针对 MLA 的高效推理算子库,专为英伟达 Hopper 架构 GPU 优化。Blackwell:英伟达最新一代的 GPU 微架构。Grace Blackwell:英伟达推出的一种新型 “AI 超级芯片” 组合形态。将 Grace CPU 与 Blackwell GPU 物理封装在了一起。)RL 侧,1.6T MoE 全参数训练对系统要求很高。六种并行策略(DP、TP、SP、EP、PP、CP)的正确性、训练与推理的一致性、indexer replay、FP8/BF16 混合采样——任何一环出错,奖励曲线就起不来。(注:indexer replay:在任务被中断后,通过直接回放历史执行轨迹或复用已有的 KV 缓存来恢复状态,避免冗余计算。奖励曲线:大语言模型在强化学习阶段的核心监控指标,反映模型在特定任务上的表现提升过程。)晚点:总结来说,你们觉得 V4 是一个怎样的成果?赵晨阳:作为工程师,我惊叹于 DeepSeek 极强的工程能力。训练时把优化器换成 Muon(矩阵级别优化器 ,能对整个参数矩阵进行正交化处理),训练精度推进到 FP4,进一步压缩显存和带宽;推理时引入 DSA(DeepSeek 稀疏注意力)、DeepEP(DeepSeek 通信效率的底层基础设施库)、Mega MoE 这一整套 Infra。这里面的每一个名词,在工程上都是巨大挑战。这种系统级的耦合优化比单点创新更难,更体现一个团队的工程深度。刘益枫:作为算法研究人员,我更佩服 DeepSeek 的艺高人胆大。不仅引进了 mHC(流行约束超连接)、起始层哈希路由等技术,还大胆使用了 CSA 和 HCA 等 token-wise 的压缩技术,创新性使用了不同于一般实践的 Muon 超参数,甚至放弃了既有的 MLA 架构。同时一如既往地在并行训练、训练精度调节等方面给业界带来新东西。V4 技术报告里的中国芯片和 “消失的成本”晚点:DeepSeek 从 V3.2 preview 到 V4,中间隔了 7 个多月,但不管是 Kimi、Qwen、GLM、MiniMax 还是 GPT、Claude,主流模型的版本号都切得越来越细,更新很密集。这背后反映了什么不同思路?赵晨阳:OpenAI 或 Anthropic 的版本号更像 “产品语言”:频繁更新是因为庞大的用户群需要持续感知模型进步。DeepSeek 版本号更像 “研究语言”,每次主版本更新都对应一次重大架构变化。这种差异由组织结构和商业模式决定。前者要求研究与产品节奏高度咬合,后者则拥有更大的自由度集中力量办大事,但也要求每次出手都足够有分量。刘益枫:模型版本命名有两种派别。DeepSeek、Kimi 的大版本号代表模型结构的重大改变;而 Claude、GPT 等模型的大版本号更多代表功能、能力改变,比如 GPT-4 融入了多模态能力、GPT-5 提高深度推理能力。这背后也反映做模型的两种不同倾向:中国的开源模型更追求工程优化;美国的闭源模型更追求提出和开辟新的能力方向。晚点:为什么 V4 的训练时间比预期更长?据我们了解,DeepSeek 原本希望春节前后发 V4。赵晨阳:具体发布计划外界无从知晓,但从技术上可以推测,V4 一次性引入了至少四个互相耦合的新东西:混合注意力、mHC、Muon 优化器和 FP4 训练。任何一个单独上线都需要大规模 debug,四个一起上的复杂度更是组合式爆炸。特别是在如此大规模的 MoE 上稳定地跑 Muon,以及真正跑通 FP4 训练,这都是非常前沿的尝试。这次 V4 博客里的一句话很好:“率道而行,端然正己。” 我还想加上《道德经》里我很喜欢的一句话:为而不恃,功成弗居。创造万物却不占为己有,功业成就却不自我夸耀。刘益枫:这次的一个亮点是 DeepSeek 原生支持国产芯片。从零开始为国产算法编写优化算子的工程量比较大,这可能是他们开发时间偏长的原因。不过在 V4 训练阶段,外界普遍推测他们用的仍是英伟达芯片。(注:V4 技术报告第三节 “Infra” 一章中提到,DeepSeek 在华为昇腾芯片上验证了细粒度并行 EP 方案的技术可行性,这说明 DeepSeek 做了国产芯片的推理适配。原文为:We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms.)晚点:晨阳提到 “率道而行,端然正己”。他们引用的是荀子《非十二子》,前面还有两句——“不诱于誉,不恐于诽”,不被赞誉裹挟,也不惧质疑和批评。刘益枫:从 DeepSeek 的致谢名单来看,离职人员比例大概在 5% 左右。相比其他公司,这个流动率挺低。所以我觉得 “不诱于誉” 不仅是公司理念,也是 DeepSeek 研发人员的心境。赵晨阳:“举世誉之而不加劝,举世非之而不加沮”,是一种很高的境界。晚点:这次技术报告和发布推文中都没再公布训练成本,为什么?V3 和 R1 引爆市场的关键之一就是 557 万美元的最后一次训练成本。(注:按参数量和训练数据量粗略估算,V4 的训练计算量可能接近 V3 的 3 倍)赵晨阳:这是一个信号,DeepSeek 不再靠 “成本叙事” 定义自己,而是用模型能力说话。刘益枫:最后一次训练成本往往是总成本的几十分之一。前沿探索和对比验证的实验成本,人力和数据成本才是主要开支。所以公布这个成本本身没太大意义。晚点:R1 当时爆火的另一个原因是,它以开源方式验证了测试时扩展(test-time scaling)的新范式。而这一次,V4 是不是并没有带来这个级别的范式变化?赵晨阳:R1 是开源世界里第一个走通 Long Reasoning 这条路的模型。V4 也是 follow 了 R1 的范式,定位是 “在这个范式下解决计算瓶颈”。我觉得 “范式变化” 在 AI 圈被说得太多了,它本来是十年一遇、甚至更稀少的事。Transformer、scaling law、RLHF(基于人类反馈的强化学习,一种对齐方式)、测试时扩展,这些是范式。但每隔半年就要找一个 “新范式” 的行业恐怕有些问题。更值得问的问题是:沿着现在的 LLM 范式继续优化,还有多少空间?上限在哪儿?我判断还有相当大的空间,但每一步都更难。V4 这种系统级耦合的工程优化,会成为接下来一两年的主旋律——大家会竞争谁能把许多分散的优化做成一个能跑起来的整体系统。这很工程,但商业价值很大。刘益枫:与其从方法论的角度解释范式变化,不如把它理解为一个新的模型能力领域,比如之前的长文本能力、agent 能力、幻觉控制能力等。提出新的能力领域,这才是目前大语言模型需要重点做、不断做的事情。现在的问题不是 “能不能做到”,而是 “我们还不知道有哪些需要做的”。从这一点来说,V4 带给我的震撼远不如 R1,甚至不如 Kimi 最早提出长文本能力时带来的感受。晚点:那你看到了什么现在还在萌芽、未来可能重要的能力方向?刘益枫:比如 AI 的 “自我意识”。目前 AI 还是人类的工具,它是否能拥有自己的意识,更自主地行动?赵晨阳:我认为有个重要的能力是 “减少推理量”。很多事情并不需要那么多推理,token 应该用在更重要的事情上。现在的模型有点儿被 infra 优化惯坏了,在上下文长度上太铺张浪费。量化看,性能与效率晚点:接下来我们来量化看一下 V4。首先是性能上,两位怎么看 V4 的 Benchmark 选取和分数表现?赵晨阳:V4 明显测了更多和 agentic 相关的 Benchmark,尤其强调工具使用、多步规划等。整个行业从去年年中开始就有这个转向:做事和完成任务比 “答得对” 更重要。这里也正好解释一下,Benchmark 大概有几种逻辑:一是离线 Benchmark,测一个问题模型怎么回答,给答案打分;二是在线 Benchmark,把同一个问题或任务发给两个匿名模型,让用户判断哪个模型更好,这通常被叫做 Arena(竞技场)。DeepSeek-V4 的技术报告里就提到,他们做了一个内部在线评测:公司里的工程师可以自行选择模型完成任务、给模型反馈。他们比较了很多模型——Claude Opus 4.5、4.6,OpenAI GPT-5.5 等。V4 的分数大概在 Opus 4.5 左右,和 Opus 4.6、GPT-5.5 还是有差距。有 9% 的 DeepSeek 工程师表示,不会将 V4-Pro 作为首选模型。这很坦诚,公司内部的采用意愿非常重要。这也引出另一个问题,可能是所有优化编程能力的模型团队都要思考的——这世界上只有极少数的公司在编程上有数据飞轮,而获取数据的最佳方式是 “被使用”。刘益枫关于数据飞轮,我有个问题想问晨阳。美国以闭源模型为主,中国以开源模型为主,这是否意味着,很多用户可能会自己部署开源模型在本地使用,中国团队更难获取实际使用数据?赵晨阳:其实不是的。开源模型上了万亿参数规模后,部署成本很高,个人无法负担,个人不可能有 H200、B200 或 910B 这种 GPU。大多数模型哪怕开源,也是 host 在第三方云上,本质还是走 API,在第三方会留下痕迹。不过据我所知,国内还是大量在用美国的闭源模型(来编程)。刘益枫目前 Chatbot Arena 上 DeepSeek-V4-Pro 排名大概在 23 ,比 GLM-5.1 和 K2.6 等都低;在 Artificial Analysis 的 Intelligence Index 的分数为 52 ,也比 Kimi、Mimo 低。晨阳怎么看这个表现?(注:访谈发生于 4 月 28 日,到 5 月 1 日,V4-Pro 在 Chatbot Arena 上的排名为超越了 K2.6,仍低于 GLM-5.1。) 北京时间 5 月 1 日 19 点,Chatbot Arena 的排名。 赵晨阳:选择某款模型是需要一定信仰的,我愿意为了我的信仰无视这些分数。(笑)刘益枫:确实,刷榜不是目的。赵晨阳:体感上,一流模型的能力已经很难区分。在非常微小的差距里排先后意义不大。我一直用 Claude Code,有一天我们公司的 Claude 因账单原因被下线,我就去用了 Codex。我发现,离开了 Claude,外面的世界完全没有下雨。晚点:前面我们讨论了性能,效率上,V4 技术报告里提到:在百万级上下文中,DeepSeek-V4-Pro 的单 token 推理 FLOPs(衡量计算量,对应计算资源) 是 V3.2 的 27%,KV 缓存占用(对应存储资源)是 V3.2 的 10%。这个效率提升程度属于行业正常水平还是比较惊人?赵晨阳:V3.2 发布时,DeepSeek 提到,即便大幅降价,他们自己的推理服务仍有利可图。不过需要注意的是,这种提升有一个重要前提:上下文越长、优势越明显。如果只是几千 Token 的输入输出,效率提升并不显著。当然,现在的实际使用中,几千 Token 可能连 system prompt 都打不住,所以日常使用的感受应该挺明显的。晚点:这是不是也意味着,V4 的效率优化对 Agent 场景很有用?因为处理多步复杂任务的 Agent 框架是需要很长上下文的。赵晨阳:是的,Agent 会很有收益。刘益枫:不过,也有用户反映,V4 在解决同一个问题时,token 消耗比之前要大了。这部分抵消了效率优化的体感。晚点:这就是晨阳刚才说的他认为需要提升的能力 “减少过度推理”。为什么模型更新后,解决同一问题的推理 token 消耗反而变多了?赵晨阳:我之前在小红书发过一篇文章,说现在的 token 浪费有种 “拿高压水枪浇花” 的美感。模型会诚实地反映训练数据,token 消耗变多,说明在训练中确实存在用更长上下文解决相同问题的情况,这些吐出来的回答可能又成为训练的材料,这就形成坏循环,解决同一个问题需要的 token 越来越多。刘益枫:其实这个问题一直存在,之前大家就在想解法,比如 K1.5 的报告里的 “长度惩罚”,当回答同一问题时,会惩罚更长的回答。但即便如此,这个趋势仍不可逆地发展,因为对各个团队来说,优化模型解决问题的能力还是会优先于优化推理的简洁。V4 的具体创新和改进:Infra 巨鲸的四连击整体思路:极致的稀疏晚点:DeepSeek-V4 仍然是一个 MoE 模型,但前面也提到,这次模型架构和 Infra 都有较多变化。你们怎么理解 V4 的整体架构思路?赵晨阳:V4 整体保留了 DeepSeekMoE 框架和 MTP (Multi-Token Prediction,即 “多 token 预测”,允许模型一次性预测多个 Token)策略,但在四个层面做了改造:注意力,用了混合稀疏注意力;残差,使用了 mHC;优化器,在这么大的模型规模上使用了 Muon;以及 infra 的变化,其中两个关键词是 TileLang 和 FP4。这四件事的共同主题是:让 1M 上下文从 “理论可行” 变成 “成本可接受”。刘益枫:V4 进一步提高了稀疏比,这对算法和底层算子开发,尤其是训练阶段的算法和算子提出了相当高的要求。它需要保证 MoE 的各专家之间训练程度的平衡及 token 路由的平衡。另外一个创新是在前几层 MoE 中用了哈希路由,来分配 token 到各专家,从算法上避免前几层专家路由高度集中的问题。此外,DeepSeek 这次没有在 V4 上应用 Engram(DeepSeek 2026 年 1 月提出的条件记忆技术)。一方面可能是因为 Engram 对性能的提升有限,但对部署又有较大挑战。另一方面,基础模型在训练过程中也会自动学习 N-gram(连续 N 个 token 组成的局部片段,可以理解成一些常见表达、固定搭配,模型训练中会自然学到这些短程上下文) 能力,Engram encoder 更多起到辅助和信号加强作用。赵晨阳:这次 V4 的激活比(激活参数比模型总参数)确实是这一波模型里最低的。V4-Pro 是 1.6T 总参数下,激活参数 49B,也就是约 3%,比先前已经很低的 Kimi K 2.6 更低。总参数越大、模型容量越高;激活参数越小、推理成本越低。MoE 的核心价值就是把这两个量解耦,而 V4 把这种解耦推到了目前业界最激进的位置。晚点:正好这里补充一组数据,在激活参数比总参数的比例上,DeepSeek-V4-Pro 刚超过 3%,而 V3 时是 5.5%。其他近期模型中,K 2.6 是 3.2%,MiMo-2.5-pro 是约 4.1%,MiniMax M2.7 是 4.35%,GLM 5.1 是 5.3%。 赵晨阳:这一连串数,大家可能听起来像在雕花,但很反映工程能力,从 4% 降到 3%,比从 5% 降到 4% 要难得多。不是说其他团队做不到,而是大部分团队会选择稳扎稳打,DeepSeek 选择继续推到极限。当然,激活比也不是越低越好。比例太低会带来负载不均、专家训练不充分、路由抖动等问题。DeepSeek V3 就讨论过,路由负载均衡是否应该纳入 loss(损失函数)。能把 3% 的激活比例稳定训下来,本身是工程能力的证明。注意力机制:CSA 和 HCA 如何组合工作晚点:2025 年年初 DeepSeek 提过 NSA(原生稀疏注意力),同年 9 月又在 V3.2 上用了 DSA,这次则是使用了组合 CSA 和 HCA 的新的混合注意力机制。这次的核心改进是什么?主要解决什么问题?刘益枫:V4 的每一层都同时跑滑动窗口注意力(SWA)和一种长距注意力(CSA 或 HCA)。CSA 是稀疏路线,在序列维度做 4:1 压缩后再做 top-k 选取;HCA 更激进,做 128:1 的压缩,但保持稠密注意力。(4:1、128:1 是指把 4 个 token 聚合成一个表示和把 128 个 token 聚合成一个表示,所以说 HCA 的压缩更激进)每层用 CSA 还是 HCA 是预定义的,因此面对同一个长上下文,不同层会从不同视角去看——稀疏层(CSA)精确锁定关键 token,稠密层(HCA)提供整体语义概览。晚点:这套新的注意力机制对 Infra 的影响是?赵晨阳:改动还是挺大的。对 RadixArk 和 SGLang 来说,适配这个混合方案的复杂度主要是前缀缓存的一致性。所以我们设计了 ShadowRadix 来应对——三个异构 KV 池(SWA / C4 / C128)加两个压缩状态池,要在预填充、解码、投机解码三个阶段保持同步。这是 V3 时代不需要解决的问题。(注:预填充,Prefill,指在推理的初始阶段,模型一次性并行处理用户输入的整段 prompt,计算并生成已知文本的 KV 缓存,快速吃透内容。解码,Decode,是常规生成阶段。模型用预填充阶段产生的缓存,开始自回归地生成回答,一般解码是逐个 token 吐出的,这是推理的速度瓶颈。投机解码,Speculative Decoding,是加速解码的技术。它不再逐个 token 生成,而是一次性 “猜” 出多个未来的 token 并交由主模型批量验证,可大幅提升速度。)此外,我们最近发的 HiSparse 把稀疏注意力的 KV 卸载到主机内存,在长上下文场景能拿到 5 倍吞吐。V4 这种把计算 / 显存成本压到 27% / 10% 的模型,要在生产环境跑出商业价值,就需要 ShadowRadix、HiSparse 这类底层能力的同步推进。优化器:Muon 已成检验大模型团队工程能力的试金石晚点:V4 里还有两个很重要的变化,一是残差上,使用了 DeepSeek 去年底提出的 mHC,一是业内现在已用得比较多的 Muon。先说优化器。过去大模型训练的主流优化器是 AdamW,但从去年到今年,Muon 开始被越来越多的前沿模型采用——OpenAI 在 2024 年底招募了 Muon 的开发者 Keller Jordan;Kimi 2025 年年初开始发布 Muon 的改进版。能否先简单解释一下,优化器在大模型训练里起什么作用?Muon 相比 AdamW 的核心优势是什么?刘益枫:一般深度学习网络的训练过程,就是让模型通过损失函数的梯度下降信号不断更新权重,当权重更新到一个状态,模型能稳定达成设计目标了(比如预测),就是训完了,得到了稳定的权重。但由于模型结构、数据分布等差异,普通梯度下降不太适合大语言模型这类深度神经网络,所以后来出现了 Adam、AdamW 等带动量和预条件机制的优化器来帮助训练。AdamW 本质上结合了动量和更新量归一化两类技术。动量可以让更新更平滑,归一化可以让每一步更新的 scale 更统一,从而稳定训练。但 AdamW 是元素级别的优化,也就是对每一个参数单独更新。Muon 的核心区别在于,它是矩阵级别的优化。对于线性层这类二维参数,它本质上是矩阵乘法,Muon 会把整个矩阵作为整体进行归一化和优化,这能更好地利用矩阵中不同元素之间的联系,让矩阵内不同元素的优化步调更一致,进一步提升训练效率和推理能力。晚点:从 Keller Jordan 在 2024 年 10 月提出 Muon 到它后来变得更主流,这个过程是怎样的?刘益枫:2024 年底 Muon 刚被提出时,对使用者并不友好。它需要针对不同模块,如线性层、输入嵌入层分别调学习率(learning rate,控制模型每次更新参数幅度的核心超参数,太大容易不收敛,太小则训练极慢),我们当时也第一时间跟进了。到 2025 年初,Kimi 提出 Moonlight 的改进。因为 Muon 是基于矩阵更新的(矩阵是二维的)所以训练时涉及一维参数的部分仍会用 AdamW,这就有一个二者之间的学习率的比例问题。最初 Jordan 没有确定 Muon 和 AdamW 的学习率比例。Moonlight 的重要贡献是把这个比例基本确定为 0.2,这样使用者只需设置一个学习率超参数就能适配整个模型。这让 Muon 从理论创新走向了大规模应用。晚点:可以说,是 Kimi 的 Moonlight 和 MuonClip(在 2025 年年中的 K2 中,Kimi 进一步改进 Muon 的版本)改进让业界开始更广泛使用 Muon 了?刘益枫:对。DeepSeek V4 的进一步改进是,它没有用 Kimi 找的超参数 0.2,而是自己算了一个更精确的 0.18。Muon 最开始用的是牛顿-舒尔茨五次迭代(一种用于矩阵归一化或求逆的数值迭代方法),这是一个近似过程。而 V4 采用了十次迭代近似。每多一次迭代会提高计算消耗,但精度会更高,整体速度可能反而更快。晚点:优化器的变化需要 infra 上做什么调整和配合?赵晨阳:推理侧不需要关心,因为不涉及参数更新;训练侧一定要做适配,而且是大工程,整个开源链条要从英伟达的 Megatron 或 Megatron-Bridge(英伟达发布的工具库,主要用于在 Hugging Face 和 Megatron Core 格式之间无缝转换大模型权重,并提供高性能分布式训练框架)这一层开始改,再一层层往下传。闭源训练引擎怎么实现 Muon 我就不清楚了。刘益枫:Muon 是矩阵层面的优化,会涉及大量矩阵乘法。如果某个矩阵很大,就需要大量拆分,甚至分布式训练。AdamW 不一样,它是每个元素单独更新,元素本身可以无限拆分。所以这是 Muon 特有的 infra 问题。另外,预训练和后训练的优化器基本要保持一致。而后训练的 infra 结构更复杂,可能单机装不下,所以后训练适配 Muon 会带来更多结构修改。晚点:现在还没有用 Muon 的大模型,是认为 AdamW 仍有优势,还是没来得及改?刘益枫:大部分模型都改用 Muon 了,但也有一部分不太清楚。比如千问就没有特别提及用的什么优化器。我个人认为,没改的是没来得及改。尤其是后训练要如果要用 Muon,infra 会很难改。后训练没改成,又会导致预训练就也只能用 AdamW。晚点:是否使用 Muon,是现阶段判断一个模型团队 infra 能力的指标之一吗?刘益枫:可以这么说。但即便是用 Muon 的模型,在输入和输出这种模块还是得用 AdamW。赵晨阳:我非常认可益枫说的,优化器是检验一个团队工程能力的试金石。但关于 AdamW 需不需要拆分倒不一定,这取决于模型体量。模型大到一定程度,不可能完整部署在任何一个节点上,所以 Muon 和 AdamW 都需要复杂的并行策略,Muon 只会更复杂。AdamW 会同时维护动量和速度两个 state,很多操作是元素级别(element-wise)的,切分相对简单。比如 ZeRO stage(显存优化技术)、FSDP(将模型参数、梯度和优化器状态完全打散分配到整个 GPU 集群中的训练技术)、TP 对齐(确保被切分的矩阵维度大小能够被参与并行的显卡数量整除的技术) 的逻辑都更简单。Muon 的优势是砍掉了二阶动量,optimizer state (优化器在更新权重时需要持续记录的内部历史数据)从两倍降到一倍,能节省相当多显存。但它在动量上跑完牛顿-舒尔茨迭代后,还要做正交化。这就不是逐元素过程了,而是更复杂的矩阵计算,必须拿到完整的二维权重。如果参数已经被 TP 或 FSDP 切碎,就要先聚合回来再计算,涉及很多分布式原理。所以可以看到,Kimi 的 K2 只在数据并行(data parallelism)层面做切分,没有在张量并行上做切分。现在优化器层已经进入一个非常混杂、复杂的状态,有 Muon 也有 AdamW。Muon 不是简单替换 AdamW,而是用大量人力和工程复杂度换取大量显存和收敛效率。这笔账值不值得,取决于团队的工程水平、显卡数量和模型规模。刘益枫:而这里每个专有名词背后都可以对应一篇文章。残差连接方式:Seed、DeepSeek、Kimi 的激发与碰撞晚点:聊完优化器,来聊聊 V4 的残差连接方式。这次 DeepSeek 引入了 mHC,这是一个怎样的改进?刘益枫:mHC 之前,字节 Seed 先提出了 HC(Hyper-connection,超连接),思路是扩展层与层之间的信息流宽度。以前的 Transformer,层之间只有 d 维的信息流宽度;但现在是 d 维上加了 channel 维,信息流宽度变成 d x c,推理能力显著提升。不过原本 Hyper-connection 的数学原理导致梯度回传和训练不稳定,所以 Seed 发了这个成果后,社区反响并不强烈。而 DeepSeek 的 mHC 加入了 Sinkhorn 算法(一种数学归一化算法),主要用于约束路由和注意力分布,使其更均衡、数值更稳定,能在一定程度上改善训练过程的稳定性。这个改进既需要对 HC 的潜力判断和细致分析,又需要基于内观指标,如梯度的 scale、激活值,从现象倒推怎么解决这个问题。补充一点,Kimi 也刚刚在 3 月初提出了 Attention Residual,它有点像 DenseNet(主要用于 CNN 卷积神经网络的一种密集连接结构,每层与之前所有层直接连接),直接跨层相连,第一层可以直接影响最后一层。mHC 和 Attention Residual 方法不同,但有异曲同工之妙——都是 layer-wise(层级别)地改进信息流。晚点:这两种方法的区别是什么?你认为哪种上限更高?刘益枫:实验室更倾向搞 mHC,因为资源有限,mHC 的 Infra 实现更简单。Attention Residual 对 Infra 的要求更复杂,它对每层之间关系有一个更精确的描述,我认为它的上限可能更高。晚点:mHC 对推理框架的影响是什么?赵晨阳:mHC 把简单添加残差这件事变成了一个需要混合 GEMM(通用矩阵乘法,深度学习中最核心、最密集的数学操作)和 Sinkhorn 归一化的复杂操作。带来的挑战是:先前的算子对于 mHC 不够高效,我们需要为 mHC 单独写一些新的 kernel(算子核,可以简单理解为直接给 GPU 发的指令代码,告诉芯片底层怎么做基础运算)。为新算法定制新 kernel 在 V3 之前并不频繁。但比较欣喜的是,我们现在有了更多、更好的工具,如 TileLang。Infra 两个关键词:TileLang & FP4晚点:正好你提到了 TileLang,接下来就是想聊 DeepSeek-V4 报告里 infra 部分使用的 TileLang 语言和 FP4 训练精度。简单来说,这两个东西是什么,作用是什么?赵晨阳:先说 TileLang,我喜欢叫它 “太浪”,听起来像拳击大师的名字。infra 要做的是在计算路径相同的情况下加速计算。比如写 kernel,就是结合底层硬件特性优化计算。同样一个 4096 乘 4096 的矩阵,可以按 128 拆,也可以按 256 拆。不同硬件的显存、带宽不同,适合的拆分方式也不同。总之 kernel 就是让底层的矩阵计算更快。写 kernel 的语言,通常大家会对比 CUDA、Triton 和 TileLang:CUDA 是英伟达的护城河,性能最高,但开发和维护成本也最高。Triton 由 OpenAI 开源,它降低了写 kernel 门槛,但牺牲了一些表达能力和性能。同一个 kernel 用 Triton 写,效率可能比 CUDA 低不少。TileLang 走在中间,是北大团队发起的一个项目:它比 Triton 更底层、表达能力更强,又比 CUDA 更好用,是国内发展起来的优秀开源项目。V4 报告提到,他们可以用 TileLang 把一些 kernel 的启动开销压缩到微秒级,也提升了 “位级可重现”,就是一个 prompt 输入给 V4 后,如果用 TileLang,两次前向推理(神经网络从输入到输出的计算过程)的结果更容易复现,这对推理工程师 debug 很有帮助。TileLang 的长期价值是大大降低了为新算法快速开发新 kernel 的边际成本。DeepSeek 提出 mHC 时也写到,他们为 mHC 做了一版 TileLang 的 kernel。我们 SGLang 团队也针对推理场景的小批量解码做了 split-K(把矩阵乘法中的 K 维度拆开并行计算,以提升小批量场景下的硬件利用率)的 TileLang 版本。最近一年半,TileLang 已开始被全球前沿 lab 当作算法实现的默认选择之一。以前做编译器这一层很苦,但现在大家也看到了它的重要性。晚点:你提到编译器和 DSL 底层语言,让我想到五年前采访鸿蒙当时的负责人王成录,他提到十年前想做操作系统时,在国内很难招到会汇编语言的人才。赵晨阳:做编译器一直是非常伟大的事业,但也很苦、离商业远、不被关注。晚点:TileLang 最初是北大杨智老师团队发起的,后来也有很多社区贡献。那如果 TileLang 这类开源生态越来越繁荣,和 CUDA 长期会是怎样的关系?是更丰富 CUDA 的生态还是形成竞争?赵晨阳:很难说。就像模型厂商会发技术报告,大家彼此借鉴,但也存在竞争。刘益枫:TileLang、Triton 和 CUDA 的关系,有点像 C++ 和汇编语言,或者 Python 和 C 的关系,是不同层级的语言,CUDA 更底层。晚点:那 TileLang 也可以用在其他芯片厂商更底层的软件系统上?赵晨阳:是的,事实上很多中国硬件厂商正在主动支持 TileLang 生态。晚点:可以说 DeepSeek 在 TileLang 的投入比别人更多吗?V3.2 里就开始用了。赵晨阳:只能说他们投入很多,但不一定比其他人更多。其他公司披露的内部技术实现有限。晚点:这次的另一个变化是训练时的浮点数精度格式从 V3 的 FP8 变成了 V4 的 FP4。这是怎样的演进思路?赵晨阳:FP4、FP8、BF16、INT4 等等都是数值格式,数字代表存储位宽。比如 BF16 就是用 16 位存一个浮点数,FP4 只用 4 位。DeepSeek-V3 是第一个把 FP8 做到大规模模型上的工作,到了 V4,他们又实现了 FP4。再往下会不会有更激进的优化和压缩?非常值得期待。减少存储位宽的好处是减少峰值算力,同时提升显存容量和数据读取效率。但位宽太小也会导致训练中梯度溢出或归零。DeepSeek 为了解决 FP4 训练问题,在预训练和后训练上都用了很多工程巧思。我比较熟悉的是 QAT 量化感知训练(训练时模拟量化误差以适应低精度部署)。DeepSeek 在后训练里做了 quantization-aware training,即训练时模拟量化、采样时真实量化。强化学习可以看成两个阶段:先采样,模型生成回复;再打分,把结果拿去训练。训练阶段,优化器维持 FP32 主权重,计算前先压缩到 FP4 范围,再无损反量化回 FP8 计算。这个伪量化过程没有真正前向计算,但会体现量化误差。之后再用 block-wise 的 scale points(缩放系数点,用来校准量化范围)兜住离群点(数值异常偏大的参数或激活),让模型提前适应低精度损失。采样阶段则做真实 FP4 量化,把 FP4 权重真正用于采样,降低访存瓶颈,实现物理提速。更重要的是,这和后续模型部署一致。现在 DeepSeek 发布的 checkpoint(模型权重文件)也是 FP4,训练中采样用的权重就是最终发布权重,而不是先训练 FP8 再量化成 FP4。这样损失更小,也提升了强化学习效率。强化学习里,模型越大、token budget(单次推理可生成的最大 token 数量上限)越长,采样越重,可能占到 70% 以上时间。采样时降低位宽和显存读取压力,对速度提升很明显。所以训练时伪量化、采样时真实量化,在 DeepSeek 论文里有很强体现。Kimi 的 K2 也用了类似思路。我们 SGLang 的 RL 团队去年也做了两个相关工作:FP8 全流程强化学习,训练和推理都用 FP8;还有 INT4 的 QAT。INT4 和 FP4 不完全一样,但也属于激进压缩方案。实事求是地说,在开源领域,我们团队的量化 RL 做得比较领先,但和 DeepSeek 还有差距。我们的 INT4 量化感知训练,采样做的是 W4A16,也就是权重 4 位、激活值 16 位,DeepSeek 做到了更极限的 W4A8。极致性能上,他们走得更远,这也是我们接下来要继续攻坚的方向。晚点:如果 DeepSeek 把官方推理框架开源,它和其他开源推理框架会是什么关系?赵晨阳:这涉及开源和闭源推理框架的哲学区别。开源推理框架是众口要调,不只支持 DeepSeek,也要支持小米、智谱、MiniMax、Kimi 等模型。这种整合性,是它和闭源内部推理引擎的重大区别。晚点:它给开发者或用户的价值是什么?赵晨阳:最大价值是满足很多公司本地部署推理引擎的需求,而开源推理引擎的性能提升,也会反过来促进闭源推理引擎。训练上也类似。闭源仍领先不少,但开源能让整个领域更透明。以前开源框架对 RL 的适配负担很重,一个模型 2 月上线,可能到 5、6 月才有开源 RL 框架能跑起来。这次 SGLang 在发布当天就支持了 V4 RL 适配。RL 和推理关系很近。推理是不带参数回传的前向传播,强化学习则重在采样,采样后做参数回传。我们还是很高兴能在这么大的 MoE 模型上同时做好推理和 RL,并把一致性做到极致。我也预见到,FP4 已经正式走出硬件厂商的 PPT,成为开源语言模型世界里真正跑通的工业标准。晚点:目前在这么大规模的开源模型里,FP4 是不是只有 DeepSeek 用了?赵晨阳:OpenAI 的开源模型 gpt-oss 也是,但大家技术选择不完全一致。只能说 FP4 是全世界都在努力的方向。刘益枫:英伟达的开源模型也用 FP4 。Blackwell 卡也是支持 FP4 的。后训练:多专家训练 + 蒸馏的后训练晚点:DeepSeek-V4 报告最后两部分讲了训练过程,包括预训练、后训练和测评。这个部分有什么亮点吗?刘益枫:一个亮点是预训练先分裂专家,再做 on-policy distillation(在线策略蒸馏,指在当前模型实际采样分布上进行蒸馏,而不是只依赖离线固定数据)。最近大家又都在研究 on-policy distillation,但各家做法差别很大。蒸馏的话,之前 DeepSeek-V3 和 R1 都实践过,但 V4 是先训练一些小专家,再把这些专家学到的技能蒸馏出来,节省参数量。训练中,专家越多,容量越大,但参数量和显存要求也越高。所以先让专家学好,再提取专家精华,从而提高最终模型能力。赵晨阳:他们做的是多专家训练,本质是在解决多目标优化问题。而同时优化目标的个数,是智力上限的体现。联合训练就相当于在多目标 loss surface(损失曲面,损失函数在参数空间的几何形状)上找 Pareto 最优(帕累托最优,无法在不损害其他目标的前提下进一步改善任意目标的状态),但工程里很难同时找到,因为梯度走向复杂,目标冲突严重。比如一味 push coding 能力,数学可能变差;数学修好了,指令遵循可能又受影响。现在先分裂再蒸馏的做法是:在各个目标上找局部最优,再让一个学生模型拟合多个教师模型的输出分布。这有点像数学插值,把复杂 loss surface 上的联合优化,变成在已收敛离散点之间做插值,工程上更稳定可控。业界之前也有类似尝试。Qwen 在 post-training 阶段提过 multi-stage(多阶段训练或聚合)的专家聚合,学术界也一直有模型聚合、模型 Spawn(从已有模型派生或扩展新模型)这类技术。硅谷前沿闭源模型大概率也有类似思路,只是披露有限。开源生态是这一波中国实验室对 AI 领域的实质贡献。晚点:关于测评部分,前面已有部分讨论,还有什么补充吗?赵晨阳:有一位 NLP 领域很知名的研究者说过一句话:We cannot optimize what we cannot evaluate,“如果一个东西我们无法评估,我们就无法优化它”。所以我更愿意把这件事叫 eval(评估),而不是 benchmark(测评)。测评面向的是具体任务,发布一两年后就可能过时。但评估永远存在。现在评估也越来越难,因为场景越来越复杂。比如 Claude Code 更新后,常有人说某些方面变差了。我也在想,这类工具到底怎么评估一个 feature 要不要更新?因为做 Agent 的人有很多想法,每个听起来都有道理,但不可能全都满足。东西加得太多,体验反而变差。整个行业必须把评估做好,否则很容易陷入自欺欺人的循环。晚点:Opus 4.7 更新后,很多人还是认为 4.6 更好用。赵晨阳:现在有个词叫 vibe checking 或 vibe benchmarking。大家已经很难判断模型好坏,只能根据有限几次对话说:以前 4.5 能做的任务,为什么 4.7 做不好?我们已经进入 benchmark 的可信危机。很多模型在 benchmark 上都是 90 多分,但实际差异很大。所以这一代针对智能体能力的评估还没有形成共识,行业还需要更好的评估基建。刘益枫:我觉得更重要的是发现和提出新的领域能力,比如 Agent、长程注意力能力。晚点:V4 是不是没有提出什么新的领域能力?刘益枫:对,这也是它没有那么令人震惊的一点。赵晨阳:但有一点值得欣喜:这几代模型没有明显退化,之前做得好的任务,后面没有变差,这很难,代价是模型上下文长度已非常夸张。讲到测评基准,去年 DeepSeek-V3 发布时,我有一篇 ICLR 论文,评估语言模型在 GitHub 上面对刁钻审核者,提交 PR 并合并的能力。它和数学竞赛、SWE-bench(主流代码能力基准)很不一样,这个任务在完成编码后,还要和审核者做多轮修改沟通,再把代码合并进去。我很欣喜自己做的 benchmark 得到了更多认可,即便今年已经被刷满了,但至少成为了 ICLR oral paper(会议口头报告论文,代表较高认可度)。比如最近我比较关注的一个基准是 ClawBench,就是评估 OpenClaw 场景下,用户对模型的满意度。我也希望到明年,这种类似个人编程助手的 benchmark 能被刷满。之后肯定还会有新挑战和应用。美国追新能力、高定价;中国追性价比、工程极限晚点:最近模型更新密集,从 3 月底到现在,有小米 MiMo 2.5、GLM 5.1、MiniMax 2.7、K 2.6、Opus 4.7、GPT-5.5 等等。你们觉得大家现在努力的共性是什么?刘益枫:开源模型的方法和架构在趋同。基座基本都是 MLA,优化器也类似,之前大家用 AdamW 或者 AMSGrad(Adam 的一个变体,通过保留历史二阶矩估计的逐元素最大值,限制自适应学习率波动,从而改善收敛稳定性),现在陆续转向 Muon 或基于 Muon 微调。在能力上,Agent 是开源和闭源模型共同重视的方向。大家发现,未来模型商业化可能更多是给 Agent 提供 token,而不是只靠订阅。赵晨阳:到底做订阅制,还是 token by token 计费?我更倾向订阅制,同时额度用完再收 token 费。实际上大部分用户用不完订阅额度,所以订阅制可能更赚钱。刘益枫:但很多公司转向按 token 计费,也是因为现在订阅的价格真的扛不住。高了没人买,低了又亏。赵晨阳:这确实没有定论。比如 Claude Code 这么成功,但到底盈利情况如何?晚点:如果今年底 Anthropic 真启动 IPO,应该能看到财务数据。现在很多视频生成产品是你说的订阅加实际消耗,订阅满额度后再额外买积分。影视从业者有刚需,客单价也比想象中高很多。赵晨阳:商业上我很喜欢视频生成的生态。但坏消息是,开源视频生成模型和闭源差距很大。晚点:好像也没有太多人愿意开源视频生成模型,这是不是侧面说明它确实挺赚钱?迄今比较先进的开源视频生成模型仍是阿里的通义万象。赵晨阳:我最近做语音生成模型,也发现开源模型相比 GPT-4o 那个时代的模型仍有不少差距。这些模型可能是很赚钱。刘益枫:视频模型用户粘性也特别大。相比语言模型,视频生成模型可能更适合订阅制。晚点:现在关注度基本被 coding、通用 Agent 吸走了,因为竞争焦灼,也都是大公司。但视频或更广义的 AIGC 可能更创业友好。语音也是,像 ElevenLabs 也在自己的空间里持续发展。以上是各家大模型的共性。那你们观察到各家的差异是什么?赵晨阳:开源模型里,DeepSeek 和 Kimi 取向比较接近,工程和创新性都做得比较极限,比如大 MoE、低激活、长上下文和极致成本优化。GLM、Qwen、MiniMax 则在 RL 训练端、长上下文落地上有扎实积累。还有小米,MiMo-V2.5-Pro 在 Arena 上的分数比 V4 还高。竞争非常激烈,当然这也给开源推理引擎带来很大工作量。晚点:阶跃和混元呢?赵晨阳:阶跃在多模态上发力很早,而且我认为多模态远没有饱和。混元最近由姚顺雨掌帅,新模型虽然还不在 1T 以上模型的牌桌上,但在 300B 规模上做得很扎实。现在是 3.0 Preview,如果之后上 Pro、进微信端,格局会很有意思。晚点:中美之间的区别是什么?刘益枫:总体来说,美国模型更追求领域创新,比如长上下文、多模态融合、Agent 能力,或者像 OpenAI 刚发的 image-2 这种跨跃性能提升。中国模型更侧重性价比。同等能力下,中国模型收费比美国模型低一个数量级。这和中国充足的技术人员储备、有限的算力资源都有关。赵晨阳:我之前在 Amazon AGI SF Lab 实习过,也和益枫在字节 Seed 实习过。美国这一代模型的重点是面向智能体的长程任务能力,比如 Claude Code,在多轮 agentic coding 上进步很大。可以想见 RLHF、RLAIF(基于 AI 反馈的强化学习,用 AI 生成的评价或偏好信号来训练、对齐模型)这些对齐方法经过几年积累,已经形成很强的数据闭环。中国团队的强项是架构创新密度和工程完成度。V4 报告里一次性把混合稀疏注意力、mHC、Muon、FP4、TileLang 这么多事情全部换掉并跑通,这种决心和执行力很罕见。中美路径和风格不同,但行业在螺旋上升。晚点:美国模型好像没有做得那么稀疏,他们不太追求这个。刘益枫:美国算力相对多,也不一定要这么稀疏。太稀疏会牺牲一些能力上限。赵晨阳:这也和美国缺少高质量的工程人才有关。晚点:所以美国 AI lab 更倾向于先冲性能。反正模型贵也有人买,之后再考虑降成本。赵晨阳:对。很多人批评中美大搞 AI 竞赛,但我觉得很遗憾,只有中美能搞竞赛,没有其他国家玩得起这一波比赛了。晚点:V4 或最近这些新模型,会对你们接下来的研究方向和具体工作产生什么影响?刘益枫:如果在公司实习,我会想做 CSA、HCA 这类 token-wise 压缩的长文本方向。但实验室资源有限,很难做长文本,所以我倾向研究 Hyper-Connection、 Kimi 的 Attention Residual。这可能类似从 ResNet(残差网络,通过跨层捷径连接缓解梯度消失问题的经典视觉架构)到 DenseNet 的变化。对 Transformer 架构来说,也可能会出现提高层间信息流动的新趋势。另外我也在做优化器。DeepSeek-V4 采用了不同超参数。Muon 怎么进一步改进、超参数怎么设定,都值得研究。Keller Jordan 的五步牛顿-舒尔茨迭代,和 DeepSeek-V4 的十步牛顿-舒尔茨迭代哪个更好,值得继续探索。赵晨阳:我之前的一个研究是评估多轮 Agent 在 GitHub 上提交 PR 时的真实表现。现在我需要把它用起来。因为维护开源工具时,会收到很多 AI 生成的 PR,我需要把研究里的标准内化到工作中,判断哪些 PR 靠谱、哪些应该毙掉。另外我最近做语音模型,它的工程优化比语言模型差很多,很多语言模型里的工作都可以在语音模型上重试一次。DeepSeek 这版做了很优秀的 PD 分离(Prefill-Decode 分离,将计算密集的预填充阶段与访存密集的解码阶段分配到不同硬件以提升整体吞吐)、MTP 等工作。语音模型未必用得上 PD 分离,但 MTP 很关键。比如现在和豆包语音对话,它语音吐出的速度很快。但开源模型在这方面还没做到这么好。晚点:最后想问两位,再过一两年来看,V4 最可能被记住的是什么成果或者思路?刘益枫:从算法层面看,可能是 token-wise 的极致压缩。之前大家更多是在 KV-cache 上做单 token 降维,比如 MLA 的先降维再升维。但 token-wise 压缩,应该是 V4 首先应用到了工业级模型上。赵晨阳:我和益枫观点类似。长上下文、极致低激活比例、低单 token 成本这个组合,无论从架构层面还是基础设施层面看可能都是 V4 的持久遗产。具体到 mHC 或混合注意力,未必会一直以现在的方式。它们可能像 MLA,是某个阶段的最优解,过一两个周期后会被更优雅的方案替代,当然硬件也会反过来推动迭代。但 DeepSeek-V4 率先验证的这套工程配方,会成为后续很多开源大模型的默认起点。在这个意义上,DeepSeek 一直是开源模型的参考基准。更多技术讨论,可联系两位播客嘉进一步交流:赵晨阳(wechat:LoveDeathAndLLM)、刘益枫(wechat:lauyikfung20)题图来源:PinkPantheress-Romeo -
机器人订单大幅增长 “数智帮手”多领域密集上岗 来源:央视新闻客户端在福建福州,第九届数字中国建设峰会的现场体验区在“五一”期间向公众持续开放,超6000项技术、产品及落地项目集中亮相。记者在现场发现,从场景切入,不少领域的“数智帮手”正在加快上岗。迎宾、跳舞、写书法,福州本土企业带来的全场景机器人活跃在各个展区。记者发现,一款智能机器狗被孩子抚摸后,就能像真的宠物狗一样,做出打招呼、蹲下撒娇等动作,还能在语音互动后,展示后空翻等特技。 参展商 邢思嘉:聚焦居家老幼看护,在云端搭载了专用的智能大模型,新增了电子皮肤衣等触觉感知新技术,还能够像真的宠物狗一样自如交互。 各种各样的“数智员工”正在加快上岗,工业是一个重要的应用领域。在这个展区里,“数智员工”在接受“岗前培训”,在模拟产线上精准完成从取料、生产到运送的全套物理动作。记者还注意到,一些参展企业还现场演示了具身智能机器人应对非标准化生产场景的训练过程,可以将各类工业零件分门别类放置,还能完成不同产品的包装任务。 参展商 来健强:比如说汽车制造、3C电子、食品加工等行业,有大量的具身智能机器人需求。我们今年接到的机器人订单比起去年至少有30%的增长。 -
美国加密货币立法关键妥协达成:稳定币收益条款破冰 《清晰法案》即将提速 智通财经APP获悉,在经历了数月的激烈博弈后,美国加密货币市场结构立法终于迎来重大突破。参议员Thom Tillis与Angela Alsobrooks已就稳定币收益条款达成全面协议,为《清晰法案》(CLARITY Act)在参议院的推进扫清了主要障碍。 根据获取的文本,这项妥协对稳定币提供的奖励与回报施加了显著限制。协议明确提出,将禁止所有在“经济或功能上等同于”银行存款利息的奖励机制。这一宽泛的限制旨在阻止稳定币直接与传统银行储蓄产品竞争,回应了银行业长期以来关于“存款外逃”的担忧。然而,协议并未采取“一刀切”的禁令,而是保留了相当程度的弹性。稳定币余额可被用于奖励机制,但需通过一项“等同性测试”。这意味着加密货币公司仍能在特定条件下向用户提供激励,但那些模仿银行利息结构的高收益模式将被阻断。Coinbase首席政策官Faryar Shirzad在社交媒体上证实了这一突破,并透露最终文本已公开。他指出,历经数月谈判,Coinbase与白宫、财政部及参议院官员最终达成一致。“到头来,银行方面争取到了对奖励的更多限制,但我们守护了最宝贵的东西——美国人基于加密货币平台和网络的实际使用获得收益的能力,”Shirzad表示,在当前地缘政治环境下,维护美国在金融创新领域的领导地位至关重要。此次妥协成为撬动整个加密货币市场结构立法的关键支点。该法案旨在划定美国证券交易委员会和商品期货交易委员会对数字资产生态系统不同领域的监管权限。随着稳定币收益问题的解决,立法进程有望进入快车道。据悉,法案在代币分类、去中心化金融监管以及资产代币化等领域也已取得重要进展,《清晰法案》的最终文本预计将很快敲定并提交参议院银行委员会投票。银行业对稳定币收益可能分流存款的担忧,曾是导致立法停滞的主要症结。此次达成的协议,既赋予了银行系统更强的管控力,又为加密货币行业保留了核心的获客与激励空间,被市场视为推动美国加密货币监管清晰化的务实一步。 -
亚马逊AWS CEO称AI未取代程序员,今年计划招11000名实习生 IT之家 5 月 2 日消息,据《商业内幕》昨天报道,亚马逊 AWS 首席执行官 Matt Garman 表示,AI 并不会让程序员丢饭碗,公司将在今年招聘 11000 名软件开发工程师实习生。 IT之家从报道中了解到,Matt Garman 周二表示,尽管 AI 工具正在改变开发者的工作流,但亚马逊仍在持续招聘员工。他透露:“我可以告诉你,我们招聘的软件开发人员数量与以往一样多,甚至这种需求正在加速增长”。他认为,随着 AI 工具将部分工作流程自动化,软件工程师的角色正在发生变化:“未来几年,熟练编写 Java 代码的能力可能没那么重要”。Garman 强调,软件工程师们应该学习更多技能,例如构建应用程序、解决客户问题。同时技术知识仍然不能丢,与云服务客户合作时仍要用到。 -
分手后的阵痛期,微软何时能重振雄风? 文 | 海豚研究微软在 4/30 早美股盘后,发榜了截至 3 月底的 26 财年 3 季度财报。整体来看,微软本季表现仍是 “稳” 字为主,各核心指标普遍好于市场预期,但也缺乏真正意义上的亮点,具体来看:1、Azure 重新提速,但没有惊喜:最受关注的Azure 业务,本季营收同比增长 40%,剔汇率影响后增速则为 39%,较上季提速 1pct。虽然再度重新提速,无疑是个好的信号。但横向对比 AWS 和 GCP 本季的强劲提速,Azure 显然仍是相对跑输。海豚君认为,背后主要原因是微软和 OpenAI 间合作的进一步解绑,OAI 将算力订单转移至其他 CSP 的影响,公司表示的将算力供给优先提供 1P 产品(如 Copilot)和开发使用(自研模型)则应当是另一原因。2、Capex 预期外减少,和 Azure 增长匹配:对应 Azure 增长处在平台期、和 OpenAI 合作关系的再降级、以及新增订单的减少,本季度微软实际的Capex(包括租赁)支出为$319 亿,环比减少了超 50 亿,也低于市场预期。也体现出,微软的投入力度和前端需求是动态匹配的。因此随着公司预期下半年 Azure 的增长会再提速,微软指引下季度的 Capex 将拉升到 400 亿,26 自然年全年 Capex 更是高达 1900 亿,隐含今年剩下 3 个季度的平均单季支出超 500 亿,拉升幅度相当夸张。3、 Office 业务量稳靠价增:生产力板块中主体的 Office 业务(包括企业版和消费版),本季依然坐席增长大体平稳,靠提价维持稳定收入增长的故事。具体来看,重要性第二的商业微软 365 云服务收入增长 19%,相比上季加速 2pct。但剔除汇率利好后,更真实的营收环比加速幅度为 1pct。分价量看,商用 M365 的订阅坐席数量同比增加 6%,和上季度持平;隐含平均客单价的同比涨幅提高约 12%,应当是产品结构升级和汇率顺风的共同作用。但其他业务线普遍增长疲软,因此生产力板块整体增速剔除汇率影响后为 13%,较上季略微放缓 1pct。4、个人业务疲软,但没指引的那么差:本季度个人板块的增长依然疲软,营收同比下滑了-1% 但并没有此前指引的-5% 那么差,属于低预期下的超预期。主要是 Windows 和硬件收入下滑 2.5%,而非此前指引的 10%,这和市场调研显示一季度内实际 PC 出货量是同比增长 2%~4% 的情况一致的,没有担忧的那么差。5、OpenAI 转单?新增合同负增长:新签企业合同金额同比下滑了 4%,相比上季的同比暴涨 230%,差异巨大。我们认为主要原因是重定合作协议后 OAI 不再向微软提供大额的新增订单的影响。若剔除 OAI 订单的影响,本季新增订单金额是同增约 7%。类似的,公司披露本季 RPO待履约企业合同余额为 6270 亿,环比仅增加了 20 亿。根据公司披露若剔除 OAI 的订单 RPO 同比增长 29%。可见在 “失去” 了 OAI 这个大客户后,微软获得新订单并不容易。6、利润同样不出彩:本季度整体经营利润为$394 亿,同比增长 20%,乍看明显高于营收增速,表明利润率仍在走高。但实际上剔除汇率的利好,经营利润实际增速为 16%,相比营收 15% 的增速只是稍稍跑赢,即利润率只是大体同比持平。分板块来看,智慧云板块经营利润率为 39.7%,同比下滑了 1.8pct,相比上季度时 0.3pc 的跌幅明显扩大,Capex 投入对云板块的利润率压力越发明显。而生产力流程和个人计算板块的经营利润率在剔除汇率利好后,本季度仍都有略微提升。7、毛利率压力不小,费用仍在尽力对冲: 本季整体毛利率为 67.6%,同比下降了 1.1pct,跌幅较上季扩大(0.7pct)。完全是受智慧云板块毛利率下滑的拖累(同比下滑了整整 5pct),而其他两个板块的毛利率仍是持平或小幅改善的。本季仍主要是靠控费来对冲利润率的压力,三费合计同比增长仅 9.4%(剔汇率影响后为 8%)。远低于营收增速,使得费用率同比减少了约 1.7pct。但趋势上,本季费用增速比上季的 5% 有明显的提速,主要是营销和管理费用支出增速有所拉升。 海豚研究观点:1、稳字当先、缺乏亮点:概括来看,微软当季的业绩表现可以说无功无过,虽然基本都好于预期,但缺乏真正亮点。在不进即退,逆水行舟的大背景下,相比谷歌和亚马逊这两个主要对手,表现平平实际可以大体等效于不好。对海豚君而言,本次业绩传递出的几个此前没有预料到的有价值增量信息包括:a. 和 OpenAI 合作关系降级后,对获取新订单的影响相当显著且当季就有体现;b. 智慧云板块毛利率同比下滑整整 5pct,比 AWS 毛利率的下降幅度严重很多。2、指引 Azure 增速向好:1)首先, 公司指引下季度总营收增长区间为 13%~15%,其中汇率顺风利好减轻到 1pct。按指引上限即不变汇率下增速为 14%,相比本季再降速 1pct。其中,最重要的Azure 不变汇率下增速为 39%~40%,即较本季度会持平或继续提速,延续了本次的向好趋势,但是改善幅度仍相当 “微小”。同时,公司预期26 自然年下半年 Azure 的增长会继续提升,是个不错的方向,但需要关注实际提速的幅度。海豚君认为,该指引方向大概率是可以实现的,毕竟 Capex 后续会大幅拉升,同时公司也表示会动态优化分配(即增加)给 3P 业务的算力供给。对生产力板块指引的收入增速中值为 12%,和预期大体相同。而对个人计算板块的指引似乎又过度保守,指引中值隐含营收同比下滑 10%,明显不及预期。2)利润上,按公司指引区间的上限约$388 亿经营利润,低于市场预期的 393 亿。按指引上限隐含利润增长为 13%,都跑输营收增速,全部指向下季度的利润率压力会比本季更大。按指引中值隐含整体经营利润率 44% 会同比下降 0.9pct,预期还是成本端的压力 -- 指引成本同比增长 22%~23%(包括约 1.2pct 的裁员费用),显著高于营收增速。费用支出则仍会维持在 7% 左右的低增长。3、转型的阵痛越发明显从过往几年的历史表现看,微软的投资逻辑,事实上和与 OpenAI 之间的合作关系密切相关。而自 25 年 10 月,微软和 OpenAI 重新谈判并签订了新合作协议后(在上季财报点评《与 OpenAI“貌合神离 “后,微软还香吗》中有详细探讨)。近几日两家公司间的合作关系又有了新变化,包括:a. 微软不再独家拥有分销并使用 OpenAI 产品和模型的权利,相对于的亚马逊也获得了该权利b. 微软仍是 OAI 的 “主要” 算力供应商,但显然 OpenAI 在逐步降低对微软的依赖,将更多新增订单给予了 Oracle,Amazon 和 CoreWeave 等其他合作伙伴。c. 微软依旧能使用 OpenAI 的模型和其他 IP 产权直到 2032 年,且不再需要在分销 OpenAI IP 时给予 OpenAI 收入分成,对微软的毛利率会有一定利好;d. 相对的 OpenAI 给微软(作为股东)的收入分成也会在 2030 年终止,且商定了新的最高累计分成上限(未公布)。可以说,微软近期明显跑输的重要原因之一就是和 OpenAI 合作关系的降级 -- 在短期业绩上导致 Azure 的增速陷入瓶颈期;而在中长期逻辑上,使得微软在大模型 + 云 + 芯片的三个核心能力上,失去了独占 OpenAI 时提供的大模型优势,自身在 ASIC 芯片上也缺乏优势。因而相比三项能力俱全的谷歌,和拥有云 + 芯片能力的亚马逊,微软反而成为了竞争力最差的。因此,微软确实有着很高的紧迫性去自研出 “不错的” 大模型或 ASIC 芯片。另一问题是,随着 AI 的发展方向—从面向 C 端用户为主,通过电商、广告等方式变现,转变为面向 B 端用户为主,通过提升工作效率等方式进行变现。AI 主要威胁的对象,也从最早的搜索、电商、OTA 等行业,变化为了工作软件等行业。因此,不只是云业务综合竞争力的减弱,微软的生产力流程板块甚至成了可能被 AI 替代的潜在受害者。这些都是微软当前投资逻辑上的大问题。4、微软的应对措施:但显然微软也没有坐以待毙,除了此前提到的加大 Capex 投入并将更多算力用于 Azure 创收,和努力自研大模型和改进 ASIC 芯片,这些长期举措外。微软的一个可立即起效的举措是,在此前最高档 E5 suite 之上,推出了 M365 E7suite。除了包含此前的 E5 功能,还内置 Copilot、Agent 365、Entra 等附加功能。基础定价从 E5 的$60 增加到¥99,超 1/2 的提价。除了新推出 E7 外,微软也将在 7/1 起对其他原有产品进行普遍的提价,具体提价情况可见下图。 以下是财报详细点评:一、财报披露口径变化概览25 财年开始微软对财报披露的部门结构做出不小的调整。整体的调整思路是把面向企业的各类 365 服务,包括 Commercial Office 365, Windows 365 和 Security 365,全部从各自的原板块调整到了生产力&流程(PBP)大板块下。具体的调整变化,和海豚君的看法请见1Q25 点评,下图是简要概括,就不再赘述。 二、分板块表现:都比预期稍好,也都没啥看点1.1 Azure 增长企稳,但还是相对跑输最受关注的核心业务--Azure 本季营收同比增长 40%,剔汇率影响后为 39%,较上季有小幅提速 1pct,达标市场预期。终结了先前 Azure 增长放缓的趋势,算是一个小改善信号。但是横向对比 AWS 和 GCP 本季内增速显著拉升,Azure 本季的表现显然还是跑输的。海豚君认为,背后主要原因是微软和 OpenAI 间合作的进一步解绑,且 OAI 将部分算力订单转移至其他 CSP 的影响。当然公司声称的将更多算力用于 1P 自有业务和内部研发,导致对外租赁产能不够,应当也是原因之一。毕竟在 OAI 已不再和微软绑定,甚至可能互相成为直接竞争对手的情况下,微软确实有比较急迫的需要自研一款 “能排进一梯队” 的大模型。而整个智慧云板块本季度营收同比增长约 30%,同样环比小幅提速 1pct,但主要是由于汇率利好的影响。 1.2 生产力板块增长稳重趋缓,仍是靠涨价驱动重要性第二的商业微软 365 云服务(Microsoft 365 Commercial Cloud)本季收入增长 19%,相比上季加速 2pct。但剔除汇率利好后,实际营收环比加速幅度仅 1pct。拆分价量驱动因素来看,本季商用 M365 的订阅坐席数量同比增加 6%,和上季度一致;因此本季增速的走高,还是完全靠客单价涨幅的提升,本季同比增加了 12%,考虑应当是产品结构提升(如从 E3 升级到 E5)或附加订阅的影响(如 Copilot)。但整体上,由于 Office 365 的营收增长一直没有根本性的提速,可以推见 Copilot 等增值附加服务仍没被获得广泛采用。 生产力板块中的其他业务中, Dynamics 365的增速为 22%,较上季有不小提速,但同样主要是汇率的利好,不变汇率下增速 17% 和上季持平。LinkedIn 则依然增长低迷,本季不变汇率下增长 9%,较上季又放缓了 1pct。消费者 M365 业务的由于此前的提价,本季营收保持着约 26% 的增长,其中用户量同增 7%,较上季提升了 1pct。不过值得注意,本次提价是从上财年 4Q 开始的,因此到下季度提价的利好周期就结束了(如果没有新的提价)。整体上,剔除汇率的利好后,生产力流程板块下各业务的增长仍是大体平稳或略有降速。因此生产力板块整体增速在剔除汇率影响后为 13%,较上季略微放缓 1pct。 1.3 个人业务:表现全面不好,但也没指引的那么差本季度个人板块的增长依然疲软,但相比此前过于保守的指引,要好不少。实际营收同比下滑了-1% vs. 市场预期的-5%。具体来看:1)好于预期的业务主要是 Windows 系统和硬件,相比此前过于保守指引的-10%,实际营收仅下滑了 2.5%,这和市场调研数据大体一致。2)广告收入剔除买量之后的增速为 12%,剔除汇率影响后增速为 9%,和上季持平。但一年内广告收入增速仍有 20% 以上。3) 游戏板块内,Xbox 主机等销售不佳收入同比大降 33%,游戏内容则同比减少了 5%,同样表现不佳。 四、丢了 OpenAI 大客户?新增订单金额同比下滑汇总上述各板块表现,微软集团整体本季度营收$829 亿,同比增长 18%,略高于卖方一致预期的 16.3%。但剔除汇率利好后,真实营收增速为 15%,和上季度基本一致。整体来看,本季各板块在增长端确实都没有明显的亮点。 相比之下,本季领先指标有比较有趣的变化。首先本季新签企业合同金额同比下滑了 4%,相比上季的同比暴涨 230%,差异巨大。本质原因即微软和 OAI 重新商定合作协议后,OAI 不再向微软提供大额的新增订单。根据披露,若剔除 OAI 订单的影响,本季新增订单金额是同增约 7%。类似的,公司披露本季 RPO待履约企业合同余额为 6270 亿,环比仅增加了 20 亿。根据公司披露若剔除 OAI 的订单 RPO 同比增长 29%,不剔除则是同增 99%。从以上两个指标都可见,在 “失去” 了 OAI 这个大客户后,对获得微软获得新订单有相当显著的影响。我们认为,这也是近几个季度 Azure 增长略显乏力的重要原因之一。 五、Capex 投入有所放缓,和 Azure 增长节奏对应本季微软实际Capex(包括租赁)支出为$319 亿,环比不再拉升、反减少了超 50 亿,也低于市场预期的 350 亿。我们认为本季Capex 支出下滑,应当也是对 OAI 合作关系进一步降级,以及未来从 OAI 能获得订单规模会减少的反映。结构上,用于 GPU/CPU 等短生命期设备的占比认为 2/3。整体上 Capex 支出的减少和近期 Azure 增速的变化是大体对应的。因此伴随着公司预期 26 自然年下半年 Azure 增长会有所加速,公司指引的下季度的 Capex 也拉升到 400 亿,对 26 自然年 Capex 支出指引更是高达 1900 亿。 六、毛利率压力越发明显,费用仍在尽力对冲相比稍显平淡的营收端表现,微软本季在利润端的表现稍好些,但同样没有特别出彩之处。1)本季度整体经营利润为$394 亿,同比增长了 20%,明显高于营收增速,表明利润率仍在走高。但实际上剔除汇率的利好后,经营利润实际增速为 16%,相比不变汇率下营收 15% 的增速只是稍稍跑赢,即利润率实际只是大体同比持平。2)分板块来看,最受关注、也是主要承担 Capex 和折旧的智慧云板块经营利润率为 39.7%,同比下滑了 1.8pct,相比上季度时 0.3pct 的跌幅明显扩大,可见 Capex 投入对云板块的利润率压力越发明显。而生产力流程和个人计算板块的经营利润率在剔除汇率利好后,本季度仍都有略微提升。 3)从成本和费用角度看,本季整体毛利率为 67.6%,同比下降了 1.1pct,同样跌幅较上季扩大(0.7pct)。同样完全是受智慧云板块毛利率下滑的拖累(同比下滑了整整 5pct),其他两个板块的毛利率仍是持平或小幅改善的。2)在毛利率跌幅逐步扩大的情况下,本季仍主要是靠控费来对冲利润率的压力,三费合计同比增长仅 9.4%(剔汇率影响后为 8%)。一方面仍远低于营收增速,使得费用率同比减少了约 1.7pct。但环比趋势上,本季费用增速比上季的 5% 有明显的提速,具体来看主要是营销和管理费用支出增速有所拉升。部分也是由于去年基数过低导致的。 -
用户的“口袋指挥部”:OpenAI被曝将推出手机版Codex IT之家 5 月 1 日消息,科技媒体 9to5Mac 昨日(4 月 30 日)发布博文,报道称 OpenAI 内部正计划扩展 Codex,从桌面端拓展至移动端,推出 iPhone 配套应用,并将产品定位从智能体编程(Agentic Coding)拓展至通用生产力工具。报道指出 OpenAI 为了巩固其移动端优势,将扩展 AI 编程智能体工具 Codex,推出配套 iPhone 应用,作为 Mac 桌面端的遥控工具。Mac 版 Codex 新版应用新增了“你从事什么类型的工作?”的提示词,涵盖工程、财务及营销等 10 个选项。系统会根据用户回答调整界面,这标志着 Codex 正从智能体编程转向通用生产力工具。IT之家附上相关图片如下: 不同于现有的移动版 ChatGPT,消息称这款配套 Codex iPhone 应用定位为“开发智能体指挥中心”,开发者可以随时通过手机,监控后台正在运行的自动化任务(如代码重构、测试跑批),并实时接收智能体反馈。 在功能方面,该应用预计将深度集成版本控制系统,支持用户在通勤或闲暇时刻,通过语音指令或简易触控,审批智能体提交的差异(Diffs)和修改建议。 -
科技巨头AI支出大增,为什么英伟达还跌了? 科技巨头密集上调AI资本开支,理应是英伟达的重大利好,但市场给出了截然相反的答案。周四,英伟达股价下跌逾4%,跌破200美元关口,单日跌幅金额近10美元。 此前一晚,Meta、Alphabet、微软、亚马逊相继公布财报,四家超大规模云计算商合计预计在2026年投入高达7250亿美元用于AI基础设施建设。英伟达占据AI加速芯片市场约90%的份额,按常理,这一投资浪潮本应直接惠及这家芯片巨头。但是投资者的担忧,当英伟达最重要的客户开始大规模自研芯片,其市场主导地位将面临挑战。此前Alphabet宣布将向外部客户销售自研TPU芯片,亚马逊则在财报电话会议上着重强调自研芯片业务的快速增长。谷歌TPU"破圈",触动市场最敏感神经Alphabet宣布,将向外部精选客户销售自研TPU芯片,客户可将其部署于自有数据中心基础设施之中。此前,TPU几乎完全服务于谷歌内部生态。一旦面向外部商业化,TPU将从英伟达GPU的潜在竞争者,演变为具有实质威胁的市场对手。尽管TPU在通用灵活性上普遍被认为不及英伟达的解决方案,但针对特定AI应用场景,其成本效益优势较为突出。亚马逊同样在财报电话会议上强调自研芯片业务的扩张势头。据彭博报道,亚马逊CEO Andy Jassy表示,该公司芯片业务年化营收已突破200亿美元,同比呈三位数增长,核心产品为自研的Trainium芯片。华尔街分析师:自研芯片浪潮构成"重大风险"对于这一竞争态势,华尔街已有分析师发出明确警示。Seaport Research半导体分析师Jay Goldberg直言: 这有可能从根本上颠覆英伟达,我认为这是相当重大的风险。 Goldberg的逻辑基于超大规模云计算商的体量与资本实力。这些公司既是英伟达最大的客户,也在持续投入资源成为其竞争者。Alphabet第一财季云收入同比增长63%至200.3亿美元,订单积压接近翻倍至逾4600亿美元,其中相当部分由内部TPU承接。Meta则在将2026年资本开支指引上调至1250亿至1450亿美元的同时,同步推进MTIA自研芯片项目。不过,并非所有分析师都认同这一悲观判断。Bernstein Research的Stacy Rasgon提出反驳,认为"纠结于谁赢谁输是错误的问题"。他的逻辑在于:AI智能体的兴起令计算需求呈爆发式增长,当前制约行业的关键因素是供给,而非需求。在此背景下,所有具备可信产能的芯片制造商,包括英伟达均能实现产能满销。英伟达目前握有952亿美元供应承诺,合作客户覆盖OpenAI、Anthropic、CoreWeave及Meta等头部机构。 -
GPU神话松动,AI真正的战场变了 出品 | 妙投APP作者 | 张博编辑 | 丁萍头图 | AI生图 过去两年,AI产业最强的叙事几乎都围绕GPU展开。从OpenAI掀起大模型浪潮,到英伟达市值飙升,再到云厂商、互联网平台和创业公司争抢高端算力,GPU被塑造成AI时代最稀缺的“硬通货”。谁拥有更多GPU,谁就更接近模型能力上限,谁能搭起更大训练集群,谁就更像拿到了下一代AI的门票。在这套叙事中,CPU没有消失,但明显退居幕后。它仍然是服务器的基础部件,是操作系统、数据库、网络和应用运行的底座,却不再是AI故事里的主角。市场甚至形成了一种近乎默认的判断:AI时代,GPU吃肉,CPU喝汤。但到2026年,这个判断已经不够用了。因为AI产业正在发生一个更深层的变化:主战场正从训练竞赛,转向部署竞赛;价值重心正从峰值算力,转向系统效率。这意味着,真正决定AI商业化速度的,不再只是GPU能把模型训得多大、多快,而是整套系统能否以可控成本、稳定吞吐和高利用率,把模型真正跑起来、用起来、赚到钱。一旦竞争从“单卡性能”转向“端到端效率”,CPU就不再只是配角,而是AI基础设施里那个被长期低估的系统变量。 市场为何重新看英特尔? 不只是因为财报,而是因为需求结构变了。最近一个值得注意的信号,是英特尔重新获得资本市场关注。2026年第一季度,英特尔营收约为136亿美元,同比增长7%,连续第六个季度超预期;净利润同比增长156%。其中,数据中心与AI相关业务(DCAI)收入达到约51亿美元,同比增长22%,成为增长最快的板块。财报发布后,英特尔股价盘后最高上涨超40%(截至4月30日)。如果只看公司层面,这当然不足以说明英特尔已经彻底翻身。它仍面临制程追赶、服务器CPU份额承压、Arm渗透、云厂商自研芯片推进等问题。但市场还是给了它新的想象空间,原因不在于英特尔突然变成AI明星,而在于投资人开始意识到:AI基础设施的需求结构,已经不再只是“多买GPU”。英特尔管理层在财报会上透露,数据中心中CPU与GPU的部署比例,正从传统的1:8收紧到1:4,在智能体场景中甚至可能进一步向1:1靠近。这背后的含义非常明确:过去两年AI行业最核心的矛盾是训练能力不足,而今天越来越多企业开始面对另一组问题,模型训练完之后,如何推理、如何部署、如何扩展、如何控制成本。也就是说,资本市场重新定价的,不只是英特尔,而是一个更深层的事实:AI开始进入系统竞争阶段。 CPU的重要性从何而来? 先要回答另一个问题:为什么AI今天的核心矛盾,已经不再只是训练。因为训练虽然贵,但对大多数企业来说,它更多是阶段性的资本开支;而推理、部署和调用,才是持续性的运营开支。训练决定模型能不能做出来,推理决定模型能不能活下去。这一变化已经有明确的数据支撑。Deloitte估算,推理工作负载占AI总算力的比例在2023年约为1/3,2025年接近1/2,到2026年预计达到2/3。IDC预测,到2027年中国推理算力占整体算力比例将突破70%。另有研究预计,到2026年推理带来的市场规模将是训练硬件市场的2到3倍。这些数字共同说明一件事:AI的成本中心和价值中心,正在从“训练一次”转向“运行无数次”。郑纬民院士给过一个更直白的拆分:在大模型推理成本中,人力仅占3%,数据占2%,算力占到95%。他举例称,ChatGPT的推理开销每天约70万美元,DeepSeek V3每天约8.7万美元(按各自披露口径)。这组数据真正说明的,不是“推理也很贵”,而是一旦AI进入大规模使用阶段,真正吞噬利润的不是训练账,而是推理账。国家数据局的数据进一步放大了这种压力:中国日均Token调用量从2024年初约1000亿,跃升至2026年3月的140万亿,两年增长超千倍。如果说训练是一次性把钱砸进去,那么推理就是每天都在把钱烧出去。训练贵,是研发问题;推理贵,是利润问题。而一旦问题变成利润问题,企业就不可能再只盯着模型参数和GPU数量,而必须开始追问:GPU是不是被充分利用了?哪些任务必须用GPU?哪些其实应该交给CPU?整套系统的吞吐率和资源利用率到底高不高?这正是CPU重新变重要的起点。很多人理解AI基础设施,还停留在“GPU越多越好”的阶段。但现实是,今天大量AI系统面临的核心问题,不是GPU不够强,而是系统喂不饱GPU。MLPerf行业基准测试显示,在大模型训练场景中,数据加载、预处理、参数同步等环节带来的延迟,可占总训练时间的35%到60%。IDC调研则显示,即使是头部互联网企业的AI推理集群,GPU平均利用率也长期低于40%;大量中小企业的GPU集群利用率甚至不足15%。这意味着什么?意味着今天最昂贵的AI资源,正在被大规模浪费。不是因为GPU性能不行,而是因为数据流动、任务调度、内存管理、I/O协同、网络处理这些系统环节跟不上。换句话说,GPU算得很快,但系统供给不上,结果就是一边拼命买卡,一边大面积闲置。这也是为什么CPU的重要性,不是“多卖一点服务器芯片”那么简单,而是它直接决定AI系统的资源利用率和ROI。因为在真实工作流里,GPU从来不是单独工作的。它前面有数据准备,后面有结果处理,中间有任务调度、缓存维护、上下文切换、网络通信、容器管理、数据库交互。这些环节里,真正承担控制流和系统协同的,主要是CPU。所以问题的本质不是“CPU能不能替代GPU”,而是如果CPU和系统层能力跟不上,再强的GPU也只是昂贵的闲置资产。 智能体兴起,让CPU从“底座”变成“中枢” 如果说推理阶段让CPU重新重要,那么智能体(Agent)的兴起,则把这种重要性进一步放大。因为智能体不是一个“更会聊天”的模型,而是一套真正要执行任务的系统。它要理解目标、拆解步骤、调用工具、访问数据库、连接API、执行代码、维护状态、判断结果,必要时还要调用其他模型或子Agent协同。在这条链路中,模型推理只是其中一环。大量工作并不是“算”,而是“调度”“编排”“切换”“访问”“管理”。这些工作本质上都属于控制流和系统协同,而这正是CPU最擅长的领域。康奈尔大学的研究显示,在五类代表性Agent工作负载中,CPU端的工具处理、逻辑调度和数据预处理,占总端到端延迟的比例高达43.8%到90.6%。在典型的RAG场景中,CPU处理甚至可能占到总延迟的90%以上,GPU推理反而不到10%。这组数据的意义非常明确:在智能体时代,很多真实任务的瓶颈已经不是GPU算得够不够快,而是CPU能不能把整条任务链顺畅地跑完。这也解释了为什么CPU/GPU配比正在变化。TrendForce指出,当前AI数据中心中CPU与GPU的配比大约是1:4到1:8,而在智能体AI时代,这一比例预计将逐步演变为1:1到1:2。当配比从1:8向1:1收敛,本质上不是CPU多卖了几颗,而是AI基础设施从“计算中心化”转向“系统中心化”。产业反馈已经开始出现。2026年第一季度末,Intel和AMD都对部分CPU产品线提价,服务器CPU交期拉长至约6个月。与此同时,英伟达和Arm也在同一时期宣布进军服务器CPU市场。一个是GPU巨头,一个是IP授权商,却在同一时间加码CPU,这说明他们看到的是同一个趋势:未来AI的关键战场,不只是模型推理本身,而是围绕推理和智能体展开的整机系统能力。当所有头部玩家都在补CPU,说明竞争已经从“单芯片”变成“系统工程”。过去两年,AI行业有一种很强的“单点崇拜”:比谁的芯片更强,比谁的参数更多,比谁的集群更大。这种竞争方式在产业早期成立,因为技术突破往往首先来自少数明星环节。但产业一旦进入落地阶段,决定胜负的逻辑就会改变。真正拉开差距的,不再只是某个单点性能,而是整套系统能否以可控成本、可复制方式持续运行。所以今天我们看到的,不只是英特尔受益,而是所有重要玩家都在重新补CPU、补系统、补整机能力。英特尔希望依托数据中心生态和软件兼容,重新巩固系统层话语权;AMD则在服务器CPU市场持续扩大份额,Mercury Research数据显示,AMD EPYC服务器CPU在2025年Q4营收份额已达到41.3%,首次突破40%。Arm和云厂商自研CPU,则试图从高能效和定制化切入系统入口;甚至连英伟达自己,也在通过Grace CPU强化对整机架构的控制力。所有顶级玩家都在补CPU,不是因为CPU突然变得性感,而是因为AI开始从芯片问题,变成系统问题。如果把视角拉回中国,这轮变化的现实意义更大。中国是全球AI应用落地最快的市场之一。截至2026年3月,我国日均Token调用量已突破140万亿;IDC数据显示,2025年中国AI加速卡总出货约400万张,其中国产厂商出货165万张,占比41%。这说明,中国AI已经不再只是“模型热”“算力热”,而是进入了真正的“调用热”和“部署热”。这会把中国企业推向一个更现实的问题:AI不是能不能做,而是做了之后能不能长期跑、能不能算得过来。第一,是成本压力。某制造企业在将智能体接入生产线时发现,每个决策步骤的推理成本高达0.3美元,是传统规则系统的20倍。这类案例真正说明的,不是智能体太贵,而是:如果系统架构不优化,AI很容易从生产力工具变成成本黑洞。第二,是兼容压力。中国企业现有IT系统复杂,数据库、ERP、CRM、OA、工业系统长期并存。AI如果要真正进入业务流程,必须与这些存量系统深度融合。这意味着企业需要的不是单一“最强模型”,而是一套能把模型、数据库、API和业务系统串起来的基础设施,而CPU承担的正是兼容、调度和运行时支撑角色。第三,是自主可控。随着AI部署深化,国产CPU、服务器、操作系统、数据库、中间件和调度软件,都会被重新放到更靠前的位置。也就是说,CPU重新重要,不只是国际巨头的机会,也可能成为中国基础设施产业链的一次再估值窗口。所以,如果把视角再拉长一点,就会发现,CPU在AI中的重新重要,其实只是表象。更深层被重新定价的,是系统能力。本文来自虎嗅,原文链接:https://www.huxiu.com/article/4855067.html?f=wyxwapp -
DeepSeek“开眼”背后的技术,公开了! 智东西 作者 陈骏达 编辑 心缘 智东西4月30日报道,今天,DeepSeek发布多模态技术报告《用视觉原语思考(Thinking with Visaul Primitives)》,详细阐释了昨日灰度上线的DeepSeek识图模式背后的技术细节(DeepSeek终于能看图了!我第一时间用它算命)。 DeepSeek识图模式所使用的是一个284B参数、13B激活多模态推理模型,其正式名称尚未对外发布,基座模型是DeepSeek-V4-Flash。DeepSeek称,这一模型的权重将整合进DeepSeek的基础模型,并在未来发布。当前,传统的思维链仍然停留在语言领域,但视觉推理所需要的信息更多。DeepSeek的新一代多模态推理模型的核心升级就在于,它把纯粹的语言推理链条,升级成了一种“语言逻辑+空间坐标”交织的双轨思维。当模型对着一张图进行推理时,它是会像人一样,直接输出一个具体的框或者点,在图中精准地“指”出它当下正在想的那个东西。DeepSeek多模态团队负责人陈小康分享了一张动图,形象地阐释了这一运作机制。图中,DeepSeek多模态模型可以在思维链中使用框进行定位,并在后续的推理步骤中持续引用这些被框定的视觉锚点,基于空间坐标进行下一步判断,极大提升了视觉推理的准确性。 ▲DeepSeek多模态模型推理过程在一系列高难度视觉QA任务中,这一模型的表现超过了GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等模型。 较高的token效率也是这一模型的亮点。与当前主流的多模态大模型将一张图片转化为成百上千个视觉token不同,DeepSeek这套架构通过视觉压缩策略,将高分辨率图像从原始像素开始,经过ViT特征提取、空间压缩以及稀疏注意力机制的多级处理,最终在KV缓存中仅保留约90个视觉条目,实现超7000倍的压缩。这意味着模型在进行复杂空间推理时,无需在海量视觉信息中反复检索,思考过程的每一步都较为“轻量”。 项目地址:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives技术报告:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf一、自然语言存在“指代鸿沟”,视觉标记介入有望破解 这篇论文中,DeepSeek多模态团队提出了对现有多模态大模型缺陷的洞察。过去,当业界谈论提升视觉模型的推理能力时,几乎所有的努力都集中在“感知鸿沟”上,也就是让模型“看得更清楚”:通过更高分辨率的图像切分、更精细的动态分块,确保模型不会遗漏图中的细节。但DeepSeek多模态团队认为,即便把这一切做到极致,模型依然会在复杂的视觉推理任务中崩溃。自然语言在描述连续视觉空间时,天然存在一种“指代鸿沟”:当你说“左边那个东西”时,在拥挤的场景中,这个“东西”到底指哪一个,模型无法精确锁定。于是,模型的思维链条看似环环相扣,实则每一步都存在偏离的风险,一旦涉及到密集计数、多步空间推理或者拓扑导航这种需要逐步推理的任务,逻辑就会因为指代不清而逐渐崩塌。基于这个判断,DeepSeek多模态团队尝试让模型在思考时“边想边指”,也就是让模型用点坐标和边界框来“指”,把这些人类的视觉原语,变成模型思维链条上的最小认知单元。架构层面,这一多模态模型通过DeepSeek-ViT负责将图像转换为视觉特征,下图右下方的文本分词器负责处理用户的语言指令,两者输入至基座模型DeepSeek-V4-Flash进行推理融合,最后由去分词器输出包含自然语言与视觉原语(如坐标框、区域标记)的联合响应。这种设计使模型兼顾文本理解能力和原生视觉定位能力。 二、筛选超4000万个高质量样本,对四类任务针对性优化 要把点和框变成模型思维的一部分,首先要解决的问题,就是如何让模型真正“学会指”。模型需要把“指”这个动作内化成一种思维习惯。为此,DeepSeek多模态团队构建了一条贯穿预训练、冷启动和强化学习的训练流水线。在预训练阶段,他们从互联网上爬取了97984个与目标检测相关的数据源,设计了自动化的语义和几何质量审查机制,过滤掉乱码标签、不可泛化的私人实体、严重截断的框以及覆盖全图90%面积的“巨型框”等低质量标注,最终筛选出31701个高质量数据源,总计超过4000万个的精准样本,先让模型掌握基本定位能力。接下来是冷启动数据构建。DeepSeek多模态团队针对计数、空间推理、迷宫导航和路径追踪这四类最能体现视觉原语价值的任务,合成了一套带有精确思考轨迹监督的数据。以计数任务为例,模型被明确教导,在思考时要先批量框选所有候选对象,然后再对这些锚定好的框进行逐一校验和累加。 ▲计数任务的一条冷启动数据在迷宫任务中,模型的每一步探索都必须输出一个点坐标来标记当前所在,一旦失误撞墙,整个后续探索在因果上就自动失效,模型必须学会回溯。这种把视觉原语操作直接整合进思维链的做法,让模型在冷启动阶段就建立起“指向-推理”的强耦合。三、采用稠密奖励机制,视觉编码压缩比超7000倍 有了冷启动模型之后,DeepSeek多模态团队通过一套“训练专家再融合”的后训练策略,将模型的能力进一步精细化。其中的创新点在于强化学习阶段的奖励模型。以迷宫任务为例,奖励分解为探索进度、撞墙惩罚、路径有效性和探索完整性等多个维度。模型每正确探索一个单元格、没有非法穿越墙壁,都会获得正向信号,而一旦发生撞墙,即便最终的答案为“可解”,也会被严格扣分。这种稠密的奖励机制,让模型必须认真对待每一个视觉原语操作,无法靠猜答案实现奖励破解。为了同时掌握框定位和点指向这两种视觉原语,该团队还分别训练了两个专家模型,最后通过在线策略蒸馏将它们融合成一个统一模型,让学生模型在自己生成的思维轨迹上,学习两位专家老师的输出分布。这种设计有效避免了两种异构原语在训练中的相互干扰。值得一提的是,这项工作的技术路线建立在一个高效的视觉编码架构之上。首先,Vision Transformer以14×14的块大小将图像切分成视觉token;然后,在ViT输出端进行3×3的空间压缩,将每9个相邻token沿通道维度合并为1个;最后,利用模型底座DeepSeek-V4-Flash自带的压缩稀疏注意力机制,将KV缓存中的视觉条目再压缩4倍。以一张756×756分辨率的图像为例,它原本会产生2916个patch token,经过三级压缩后最终仅保留81个视觉KV条目,整体压缩比高达7056倍。这种token效率意味着,模型在展开复杂的空间推理时拥有了一份“提炼好的索引”,可以拿着索引直接进行思考,从工程上就减弱了无关像素对推理链路的干扰。结语:多模态智能的“系统二”进化 DeepSeek多模态团队也在报告中提到了当前技术的边界。模型在复杂拓扑推理任务上的跨场景泛化能力尚未完善,且思考中视觉基元的激活目前仍依赖显式的触发词,尚未实现完全的自发调用。但他们也认为,这套框架为多模态社区展示了通往系统二级别的多模态智能的路径。这一路径没有一味地堆高图像分辨率,而在构建了更精准从参照指标。用空间坐标锚定抽象思维,让模型像人类一样“边指边想”,这本身就是一个值得继续深挖的方向。 -
四巨头财报齐发:AI已经不只是风口 4月30日消息,当地时间周三盘后,Alphabet、Meta、亚马逊和微软集中披露财报,四大科技巨头交出了一份由AI和云计算推动的成绩单:Alphabet总营收达1098.96亿美元,同比增长22%,Google Cloud收入同比激增63%;Meta营收563.1亿美元,同比增长33%,创多年高增速;亚马逊净销售额1815亿美元,同比增长17%,AWS收入同比增长28%;微软2026财年第三财季营收828.86亿美元,同比增长18%,Azure及其他云服务收入同比增长40%,AI业务年化收入超过370亿美元。 这组财报显示,AI正在同时拉动搜索、广告、云计算、办公软件、自研芯片和数据中心需求。但增长背后,四家公司也进入更激烈的资本开支竞赛。按本轮披露或媒体转述的资本开支/AI基础设施投资预期粗略估算,Alphabet、Meta、亚马逊和微软2026年相关投入合计接近7000亿美元,市场关注点正从“谁在布局AI”转向“谁能把AI投入转化为收入和现金流”。 Alphabet:谷歌云同比大增,AI推动搜索查询量创新高 Alphabet一季度业绩超出华尔街预期。公司当季总营收为1099亿美元,同比增长22%,高于LSEG预期的1072亿美元;净利润为625.7亿美元,较上年同期的345.4亿美元增长81%;每股收益为5.11美元。 分业务看,谷歌云表现最为突出。一季度Google Cloud营收达到200.2亿美元,同比增长63%,高于StreetAccount预期的180.5亿美元。谷歌广告总收入为772.5亿美元,同比增长15.5%;其中YouTube广告收入为98.8亿美元,略低于市场预期。 Alphabet首席执行官桑达尔·皮查伊在财报电话会上表示,企业级AI解决方案首次成为谷歌云业务的主要增长引擎。他还提到,Gemini Enterprise的月活跃付费用户数环比增长40%。公司披露,目前谷歌云积压订单总额已达4600亿美元。皮查伊同时指出,谷歌云仍面临短期算力瓶颈。他表示,如果公司能够完全满足现有需求,云业务收入规模还将进一步扩大。 在搜索业务方面,Alphabet称AI功能的引入提升了用户使用率,当季搜索查询量创下历史新高,相关收入同比增长19%。YouTube方面,尽管广告收入略逊预期,但管理层表示YouTube订阅业务增速已超过广告业务。 为满足AI需求,Alphabet一季度资本开支达到357亿美元,主要投向房地产、服务器和数据中心。公司还将2026年全年资本开支预期从此前的1750亿至1850亿美元上调至1800亿至1900亿美元,并预计2027年资本开支将在此基础上继续显著增加。 Meta:营收增速创多年新高,资本开支上调引发担忧 Meta一季度营收为563.1亿美元,高于LSEG预期的554.5亿美元,较上年同期增长33%,创下2021年以来最高单季增速。公司调整后每股收益为7.31美元,高于分析师预期的6.79美元。 盈利方面,Meta一季度净利润从上年同期的166亿美元升至268亿美元,每股收益为10.44美元。不过,该利润中包含80.3亿美元所得税收益。公司提示,若剔除该项税收收益,一季度稀释后每股收益将减少3.13美元。 运营数据方面,Meta一季度家庭应用日活跃用户数为35.6亿,同比增长4%,但环比下降超过5%,低于华尔街预期的36.2亿。公司称伊朗互联网连接中断以及俄罗斯对WhatsApp的访问限制,是用户环比下滑的主要原因。 Meta首席执行官马克·扎克伯格在声明中表示,这是一个"具有里程碑意义的季度"。他称公司旗下应用整体势头强劲,Meta超智能实验室发布了首个模型,公司正按计划向全球数十亿人提供个人超级智能服务。 不过,Meta盘后股价下跌约7%。市场担忧主要来自资本开支。公司一季度资本开支为198.4亿美元,低于市场预期,但全年资本开支指引从此前的1150亿至1350亿美元上调至1250亿至1450亿美元。Meta解释称,上调原因包括硬件组件价格上涨,以及为支持未来算力需求而增加的数据中心建设投入。 亚马逊:AWS增速创三年高点,自研芯片业务受益AI热潮 亚马逊一季度营收和利润均好于市场预期。公司当季总营收为1815.2亿美元,高于LSEG预期的1773亿美元;每股收益为2.78美元,高于分析师预期的1.64美元。财报发布后,亚马逊股价在盘后交易中上涨逾4%。 作为核心利润来源,AWS一季度营收为375.9亿美元,高于市场预期的366.4亿美元,同比增长28%,创逾三年来最高增速。广告业务收入为172.4亿美元,同样高于市场预期,同比增长24%。 亚马逊首席执行官安迪·贾西在财报声明中表示,公司正处于"一生中最大的转折点之一",亚马逊已做好领跑准备。他特别提到,自研芯片业务正在受益于AI需求增长。 近年来,亚马逊持续加大AI基础设施投入,并先后与OpenAI、Anthropic和Meta达成AI相关合作。公司此前预计2026年资本开支将达到2000亿美元。FactSet数据显示,亚马逊一季度物业与设备支出为442亿美元,高于预期的436亿美元。受AI相关投资扩大影响,公司过去12个月自由现金流降至12亿美元,同比下降95%。 除AI外,亚马逊还在加码卫星互联网业务。公司首席财务官布莱恩·奥尔萨夫斯基表示,亚马逊计划在今年第三季度正式推出Leo商业服务。公司近期还宣布计划以约115.7亿美元收购Globalstar,以强化卫星网络和直连设备服务能力。 展望二季度,亚马逊预计总营收将在1940亿至1990亿美元之间,高于分析师预期的1889亿美元;预计运营利润为200亿至240亿美元。 微软:Azure增长40%,AI年化收入达370亿美元 微软最新季度营收和每股收益均高于市场预期。公司当季总营收为828.9亿美元,高于LSEG预期的813.9亿美元,同比增长18%;净利润为317.8亿美元,每股收益为4.27美元,高于分析师预期的4.06美元。 微软智能云部门当季营收为346.8亿美元,高于市场预期。其中Azure及其他云服务收入同比增长40%,继续成为公司最重要的增长引擎。生产力与业务流程部门营收为350.1亿美元,同比增长约17%;更多个人计算部门营收为131.9亿美元,同比下滑1%,但仍高于市场预期。 微软首席执行官萨提亚·纳德拉表示,公司AI业务年化总收入已达到370亿美元,同比增长123%。这一口径包括客户在Azure上运行AI服务的支出,以及微软自有AI工具收入。微软还披露,面向商业版Office订阅用户的Microsoft 365 Copilot席位已突破2000万,较1月份的1500万明显增加。 不过,微软也提示AI基础设施成本正在上升。公司第三财季(2026年1月至3月)资本支出与融资租赁总额为319亿美元,同比增长49%。首席财务官艾米·胡德预计,微软2026年资本支出将达到1900亿美元,其中约250亿美元增量来自组件价格上涨。受数据中心折旧成本上升影响,公司第三财季毛利率降至67.6%,为2022年以来最低水平。 在与OpenAI的合作方面,微软本周宣布调整长期合作协议。根据新条款,Azure不再享有OpenAI模型的独家提供权,其他云服务商也可接入相关模型;微软则保留对OpenAI知识产权为期六年的非独家授权。纳德拉表示,公司拥有一款免版税的前沿模型,并将在2032年前继续访问相关知识产权。 各家亮点:云、广告、芯片和AI商业化路径分化 从本轮财报看,Alphabet的最大亮点是谷歌云和搜索业务同时受益于AI。谷歌云同比增长63%,积压订单达到4600亿美元;搜索业务则在AI功能带动下实现查询量创新高,显示生成式AI并未削弱谷歌搜索,反而在短期内强化了用户使用频率。 Meta的亮点在于AI对广告业务的支撑。虽然Meta尚未形成独立的AI收入流,但其一季度营收同比增长33%,显示AI推荐、广告投放和内容排序能力仍在提升核心广告业务效率。不过,用户环比下滑和全年资本开支上调,使市场对其AI投资回报周期保持谨慎。 亚马逊的亮点是AWS重新加速,以及自研芯片业务成为AI基础设施竞争中的重要抓手。AWS同比增长28%,创三年多来最高增速,反映企业AI工作负载正在带动云需求回升。广告业务保持24%的增长,也在继续强化其高利润业务结构。 微软的亮点则是AI商业化路径最为清晰。公司披露AI业务年化收入已达370亿美元,同比增长123%;Microsoft 365 Copilot席位突破2000万,说明AI正在从云基础设施延伸到办公软件和企业应用场景。 AI行业:需求强劲,但资本开支竞赛升温 四大科技巨头的财报共同显示,AI需求仍在快速增长,并正在向云计算、广告、搜索、办公软件、自研芯片和数据中心等多个方向扩散。与此前单纯围绕大模型能力的竞争不同,当前AI行业竞争已经进入基础设施和商业化并重的新阶段。 一方面,企业客户对AI算力、模型服务和云基础设施的需求持续升温。Alphabet、亚马逊和微软的云业务均交出强劲数据,说明AI正在成为云厂商新一轮增长的核心驱动力。另一方面,Meta展示了AI在广告推荐和内容分发中的应用价值,即便AI尚未成为独立收入来源,也已开始影响核心业务效率。 但与此同时,AI带来的成本压力也在上升。Alphabet、Meta、亚马逊和微软均提到资本开支扩大,投入重点集中在数据中心、服务器、芯片、内存和电力等基础设施。尤其是微软和Meta均明确提及硬件组件价格上涨,显示AI基础设施建设已不只是技术竞争,也正在受到供应链和成本周期的制约。 总体来看,AI行业仍处于高景气阶段,但市场关注点正在发生变化。投资者不再只看公司是否"布局AI",而是更关注三个问题:AI能否带来可持续的收入增长,资本开支能否转化为足够回报,以及高昂算力成本是否会侵蚀利润率。对大型科技公司而言,未来竞争的关键将不只是模型能力,而是谁能以更低成本、更大规模、更快速度把AI转化为收入和现金流。(易句) (本文由AI翻译,网易编辑负责校对) -
壹快评|“剪映”等被查释放信号:AI内容“加标”是法律底线红线 近日,因未有效落实人工智能生成合成内容标识规定要求等问题,“剪映”“猫箱”App及“即梦AI”网站被网信部门采取约谈、责令改正、警告、从严处理责任人等处置处罚措施。这是AI生成合成内容标识规定落地以来,监管部门对违规企业进行的首次公开点名执法处罚。这一监管动作,向AI行业乃至全社会传递了一个清晰而强烈的信号:AI生成合成内容的合规管理,正在从政策倡导和原则宣示,加速走向严格落地的实操阶段。AI生成合成内容须添加明显标识绝不是一句空话,而是必须严守的法律底线红线。这对于推动行业健康有序发展和保护用户利益具有深远意义。近年来,以生成式人工智能为代表的AI技术,以前所未有的速度渗透进内容创作领域。从一键生成文案、智能剪辑视频,到凭空造出逼真图像甚至模拟真人声音与形象,技术门槛的降低极大地释放了生产力,激发了创意浪潮,但也同时打开了“潘多拉魔盒”。当AI生成的内容足够以假乱真,当虚拟与现实、人工与智能的边界日益模糊,一系列严峻的挑战便接踵而至。虚假信息、深度伪造的泛滥可能扰乱舆论、侵害个人权益;不加标识的AI创作可能冲击原创生态,引发版权纷争;更深远地看,当信息环境的“真实性”基础被动摇,社会共识的构建、公共讨论的质量乃至信任机制本身,都可能面临侵蚀。在此背景下,要求对AI生成合成内容进行显著标识,就如同为虚拟世界的“人造物”贴上“生产标签”,是维护信息秩序,保障用户知情权、选择权的关键一步。中国在AI治理方面已构建起相对系统的法规框架。《生成式人工智能服务管理暂行办法》《人工智能生成合成内容标识办法》等均明确要求,AI生成合成服务提供者应对生成合成内容进行显著标识。此次对“剪映”等应用的查处,正是监管利剑的首次公开拔出。它表明,无论平台规模大小、用户多少,都必须履行法定义务,没有妥协的余地。或许有人认为,AI标识会影响用户体验或创作流畅度,或者在技术实现上存在难点。然而,这些都不能成为规避责任的借口。从国际视野看,对AI生成合成内容进行标识也正在成为全球共识和监管趋势。标识的目的,并非阻碍技术发展,而是为了在创新与规范之间求得平衡,为技术的长远健康发展铺设稳固的轨道。此次事件也暴露出,部分网站平台在合规意识与行动上仍存在滞后。这背后,可能是因为对规则理解不深,也可能是在商业利益与合规成本的取舍上产生了偏差,还有可能是存在技术整合的惰性。但不管如何,监管利剑已然落下,它提醒所有从业者:必须将AI伦理与合规置于产品研发和运营的核心位置,严格落实AI生成合成内容标识相关规定要求。对于广大用户而言,这也是一次重要的社会教育。在享受AI带来的便捷与新奇时,我们每个人都应提升自身的媒介素养,对所见所闻多一份审慎与追问。看到一段难辨真伪的视频、一篇机器味浓厚的文章,下意识地去想一想其来源,留意是否有AI标识,应逐渐成为一种数字时代的基本生存技能。社会整体辨识能力的提升,反过来也会倒逼内容提供者更加审慎、负责。AI内容标识,这件看似微小的“技术活”,实则是关乎信息真实性、社会信任和科技向善的“大课题”。它标志着我们正从惊叹于AI“能做什么”的初级阶段,迈入审慎思考AI“应如何做”的规范发展新阶段。这一进阶过程,需要监管部门、技术企业、行业组织和每一位用户共同参与。为AI内容亮明身份,是AI内容提供者的法律责任,也是AI造福于人的必要前提。(作者系第一财经编辑) -
智元,想跟宇树争第一 人形机器人进入“决赛年”,智元和宇树都不想输。定焦One(dingjiaoone)原创作者|王汉星编辑|魏佳智元和宇树,这两家在过去一年合计售出全球70%以上人形机器人的公司几乎很少同台。宇树在春晚的舞台上表演空翻、大回旋、翻桌跑酷,智元没有上春晚,而是自己办了一场机器人专场晚会“机器人奇妙夜”;几天前,宇树在北京亦庄参加第二届人形机器人半程马拉松,智元则在比赛的两天前办大会、发产品、发模型、聊生态、聊应用。表面上,两家公司各忙各的,但暗地里的竞争从未停止。今年1月,宇树对第三方机构发布的2025年全球人形机器人出货量数据报告紧急发文澄清,称自己才是“第一”,而非报告中所统计的“智元第一,宇树第二”。在4月17日的智元APC2026合作伙伴大会上,智元创始人、总裁彭志辉在被问及宇树的时候表示,宇树是以本体为主,智元做的是全栈布局,不是为了推出一个通用的硬件平台,而是要把平台用在真实场景里,给客户带来实际的生产力。言下之意,相比于专注于人形机器人本体的宇树,智元的能力更加全面。 回顾两家公司的发展历程,从2023年8月同步发行首款人形机器人产品至今,双方一直是彼此在人形机器人领域最主要的竞争对手之一。到了2026年,这场较量明显升级。一位从事具身智能早期投资的投资人告诉「定焦One」,行业内存在一个“应用场景折价系数”,如果2026年还不能在人形机器人的通用性上有所进展,找到真实的下游需求场景,这个系数可能会降到0。也就是说,人形机器人行业将在2026年进入决赛阶段。在这个节点上,行业“第一”的含金量比以往各个阶段都更高。这也解释了,为什么智元在这一年格外急于证明自己。01.智元的“一哥”野心藏不住了在近日举办的合作伙伴大会上,智元不仅一口气发布了四款机器人本体产品、六款AI模型,还一同披露了一组经营数据:公司2025年收入10.5亿元,较2024年0.6亿元收入大幅增长,并自称是中国最快实现收入超10亿的机器人公司。与之相比,成立于2016年的宇树在2025年才首次突破10亿营收,用了9年时间。不过宇树此前主业是四足机器人,2023年才正式进入人形赛道,直接比较时间快慢不完全公平,但智元这么表述,本身就是一种竞争姿态。除了展示发展速度,智元也处处透露着对于行业话语权的强烈诉求。智元机器人董事长、CEO邓泰华在大会现场发布具身智能产业XYZ曲线与生产力实现框架,将行业的发展分为三个阶段,分别是2022年到2025年的开发尝鲜期,2026年到2030年的部署成长期,以及2030年及以后的部署普及期。根据智元的判断,当前行业已经进入部署态元年,核心诉求从“技术炫技”转向“实际应用价值落地”。“具身智能真正的分水岭,不只是AI模型进入物理世界这么简单,而是机器人开始进入真实的工作流。”彭志辉表示。当前智元的产品主要覆盖下游工业和商用场景,应用场景包括工业物流、商用接待讲解、门店导购等,与这套框架一致。在这个时间节点,智元所强调的涵盖人形机器人本体、小脑、大脑、训练数据、下游场景的全栈能力,无疑是它用来区别于行业其他玩家的筹码。事实上,这并不是今年智元与宇树在“谁是人形机器人行业一哥”上的首次交锋。 图源 / 宇树科技微博年初,Omdia发布报告显示,2025年人形机器人出货前三名为智元机器人、宇树科技、优必选,对应出货量分别为5168台、4200台和1000台。然而,这一说法很快遭到宇树的反驳。宇树发布官方公告称,根据自身统计数据及第三方核验,其2025年人形机器人出货量才是全球榜首,2025年的实际出货量约为5500台。并解释称,目前各种机器人形态多样,建议大家勿把不同类型的机器人数量,直接合并在一起对比。如果把时间拉长,智元与宇树的“暗战”,不仅体现在出货量的争夺上,更渗透在产品布局、上市进程、公开表态等多个层面。从产品布局来看,双方的发力节奏高度同步。智元成立于2023年2月,同年8月推出首款人形机器人产品远征A1,宇树科技早年主要做四足机器人,同样是在2023年8月推出旗下第一款人形机器人H1,双方几乎同时吹响了进军人形机器人赛道的号角,从一开始就形成了直接的竞争关系。在“人形机器人第一股”的争夺上,两家企业的竞争同样激烈。2025年7月,宇树正式启动科创板上市辅导。几乎同期,智元通过智元恒岳收购上纬新材63.6%的股份,成为上纬新材的控股股东。尽管此次收购并未涉及资产重组,智元的核心资产也未注入上纬新材,不构成借壳上市的条件,但仍有不少人认为这是智元在资本市场层面对宇树的一次回应。在公开表态上,宇树创始人王兴兴在2024年接受采访时曾表示,“不在意今天那些高额融资被做软件、做大模型出身,却还没有真正核心产品的精英创业公司拿走”。当时的智元刚刚成立一年多,在发布公司首款人形机器人产品后不到一年时间就融了5轮资。话没有点名,但行业内的人都听得懂。截至目前,行业内关于“谁是行业第一”的争议仍未平息,有人认可智元的规模化落地能力和全栈自研优势;也有人看好宇树的硬件实力和成本控制能力,认为其产品更具性价比和市场竞争力。行业第一之争,同样也是路线之争。02.两条路,走向同一个战场智元与宇树的发展路径差异明显。在产品形态和技术路线上,宇树的核心优势集中在硬件研发和运动控制领域,走的是“硬件为王、成本制胜”的路径。宇树最大优势是95%以上的核心硬件自研,涵盖电机、减速器、传感器、编码器、电池等关键部件,并且有60%的零件可以在人形机器人和机器狗之间复用。这种硬件自研的模式,使其在成本控制上做到了行业极致。例如,宇树自研的M107关节电机成本仅为进口电机的50%。 图源 / 宇树科技微博在技术层面,宇树更集中在机器人“小脑”的开发,也就是运动控制和执行。通过“模仿+强化学习”运控算法,以及自研的高精度电机,确保机器人在动态环境中快速响应与稳定运行。产品形态上,G1基础版主打性价比,H1定位高端工业场景,覆盖了消费级、工业级等多个细分领域。从财务数据来看,宇树的这条路是跑通了。其2025年营收超10亿,净利润超6亿元,是目前人形机器人赛道中极少数实现盈利的公司之一。但资本市场给出的估值,却较为保守。市场上对于宇树的估值更强调它的硬件属性。其上市前的最后一轮投后估值约120亿元,一位具身智能投资人告诉「定焦One」,以宇树招股书募资金额和股本占比估算,公司的发行估值大约是420亿元,对应的PS仅有20多倍,这还是在溢价普遍偏高的A股科创板板块,对应到港股市销率只会更低。智元也面临同样的估值“困境”,最新估值150亿元,尽管它走的是一条与宇树截然不同的“软硬结合”之路。智元定位于具身智能全栈服务提供商,在本体、核心零部件、大小脑方面均有自研能力,但更注重软件层面的突破,先后推出了Genie Operator-1(GO-1)、WholeBodyVLA和GenieReasoner三款具身大模型,构建起完善的大模型体系。其中,GO-1引入ViLLA框架,能从人类视频中学习,智元称该架构能够在少样本或零样本场景中拥有较好的泛化能力。在产品形态上,智元构建了远征、精灵、灵犀三大家族产品矩阵,覆盖全尺寸、半尺寸、轮式、四足等多种形态,重点聚焦工业和商用场景,产品售价相对较高,定位偏向中高端市场。上述投资人告诉「定焦One」,智元更喜欢强调自己在具身通用大脑上的能力,但实际上行业内目前没有比较统一的评测标准,在通用模型能力上,智元和宇树的实际差距并不大。从估值逻辑来看,智元也是一家偏硬件的公司。多位具身智能行业投资人和分析师在与「定焦One」的交流中普遍认为,和大多数人印象中的“泡沫”不同,当前市场对人形机器人公司的估值其实较为谨慎。一个比较明显的对比是商业航天赛道,同样作为近年来兴起的新兴科技赛道,商业航天一家年营收几千万的民营火箭头部公司,连年亏损且没有实现火箭回收,一级市场的估值就能轻松突破200亿元。这种差距归根结底在于下游需求。由于当前人形机器人行业内缺少可比上市公司样本,不少投资人会选择用AI大模型公司作为对标对机器人公司进行估值,并在此基础上叠加一个“折价系数”,这个折价系数反映的是下游需求,市场在用“折价”来对冲不确定性。“AI大模型公司的下游需求是明确的,商业航天尽管产品形态还不成熟,但下游发射卫星的需求也是明确的,人形机器人目前依然没有明确的下游需求场景。”一位投资人说。无论是走硬件路线的宇树,还是走软硬结合的智元,在成为行业第一前都要先回答同一个问题:2026年,人形机器人的使用场景在哪里?03.行业第一,这个时候为什么格外重要?智元和宇树之所以在这个时间点争抢行业第一,是因为资本流向在变。据IT桔子统计,2026年Q1国内具身智能赛道披露的融资事件已经超过50起,累计融资额约200亿元,同比增长近60%。但仔细观察获得高额融资的公司,如银河通用、星海图、自变量、千寻智能等,普遍在通用具身模型,也就是机器人“大脑”领域具备一定的技术储备和竞争优势,而不是单纯做本体硬件的厂商。4月中旬,主攻具身大脑的它石智航宣布完成超4.5亿美元(约合人民币超30亿元)融资,打破中国具身智能创业公司单轮融资纪录;另一家具身通用模型公司深度机智,有报道称投资人为了约见其创始人“排起长队”。这说明资本的偏好正在向具有一定通用模型能力的企业聚拢,谁家的机器人能服务更多真实场景,谁才能成为真正意义上的行业龙头。而想让机器人“进家庭做家务”“进厂打螺丝”所要解决的首要问题是泛化能力,即机器人能否在没有专门训练的新场景里,自主完成任务。泛化能力的核心瓶颈是数据。大语言模型可以调用以万亿计的人类语言数据进行训练,但具身智能所需要的真实世界数据与语言数据有几万到几百万倍的差距,就好比要用一块砖去盖一栋楼。目前行业内解决数据不足主要通过三种方式:互联网图文视频+仿真合成数据(量大但数据质量最差)、自主采集的人类第一视角数据如UMI(依赖人工采集,不如第一种丰富)、机器人真机数据(最贴近机器人工作场景,数据质量最高但量最少)。 智元采用的是三种方式结合来训练机器人大脑。核心的ViLLA架构相比于行业内普遍使用的VLA架构多了一个Latent环节(隐式规划器),理论上能用更少的真机数据实现更好的泛化效果。宇树则采用的是VLA架构,在2024年就推出了基于Transformer架构的UnifoLM大模型,模型训练数据上主要依赖真机数据,并在2025年11月推出了“身外化身,全身遥操作平台”。一位具身智能技术人员向「定焦One」解释,“身外化身”可以理解为对数量不足的真机数据的一种补充。由工作人员穿戴动捕设备获得数据,再结合一些机械臂数据合成真机数据。目前行业内有不少公司采用这一路线来补足真机数据不足的问题,做的比较好的有宇树、西湖机器人等。总结来看,两种方案都有合理性,不过,一位具身智能投资人告诉「定焦One」,目前行业内对于用哪种数据训练具身大脑仍然有比较大的争议,技术路线有主要依赖合成仿真数据的银河通用,有依赖真机数据的宇树、星海图、自变量,也有用多种数据结合的智元、星动纪元等等。“但他们的共同点是,没有一家在泛化能力上表现远超同行。”这就是智元和宇树真正要面对的竞争格局。真正的威胁,未必来自对方,反而可能来自那些正在加速融资的通用大脑公司。突破通用大脑技术、实现机器人能力全面泛化的企业一旦出现,无论是宇树的硬件优势还是智元的全栈叙事,都可能面临冲击。它可能是当前100多家具身智能公司中的某一家,又或者这家公司还没有成立。*题图来源于智元AGIBOT微博截图。