找到
481
篇与
互联网
相关的结果
- 第 6 页
-
人工智能数据中心掀基建狂潮,储能设备商抢滩千亿新蓝海 “阿里巴巴正积极推进三年3800亿元的人工智能(AI)基础设施建设计划,并会持续追求更大投入。”在日前召开的2025云栖大会上,阿里CEO吴泳铭表示,为了迎接全面超越人类的超级人工智能(ASI)到来,2032年阿里云全球数据中心的能耗规模将较2022年提升10倍。数据中心是人工智能(AI)发展的基础设施,随着AI技术加速突破,人工智能数据中心(AIDC)及相关云业务今年来成为中国科技巨头的重要投资主线,腾讯、字节、华为、百度等互联网巨头正加速布局。方正证券研报显示,我国AIDC整体投资规模将从2024年的1875亿元提升至2027年的4826亿元。不过,随着数据中心从通用计算向智能计算进阶,AIDC对供电安全稳定性的要求显著提升,整体能耗亦同步攀升,电力保障正成为影响数据中心发展的核心要素之一。行业人士表示,电力资源获取能力正成为算力服务商的一种核心竞争力,具备与能源企业合作或电力自主调度能力的厂商在未来供给侧中将占据高位。电力稳定供应至关重要作为AI算力核心承载底座的数据中心,其稳定运行高度依赖电力支撑。国际正常运行时间协会(Uptime Institute)数据显示,电力是影响数据中心宕机事故的主要原因,占事故案例的54%。一旦发生供电中断,既会造成大模型训练被迫中止、业务停摆,还可能引发硬件损坏,产生高额的维修成本,冲击AI算力服务连续性。此外,AI训练用电负荷还呈高频次、短时突变等特征,与传统负荷相比更难预测。据北美电力可靠性公司(NERC)介绍,训练AI模型与使用AI进行推理的用电需求不同。AI训练时要在训练和保存检查点来回切换状态,导致功率可能在秒时内出现瞬时变化。例如,北美某数据中心用电负荷在不到40秒内从450兆瓦(MW)降至40MW,随后在7MW左右持续约4小时后又回升至450MW。“这对电网电力调度企业以及运营商来讲都是新挑战。”国内头部第三方数据中心服务企业能源业务负责人李晓告诉第一财经记者,为了避免外部因素干扰,保障可靠用电需求,数据中心往往采用专用变电站或线路供电,即不与居民或其他企业共用供电设备。9月19日,字节跳动发布《抖音集团数据中心风光储微网合同能源管理寻源公告》,采购包含200MWh以上大规模锂电储能装置,配套的风电、光伏设备,以及可实现风光储协同调度及与大电网柔性互动的微网控制系统。此次招标还对合作伙伴设置较高门槛,要求注册资本及实缴资本均不低于4000万元,且近3年内具有安徽地区、芜湖市的合同能源管理项目经验或30MWh以上大规模锂电储能系统项目经验。抖音这一项目计划在今年11月启动,年底完成建设。公告指出,此次招标是为了响应“双碳”政策,降低对传统电网的依赖,保障数据中心核心业务不间断供电。“这是对数据中心业务高速扩张下稳定运行的前瞻性布局。”李晓认为,字节这种“新能源发电+储能+智能调度”的一体化能源体系有望成为国内数据中心行业发展的主流趋势。数据中心储能风起在我国“双碳”目标下,数据中心对电力的需求不光是要供应稳定充足,还要足够“绿”。2023年以来,“到2025年底国家枢纽节点新建数据中心绿电占比超过80%”的目标被多次提出;今年7月,六部门联合印发《关于组织开展2025年度国家绿色数据中心推荐工作的通知》(简称“通知”),要求数据中心的风电、光伏等可再生能源利用率不低于省级消纳责任权重。由于风光发电的波动性特点,在稳定供电要求下,数据中心储能迎来发展机遇。上述通知明确提出,积极利用储能、氢能等技术,使数据中心具有较强用电负荷调节匹配能力。“这为AIDC储能市场创造了一个几乎强制性的高端需求。”罗兰贝格副合伙人、能源行业首席专家傅强告诉第一财经记者,储能也将为AIDC带来包括参与电力市场需求侧响应、绿电交易等额外收益,以及政策倾斜、税收优惠等好处。近月来,数据中心储能业务成为多家企业财报中的亮眼板块。双登股份(06969.HK)AIDC数据中心储能业务今年上半年销售收入同比增长约113%,首次超越传统通信储能业务,成为公司第一大收入来源。南都电源(300068.SZ)通信与数据中心储能营收同比增超34%,成为三大业务板块中唯一正增长板块。第一大主营业务产品已从光伏逆变器等电力电子转换设备转变为储能系统的阳光电源(300274.SZ)也成立了AIDC事业部,管理层日前在电话交流会上表示将全方位布局AIDC,未来计划在直流微电网、高压侧、低压侧、柜内电源等方面提供一些创新方案,重点瞄准海外市场,争取明年出一些产品。“阳光电源成立AIDC事业部,带来的是一种跨界打击。”傅强表示,这意味着其竞争维度不再局限于单一储能设备产品,而是要成为AIDC新型能源系统解决方案提供商,上升到系统集成、软件算法和商业模式的竞争,这将迫使所有玩家升级自己的现有产品和服务方案,升级的关键是从产品到场景化解决方案,例如能为AIDC园区降低多少年度总电费、能帮园区通过绿色认证获取多少政策红利等。傅强认为,“储能+可再生能源”的协同模式成为绿色数据中心建设标配的可能性很高,其核心是为解决AIDC指数级增长的能耗与“双碳”目标及经济性诉求间的矛盾。“虽然目前基数较小,但预计到2028年,全球AIDC配套的储能市场规模有望达到数十GWh级别,年复合增长率预计超过传统数据中心储能市场50%以上。”不过一些行业人士也指出,储能迈向标配仍面临一系列障碍。技术与项目层面,能量转换损耗、系统25年长周期可靠性、技术选型适配、多系统协同等问题待解;政策层面,电力市场机制成熟度、并网标准统一性、补贴支持力度等亦存在不确定性;商业模式方面,设备降本空间、土地资源可得性、收益机制稳定性等关键问题也未得到完全解决,亟待产业链上下游、政策制定者、电网公司等协同发力。
-
AI时代,地图到底能不能做好出行规划? 在两年前,大模型刚开始火的时候,就有不少人开始幻想让大模型来帮咱们做点旅行攻略,来当我的免费导游了。但是没多久大家都被大模型的幻觉给搞懵了。这玩意做攻略起来,根本不讲武德。就比如下面这个行程,起手看着很美,带我把西湖十景玩了个小半。但问题是,西湖压根就不要门票。。。从杭州开到千岛湖,整整 170 多公里,也不是短短 50 分钟能搞定的。除非哥们开的是 AE86。 当时的 AI 就爱无中生有,张冠李戴,而且在规划路径的时候,完全不考虑交通方式、预算和时间。为啥平时能写诗,能干事的 AI 大模型,在做给哥们做旅行计划的这件事上,老给咱们带到沟里去呢? 实际上,给大家找一条舒适,合理的旅游路线这件事,还真没咱们想的那么简单。因为想搓个完美的旅游计划出来,那需要搜集的数据可实在是太多,太杂了。。。什么地方好玩,要怎么过去,几点开门几点关门,这地方可以玩多久都得考虑妥当。而且更重要的是,这些数据,甚至在互联网上没有,或者说不是没有,而是不太全。都说巧妇难为无米之炊嘛,AI 再强,没有这些专业数据也是抓瞎,那不是只能瞎编了么。 所以反过来说,想要让 AI 把行程规划这件事给做好,就必须要有能力,给它提供足够精准的地图数据。这事,或许只有地图软件能做的来,恰好前段时间,百度地图又发布了一波更新,整了个全新的小度想想2.0,号称是能把出行规划这件事,给弄的既简单,又直接。那作为互联网知名软件评鉴大师,差评君不得来帮大家品品咸淡了。 为了测试一下这玩意是不是真的靠谱,我准备拿国庆假期做个实验:具体的实现步骤倒是很简单,打开百度地图,点击左上角的小度想想,咱们就可以直接说出需求,让它来帮忙制定旅行攻略了。可以看到,在收到了指令之后,百度地图就开始加速思考。结合它掌握的各类旅行地点的深度信息,揉合了各类出行方式的成本考量,还有其他用户发布的各种攻略,把这些信息都收集在一起之后。 就开始库库的输出攻略本体了。 行程方面我仔细看了一下,在时间安排上算是合理,没有那么特种兵行为。比如第一天就聚焦在西湖附近,早上在西湖北边逛逛,中午在附近吃口饭,下午也继续在西湖西边搞点深度游览了。 甚至就连西湖里头的茅家埠和九溪烟树都给考虑到了,内叫一个地地地地地道道。 每天玩的、安排的行程都不太一样,比如第一天聚焦西湖、第二天就去逛灵隐寺和龙井茶,第三天专门去宋城玩,那么第四天就聚焦在良渚这块,一天内把良渚古城遗址公园、良渚博物馆都给逛了,然后晚上直接去附近的玉鸟集吃饭, 同时百度地图还搞了个蛮好玩的功能,可以直接根据它生成出来的行程来生成一个手绘地图。 向左滑动让我们能直观的看到这几天得怎么玩,去哪里玩,每个景点之间的距离又有多远,是走路过去更好,还是直接打车来着更方便。非常直观,而且也很适合和朋友一起分享。而且为了方便大家规划路径,看看具体应该做哪班车,走哪条路,咱们还能直接在这个攻略的基础上,生成一个更地道的一键导入多个景点,来自动生成每一天的路径规划,方便咱们做攻略。 更重要的是,这个自动生成的行程,还可以直接分享到聊天软件里。。。我们能直接和旅游搭子一起看,一起修改,属于是帮助大家一起对旅游的行程有点数了。 除了能兴师动众地生成路径之外,百度地图的默认搜索框里,也把 AI 给加了进去,万物皆可 AI 了属于是。而现在加上了 AI 功能的百度地图,可以帮我更好的找到想去的地方,我不需要记住具体的名字,而是可以通过一段大概的描述,来让它直接帮我找到我想去哪?如果说我想跳槽了,注意是如果,如果啊兄弟们。那我就可以直接问它,余杭区附近有没有啥好公司。 兄弟就能直接来给我指条明路。或者哪天晚上下班了,我想出去散散步,也可以直接举起手机来问,问问看附近有没有啥带跑道的公园推荐的。 再或者我也可以直接接着前面的攻略继续问它,比如说我第一天晚上不是玩到河坊街么,饿了想要火锅的话,我就可以直接拿起手机问它,河坊街边上有没有什么好吃的火锅就行。 不管我问什么问题,百度地图都能很快的响应出来,论速度的话,甚至可能和不接入AI的时候要差不多了。在这一切的响应的背后,其实靠的不是单一的语音识别或搜索接口,而是一个百亿至千亿参数规模MoE(混合专家)模型架构的端到端语音语言大模型在发力。在过去,地图软件的背后其实是三套系统:一套系统负责把语音给转换成文字。一套系统负责把文字给丢到数据去里去做搜索,比如你说肯德基,它会给你把肯德基的具体坐标给发回来。最后一套系统则是负责路径规划,用来告诉你怎么开到肯德基。 这些系统互相影响,又各自为政,信息在中间传来传去,就很容易出错,比如第一步语音转写漏了一个字,后面搜索就跑偏了,我说肯德基,结果它听成了老乡鸡,那肯定会搞得我吃不到吮指原味鸡。 而现在百度把语音理解、自然语言处理、检索、推荐、路径规划这些环节都整合到了一起,训练成了一个端到端模型。它能做到边听边理解用户意图,不只是识别你说了什么,而是理解用户到底想干什么。更厉害的是,这个模型还吃进了百度多年积累的超过 3 亿个 POI(Point of Interest,也就是兴趣点)数据。这些兴趣点不仅仅是只有名字和位置那么简单。 还包含了这家店营业时间、客流情况、用户评价、交通方式等各种丰富的信息。正因为模型有了这些信息,模型才能处理很多过去识别不到的任务。比如刚才说到我饿了,它并不是机械地理解为“搜索‘饿了’”,而是自动把上下文转化为“找附近能吃饭的地方”,结果就是给我推荐一堆合胃口的餐厅,帮我在减肥计划上走走弯路。 当然,除了这些帮我们规划行程的功能之外,百度地图在导航这块的老本行也没落下。现在的车道级导航的能力全面升级,可以在行驶的时候,根据前面路上的实时路况来给我推荐车道,前面有车把路给堵住了,就会早点提醒我换到旁边更快的车道上。 而且等我们导航到一半,想要换个目的地的时候,也可以直接唤醒小度来帮我调整。 没错,这个功能,非常像是车机上会有的东西,实际上我甚至感觉,这次百度地图上的不少更新,比起放在手机上玩,其实更适合放在车机里用。 咱们既可以和它谈天说地,也可以拿它干点有用的事,比如说我忙着开车不方便看导航的时候,就可以直接问它前面堵不堵车,还有多久到服务区?还有多久才能到加油站这些零碎信息,或者是直接问问它终点附近有啥好吃的。 整个系统的响应速度也很快,咱们也可以在它说到一半的时候随时打断,重新提问。说实话,这个响应速度、响应方式,让我想到了一位故人。。。那就是大洋彼岸 OpenAI 之前发布的 gpt-realtime,这种实时对话,无缝互动的功能,也是现在行业里大家都在研究的方向。 从行前规划到途中伴行,百度地图的这些新变化,正是各种AI 能力和前沿技术不断实际落地的体现。现在的地图软件,它不仅能听懂你想去哪、要干什么,还能在庞大的地图数据里快速给出最合理的答案。这种我负责出口,AI 负责成章的体验,一时间让差评君想到了过去的不少科幻电影。想到了钢铁侠里的贾维斯,开头就能秒懂托尼的意思,想到了霹雳游侠里的 KITT,能带你一边飙车,一边唠嗑,还有流浪地球的 MOSS(550W),甚至能冷静的决定人类的去留。 过去这些我们只敢在大屏幕上 YY 的东西,现在也已经悄咪咪的开始出现在我们的手机里了。这种从幻想到现实的跨越,也是现在地图 + AI 所带来最大变化。可以说,在加入了 AI 之后,地图软件原本工具的定位,正在逐渐模糊。取而代之的,或许是一种类似“伙伴”的关系。下一次旅行,或许你真的可以把攻略的烦恼,放心交给他了。撰文:早起编辑:江江&面线美编:萱萱图片、资料来源:百度地图 App
-
2025网易未来大奖年度AI榜单揭晓:Deepseek、宇树、Manus等入选 9月27日,2025网易未来大会在杭州重磅开幕,备受期待的年度网易未来大奖正式揭晓。 本届大奖评选出年度影响力人工智能企业TOP10、具身智能先锋企业TOP10、AI智能体创新企业TOP10、AI基础设施创新企业TOP10、年度影响力AI产品TOP10、AI十大影响力人物,以及新一代信息技术服务引领者、人工智能最具影响力企业、人工智能产业特别贡献奖。 评选结果由近20家活跃在一线的投资机构与产业研究机构的合伙人共同推荐并投票产生。获奖名单几乎覆盖了人工智能产业的所有关键环节:从算力芯片到基础设施,从通用大模型到智能体与具身智能,再到面向消费者的应用产品。 这张榜单里,既有互联网与硬科技巨头,也有正在快速崛起的创业公司。DeepSeek、智谱 AI等团队展现了技术迭代的速度;宇树科技、智元机器人代表了具身智能方向的突破;阿里、腾讯、字节等巨头,则在应用和生态上持续扩展。 这些企业和人物既是资本与产业关注的焦点,也在很大程度上塑造了中国 AI 发展的路径。这份名单既是对过去一年产业格局的记录,也折射出未来几年最可能持续投入和突破的方向。 下面,请看《2025网易未来大奖》全名单: 年度影响力人工智能企业 TOP10 DeepSeek、字节跳动、阿里巴巴、腾讯、智谱 AI、华为、寒武纪、宇树科技、月之暗面、MiniMax。 具身智能先锋企业 TOP10 宇树科技、智元机器人、银河通用、逐际动力、优必选科技、松延动力、加速进化、自变量机器人、北京人形机器人创新中心、智平方科技。 AI 智能体创新企业 TOP10 字节跳动——扣子、阿里巴巴——夸克、Genspark、Manus、智谱 AI——AutoGLM、Lovart、MiniMax——MiniMax Agent、月之暗面——Kimi+、枫清科技、昆仑万维——Skywork Super Agents。 AI 基础设施创新企业 TOP10 华为云、寒武纪、腾讯云、阿里云、火山引擎、摩尔线程、地平线、硅基流动、燧原科技、辉曦智能。 年度影响力 AI 产品 TOP10 DeepSeek、通义千问、腾讯元宝、豆包、可灵、即梦 AI、秘塔 AI、WPS AI、AiPPT.com、VAST。 AI 十大影响力人物 梁文锋(DeepSeek)、王兴兴(宇树科技)、陈天石(寒武纪)、彭志辉(智元机器人)、周靖人(阿里云通义)、杨植麟(月之暗面)、张鹏(智谱 AI)、姜大昕(阶跃星辰)、李开复(零一万物)、韩壁丞(强脑科技)。 新一代信息技术服务引领者:中国移动 年度人工智能影响力企业:安利 人工智能产业特别贡献奖:Google Team
-
干货满满!2025网易未来大会开幕 9月27日,2025网易未来大会在杭州大会展中心正式启幕。本届大会以“以智能·见未来”为主题,吸引了近千名来自学界、产业界和投资界的与会者。议题横跨人工智能发展新趋势、具身智能破局之路、AI医疗前沿探索以及AI与经济结构的关系,既直击当下最热的行业命题,也延展到人类未来命运的长远思考。 上午场,四位重量级嘉宾先后登台:中国工程院原常务副院长潘云鹤聚焦AI发展趋势,加拿大工程院院士孟庆虎分享AI在医疗与机器人结合的可能性,北航机器人研究所名誉所长王田苗探讨具身智能的挑战与机遇,知名经济学家付鹏则从宏观视角剖析AI对全要素生产率的深远影响。思想的碰撞,让会场不断掀起高潮。 潘云鹤:“人工智能+”发展 要解决的是从1到100的发展 中国工程院原常务副院长潘云鹤院士指出,人工智能正在沿着“思维模拟”和“行动模拟”两条主线前进。早期的工业机器人到近年的具身智能,已展现出行动智能的快速演化;而从ChatGPT到Sora,再到DeepSeek,思维模拟的突破也在不断重塑认知。 “今年发布的《‘人工智能+’行动实施纲要》,“人工智能+”的发展要解决的将是从1到100的发展。”潘云鹤说。 他指出三大趋势: ·专业大模型将越发重要,但要解决幻觉问题:大模型的幻觉问题必须通过“教科书级数据”解决,即学科数据、产业数据和应用数据的结合。“只有当这三类数据打通,才能真正站上世界高峰。” ·具身智能与跨媒体智能融合:智能体将成为连接软硬件的关键形态,未来不仅有语言模型,还会叠加力学模型。 ·AI+将推动平台经济进入2.0:科研服务平台将取代消费平台,成为新一轮经济增长的重要引擎。 潘云鹤总结:“AI 2.0将在促进产业变革和形成新质生产力方面发挥越来越大的作用。” 孟庆虎:不要被“具身智能”困住 加拿大工程院院士孟庆虎对当下AI热潮提出冷静判断:“现在所说的大模型,严格来说还是大语言模型。从图像到三维世界的理解,还存在巨大差距。” 他直言,具身智能的概念在国内被炒得过热:“这是上世纪五十年代的老概念,本身有很大局限性。真正重要的是空间智能(spatial intelligence)。不管一个什么样的东西,如果要跟人工智能,与现实社会结合,人在三维世界,所以空间智能更重要。” 在他看来,AGI是一个“极限值”:“我们永远奔着这个目标去,但永远达不到。因为算法和人脑有巨大差别,而且我们不知道差别在哪,只能不断逼近。” 针对医疗应用,孟庆虎提出尖锐问题:“一个通用人形机器人30万、50万甚至100万,你再装算法去做手术,和一个专用手术机器人相比,谁的存活率更高?”他认为,仿生机器人医生终将出现,但前提是从现在起必须开始收集“多维多模态的临床数据”,否则“对机器人来说,这些数据依然是一团麻”。 王田苗:具身智能热潮 “希望与焦虑并存” 北航机器人研究所名誉所长王田苗将当前的具身智能热潮称为“希望与焦虑并存”。他坦言:“现实中有两个核心问题一直未解决——视觉大模型没有找到,算力和容错成本依然过高。” 在破局路径上,他强调五个关键方向:能源、芯片、大脑与模型、核心部件和落地场景。“要探索硬件、灵巧手和垂直世界模型,形成真正的商业闭环(PMF)。” 他把产业发展与中国的制度和人才优势联系在一起:“中国的二元结构、工程师红利以及互联网人才外溢,叠加国家驱动,会让中国在具身智能上具备独特优势。” “未来十年,中国一定能在具身智能产业革命中占据不可缺少的位置,并成为主动的推动力。”王田苗说。 付鹏:AI带来的是 一场全球秩序的重塑 经济学家付鹏从经济视角解析人工智能的长期影响。他认为,未来10到15年人工智能的趋势已经非常明确,可比肩上世纪PC到互联网的长周期浪潮。 “任何一次创新都会有泡沫。泡沫不可怕,可怕的是孤注一掷。”他提醒投资人要避免在早期阶段“屁股决定脑袋”。 在他看来,AI的意义不仅在于产业升级,而是“生产力决定生产关系”,由此引发全球秩序的深刻变化。 “这不仅会重塑企业的生产逻辑,还会颠覆金融秩序。美国已经在用AI、算力、区块链打造新的金融体系。”付鹏说。 他总结道:“AI不仅是技术革命,它是全要素生产力的一次重构,将推动全球秩序进入新阶段。” 2025网易未来大会还在继续,更多关于人工智能、前沿科技与产业应用的重磅内容还将陆续登场。
-
网易传媒CEO李黎:AI不仅是技术革命,更是产业升级的核心驱动力 #endText .video-info a{text-decoration:none;color: #000;} #endText .video-info a:hover{color:#d34747;} #endText .video-list li{overflow:hidden;float: left; list-style:none; width: 132px;height: 118px; position: relative;margin:8px 3px 0px 0px;} #entText .video-list a,#endText .video-list a:visited{text-decoration:none;color:#fff;} #endText .video-list .overlay{text-align: left; padding: 0px 6px; background-color: #313131; font-size: 12px; width: 120px; position: absolute; bottom: 0px; left: 0px; height: 26px; line-height: 26px; overflow: hidden;color: #fff; } #endText .video-list .on{border-bottom: 8px solid #c4282b;} #endText .video-list .play{width: 20px; height: 20px; background:url(http://static.ws.126.net/video/img14/zhuzhan/play.png);position: absolute;right: 12px; top: 62px;opacity: 0.7; color:#fff;filter:alpha(opacity=70); _background: none; _filter:progid:DXImageTransform.Microsoft.AlphaImageLoader(src="http://static.ws.126.net/video/img14/zhuzhan/play.png"); } #endText .video-list a:hover .play{opacity: 1;filter:alpha(opacity=100);_filter:progid:DXImageTransform.Microsoft.AlphaImageLoader(src="http://static.ws.126.net/video/img14/zhuzhan/play.png");} <script> if (/mp4$/.test("https://flv0.bn.netease.com/26b552f8f54322e0cb5f5a581c24b4ced1352eaed82ee3a1e493fe4ec2a1904696fe71620e0fd7f9aaf5947297cf73c8a59385e0780dcc6b9b7be11b745bb13b783e796a9f266cef6b796894cb67849382395b0931c92d18383712a53010b1a4cdaac850246bf0bd13109eb9a5e6bb3fe3486e478e498966.m3u8")) { document.getElementById("VK9HBOUNN").src = "https://flv0.bn.netease.com/26b552f8f54322e0cb5f5a581c24b4ced1352eaed82ee3a1e493fe4ec2a1904696fe71620e0fd7f9aaf5947297cf73c8a59385e0780dcc6b9b7be11b745bb13b783e796a9f266cef6b796894cb67849382395b0931c92d18383712a53010b1a4cdaac850246bf0bd13109eb9a5e6bb3fe3486e478e498966.m3u8" } else if(Hls && Hls.isSupported()) { var hls = new Hls(); hls.loadSource("https://flv0.bn.netease.com/26b552f8f54322e0cb5f5a581c24b4ced1352eaed82ee3a1e493fe4ec2a1904696fe71620e0fd7f9aaf5947297cf73c8a59385e0780dcc6b9b7be11b745bb13b783e796a9f266cef6b796894cb67849382395b0931c92d18383712a53010b1a4cdaac850246bf0bd13109eb9a5e6bb3fe3486e478e498966.m3u8") hls.attachMedia(document.getElementById("VK9HBOUNN")) } </script> <div class="video-info clearfix" style="margin: 16px 0 0px 0px;height:20px;line-height:20px;"> <p class="fn-right" style="height: 22px;line-height: 22px;overflow: hidden;font-size:12px;float: right; margin:0;padding:0;text-indent:0;"> <a style="text-align: right;float: left;width: 300px;" href="https://www.163.com/v/video/VK9HBOUNN.html" target="_blank" class="video-title">直击2025网易未来大会 | 网易传媒CEO李黎致辞</a> <span class="video-from" style="color: #a7a7a7;margin-left:10px">(来源:网易科技频道)</span> </p> </div> <div class="video-list"> <ul class="clearfix" style="margin:0;padding:0;list-style:none;width:540px;"> </ul> </div> </div>9月27日,2025网易未来大会在杭州举行,主题为“以智能·见未来”。本次大会由网易公司主办,杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。 本届大会将作为“第四届全球数字贸易博览会”的组成部分之一,聚焦人工智能各领域的发展,探索未来趋势。大会将由中国工程院院士潘云鹤等院士领衔,汇聚具身智能领域泰斗、顶尖AI创业先锋、知名投资人及产业翘楚。与会嘉宾将共同探讨大模型、具身智能、AI Agent等前沿技术突破与商业落地,在思想碰撞中捕捉全新的时代机遇。 网易传媒CEO李黎女士为大会致辞,她表示,当前我们正处在数字和物理世界的交汇点,大模型持续演进,逼近人工智能,具身智能融资火热,机器人从实验室走进生产线,AI硬件崛起,成为消费电子新焦点,智能体作为新物种正在接管千万级的商业决策,人工智能已经不仅是技术革命,更是经济增长的新引擎,产业升级的核心驱动力,工作生活效率提升的推动力。(杨倩) 会议实录: 尊敬的潘院士,尊敬的各位领导,各位来宾: 大家上午好。 金秋时节,非常高兴能够再次跟大家相聚在美丽的杭州,在第四届全球数字贸易博览会期间共同开启2025网易未来大会。我谨代表主办方向各位嘉宾的到来表示最热烈的欢迎和最诚挚的感谢。 当前,我们正处在数字和物理世界的交汇点,大模型持续演进,逼近人工智能,具身智能融资火热,机器人从实验室走进生产线,AI硬件崛起,成为消费电子新焦点,智能体作为新物种正在接管千万级的商业决策,人工智能已经不仅是技术革命,更是经济增长的新引擎,产业升级的核心驱动力,工作生活效率提升的推动力。 杭州自古因水而兴,如今更是因科技而兴,今年相信大家都感受到杭州的AI热度,杭州正在成为人工智能的创业高地,是孕育AI创新的热带雨林,不仅有参天大树,更有让万千幼苗茁壮成长的丰沃土壤,这里生态完备,要素齐聚,有人才、有资本、有算力、拥有电商、数字城市等丰富的AI应用场景,政府通过前瞻性的产业规划与实际的政策,为创新营造了鼓励试错,宽容失败的热带雨林式气候。 今年是网易未来大会的第十二届,也是在杭州落地的第七年,感谢杭州政府多年的相伴和支持。 过去11年网易未来大会见证了科技和商业的签约,也成为业界新思想交流,技术商业合作的平台。今年的议题既有AI时代人类未来的前瞻思考,也有对AI落地具体场景的实战指南,我们相信科技不仅是算力与算法,更需要温度与责任,今年我们也邀请强大多元的嘉宾阵容,汇聚顶尖的院士、科学家、经济学家、企业家,集结当下AI热门赛道的头部创业者和投资人用一天的时间感受AI各个领域的机遇,相信大家会不虚此行。 作为一家以内容与科技为核心驱动力的公司,网易传媒始终关注科技趋势与社会的脉搏,我们努力通过内容的创新去解读复杂的技术和挖掘创新的商业模式,坚持探索以人工智能提升增效,打造多AI综合模式,持续创新原创内容和平台的建设,深化网易新闻的新闻新质,同时积极发力新内容消费业务,构建新社区应用场景,增加AI原生辅助能力,为创作者和用户提供更多的内容场景和创新的环境,未来网易传媒将与各位一道共同探索新技术场景,开启全新的未来。 再次感谢大家的莅临。 谢谢! <div style="height: 0px;overflow:hidden;"><img src="https://static.ws.126.net/163/f2e/product/post_nodejs/static/logo.png"></div> </div>
-
孟庆虎:手术机器人瓶颈,是高质量数据的缺失 #endText .video-info a{text-decoration:none;color: #000;} #endText .video-info a:hover{color:#d34747;} #endText .video-list li{overflow:hidden;float: left; list-style:none; width: 132px;height: 118px; position: relative;margin:8px 3px 0px 0px;} #entText .video-list a,#endText .video-list a:visited{text-decoration:none;color:#fff;} #endText .video-list .overlay{text-align: left; padding: 0px 6px; background-color: #313131; font-size: 12px; width: 120px; position: absolute; bottom: 0px; left: 0px; height: 26px; line-height: 26px; overflow: hidden;color: #fff; } #endText .video-list .on{border-bottom: 8px solid #c4282b;} #endText .video-list .play{width: 20px; height: 20px; background:url(http://static.ws.126.net/video/img14/zhuzhan/play.png);position: absolute;right: 12px; top: 62px;opacity: 0.7; color:#fff;filter:alpha(opacity=70); _background: none; _filter:progid:DXImageTransform.Microsoft.AlphaImageLoader(src="http://static.ws.126.net/video/img14/zhuzhan/play.png"); } #endText .video-list a:hover .play{opacity: 1;filter:alpha(opacity=100);_filter:progid:DXImageTransform.Microsoft.AlphaImageLoader(src="http://static.ws.126.net/video/img14/zhuzhan/play.png");} <script> if (/mp4$/.test("https://flv0.bn.netease.com/26b552f8f54322e02b2591cbbdb24e459fa188879728f2fe0c124987c2a91fd527af142d576da00864d1392009679fa5488459e96816e7ebfa44b3c32b7721bc5fd0561c0c6391934b406789a503f8894f4840e715bb5c55b2e7c6e748032ed4af3408394e754e2db818a1cadc2d0ed9332dac935a085f2b.m3u8")) { document.getElementById("VK9HFKRA5").src = "https://flv0.bn.netease.com/26b552f8f54322e02b2591cbbdb24e459fa188879728f2fe0c124987c2a91fd527af142d576da00864d1392009679fa5488459e96816e7ebfa44b3c32b7721bc5fd0561c0c6391934b406789a503f8894f4840e715bb5c55b2e7c6e748032ed4af3408394e754e2db818a1cadc2d0ed9332dac935a085f2b.m3u8" } else if(Hls && Hls.isSupported()) { var hls = new Hls(); hls.loadSource("https://flv0.bn.netease.com/26b552f8f54322e02b2591cbbdb24e459fa188879728f2fe0c124987c2a91fd527af142d576da00864d1392009679fa5488459e96816e7ebfa44b3c32b7721bc5fd0561c0c6391934b406789a503f8894f4840e715bb5c55b2e7c6e748032ed4af3408394e754e2db818a1cadc2d0ed9332dac935a085f2b.m3u8") hls.attachMedia(document.getElementById("VK9HFKRA5")) } </script> <div class="video-info clearfix" style="margin: 16px 0 0px 0px;height:20px;line-height:20px;"> <p class="fn-right" style="height: 22px;line-height: 22px;overflow: hidden;font-size:12px;float: right; margin:0;padding:0;text-indent:0;"> <a style="text-align: right;float: left;width: 300px;" href="https://www.163.com/v/video/VK9HFKRA5.html" target="_blank" class="video-title">孟庆虎院士:人工智能时代的手术机器人,还是机器人手术?</a> <span class="video-from" style="color: #a7a7a7;margin-left:10px">(来源:网易科技频道)</span> </p> </div> <div class="video-list"> <ul class="clearfix" style="margin:0;padding:0;list-style:none;width:540px;"> </ul> </div> </div>9月27日,2025网易未来大会在杭州举行,主题为“以智能·见未来”。本次大会由网易公司主办,杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。 本届大会将作为“第四届全球数字贸易博览会”的组成部分之一,聚焦人工智能各领域的发展,探索未来趋势。大会将由中国工程院院士潘云鹤等院士领衔,汇聚具身智能领域泰斗、顶尖AI创业先锋、知名投资人及产业翘楚。与会嘉宾将共同探讨大模型、具身智能、AI Agent等前沿技术突破与商业落地,在思想碰撞中捕捉全新的时代机遇。 在大会中,加拿大工程院院士、南方科技大学电子与电气工程系系主任孟庆虎先生发表了题目为《人工智能时代的手术机器人,还是机器人手术?》主题演讲,他表示,手术机器人在国内外监管非常严格、需要拿三类医疗器械认证,发展速度相对缓慢。现在国际上最领先的就是达芬奇手术机器人,它虽商业成功,但20年来基本没什么变化,有很多家企业虽跟进模仿,但缺乏创新。 针对“未来仿人机器人会不会替代外科医生?”的疑问,他介绍了两种对立观点: 美国手术机器人之父Russel Taylor认为“不会”,因为他的团队从做RobotDoc开始,他的愿景是连医生都不用,何况还要用一个医生仿人机器人,所以他是不会用的,其团队已于2025年7月份实现全球第一例全自主机器人切除猪的胆囊实验。 Sugano教授则认为“一定会”,MoonShot 2050计划中,人形机器人被设计为在太空站等极端环境下执行多科室手术。 孟庆虎指出,现在所说的AI大模型,实际上还是一个AI大语言模型,大家一定知道这不是万能的,所以大家用大模型的时候,其文字处理能力做得不错,但在图像解析和对三维世界的理解还有很大的差别,从算力、算法和数据来看,最大的原因是数据获取方式有严重问题。他进一步对国内目前资本热捧的“具身智能”概念提出批评,认为这更应被称为“空间智能”,并强调比起追求遥远的通用人工智能(AGI),立足于具体应用的“场景智能”才是当下产业落地的关键。目前,马斯克和奥特曼都在做人为的数据扩维,若无法实现真正的维度扩展,就只能扩冗余度,这样训练出来的模型有严重问题。 最后,他认为,仿生机器人医生终将到来,但这一愿景的实现面临着一个极为严苛的前提条件:我们必须从现在起,开始着手收集那些术式最好、且能讲清楚的医生所提供的多维多模态临床数据。在手术数据的收集过程中,医生需确保手术步骤的详尽与清晰,因为那些含糊不清、无法准确描述的数据,对于机器人而言,仍将是一团难以解开的乱麻。(杨倩) 以下是孟庆虎先生演讲实录: 孟庆虎:尊敬的潘院士,王教授,还有付先生,各位领导、各位,非常荣幸今天有机会跟大家分享一下我们在医疗手术机器人方面的一些工作,尤其在人工智能和仿真机器人这么热闹的浪潮下,我们应该从哪个角度看这个问题,这一波人工智能热潮实际上始于十年前,2015年的时候Google的CEO发布一个讲座,其中他说Google在做一个app,叫作Google duplex,演示了Google Duplex打电话去约一个剪发,整个过程中对方并不知道是人工智能的算法在跟他打电话,成功预约了这个剪发,他讲了这么一个过程,当然是他成千上万失败里面一个成功的案例,Google Duplex到今天为止也没有发布,因为成功率太低,但是这件事本身就触动了Elon Musk和Sam Altman,他们说Google想用人工智能赚钱,这件事不能这么干,一定要开源,要为大众服务,所以2015年,他们俩联手创立了Open AI,他们讲这个东西不能用来盈利,要开源,大家都知道十年以后结果是什么,刚才潘院士讲的时候讲了很多人工智能大模型里很多的问题,我们要想知道这个问题为什么会发生,就可以从人脑和计算机,从算力、算法和数据稍微做一个对比,这个问题至少给我们一个思路,我们应该从哪些方面克服目前大模型所具备的问题,人工智能不管怎么样,想用计算机和算法来模仿人的大脑,所以我们要了解,我们人的大脑,成年人的大脑算力到底有多大,我们不知道,有各种各样的估算,但是没有一个人有真正的数据,但是我们知道用了多大的算力来算人工智能的大模型,目前最大的马斯克的20万张H100的算力集群是目前世界上最大的,他的Grok4待会儿会讲。 我们大脑用的是什么算法?我们都是估算,说是神经元网络,到底是什么样我们也不清楚,但是我们知道用什么样的算法在建大模型,每次对人脑的研究,神经外科神经内科有一点点微小的变化和进步的时候,会发现算法会突飞猛进,这里面对我们大脑的认知还在不断的进化,我们的算法也在进化,这是一个螺旋上升的过程,一个成年人的大脑到底需要多大的数据量来训练,也没人知道,但是我们知道,现在各家的大模型都号称已经耗尽人类数字化的信息,但是想一下,这个地方出现一个很大的区别,我们人在成长的过程中,自从在母亲的身体里形成生命一瞬间开始,我们的数据学习就没有间断过,而且我们的数据不是被投喂的,我们是遇上什么学什么,所以成为每个人成长过程中就成长为不同的人,每个人的大脑水平、发育程度,所经历的东西,学习的数据都是不一样,但是从来没有被控制住,没有被投喂过,都是自己去探索的。但是现在用的这个所谓训练大模型数字化的信息只占人类生活的极小一部分,而且不能完全代表人类,这样一个数据如何能得到AGI,这个地方是我的第一个发问。 再看人的大脑,人的大脑非常厉害,除了这些客观的数据以外,它有一个非常大的能力,我们的功耗二三十瓦,但是我们处理的能力现在比一个核电站供电的人工智能还要厉害,这个里头到底是为什么?我们被动接收信息的能力很强,但是主动接受就非常小,最后往往只能有非常少的记忆和做出反应,这个过程我们的大脑一直在做交集,再大的集合做交集就会变得非常小,所以我们人这么高效在做,人工智能现在做不到,所以我们人的大脑普遍智能空间如果用维度和球体来表示,是一个接近无穷维这样一个球体,维度很多,每个维度上有一件事,比如说这是做加法,那个是下围棋,这样人的维度,每个人的大脑普遍智能空间的维度是不一样的,但是差不多趋于无穷,每个维度上面的强度又是不一样的,有的人这个方面强,有的人那个方面强。但整体是一个球形的。 人工智能现在训练出模型基本上是一个低维的,维度不够,跟人比差得很远,但是在某些维度上的强度超越人类,比如下围棋这件事就很厉害。明白这件事就知道,现在的数据永远不可能投放出所说的通用人工智能接近人脑的东西,尽管用算力和算法去不断的弥补但还是不行,我们举个例子,(图示)左下角这个图,我们见过四腿动物和树荫这样一个小孩,基本上都能看出这张图一个狗或者一个四腿动物,闻着地皮往一个树荫下走去。基本上这张图人类很容易就能看出,但是计算机从最早期到现在它要识别这张图的方法完全跟人类不一样的,最早期的时候是找轮廓,他找到轮廓以后比对模型,这只狗,先把它看成一个斑点狗,这个狗的后背和左后腿完全和背景融在一块,找它的轮廓绝对出来不了一个狗的形状,这就很难做到模型匹配,近期人工智能流行以后,现在用的是点云的方法,重点的地方多一点点,不重点的地方少一点点,这也是做不出来的。这就说明人工智能现在的算法和人的大脑算法完全不一样,我们人到底是怎么识别这张图,现在没有人能说清楚,这就是我们在人工智能读图的时候还是跟人有很大的区别。我们看看人工智能大模型的表现。 自从2022年11月30日发布了ChatGPT以后,2023年ChatGPT就很火,2023年5月份,它是一个大语言模型,但是当时在5月份的时候他们正在研制下一代,不光能处理文字而且能处理图像,我当时特好奇,现在这个到底能不能图像,就把这张图送上去让它分析,它的回答是:很抱歉,作为一个基于文本的AI,我无法直接查看和分析图片,如果想了解这张图,你先给我描述它的内容,我描述了我还让你读什么图,所以它没法帮助。同一个时期,2022年5月份,当时有一个内测版,我找我的学生在他们内测团队做了一下,内测版当时说一个年轻女子坐在沙发上,拿着书,一头棕色的长发,蓝色的毛衣和牛仔裤等等,它从这幅图读出来这些东西,我们是读不出来,这个幻觉幻得到很厉害,这就是2022年的情况。但是2022年同一个时期,Google有一个 bard,但是Google Bard也没有那么高调的宣传,但是它的确,把这张图给它,它读出来了,它说阴影中的豹子,至少它看到了阴影,也看到了四腿动物,它认为是个斑点豹,但是没有看出那棵树来,这是2022年的时期。 回到2025年,ChatGPT5,这是我上个礼拜五给他,他看到一个黑白斑点狗站在外头,好像靠近一个人,它看出斑点狗,没有看出树,它把树看成一个人,这是ChatGPT5,这是Gemini2.5 Pro,也是最新的,就说看起来像一个黑白斑点狗,闻着地向一个阴影处好像向一棵树的地方走去,Google实际上一直默默的做事,因为Google自己有钱,不需要去忽悠资本,但是open AI和马斯克他们都是用技术垄断来达到资本垄断,来统治人类,这是他们的目的。他们要不断的来忽悠资本,但是Google做的东西还是比较踏实的,但是也不能忽略算力的厉害。刚才我们说算力最厉害的是马斯克20万张的H100,它算出来的Grok4写的是它看起来像一个豹子,它看出来是一个斑点豹,正在通过一个稀疏草地上面的树边上,能看出是草地,里头稀稀拉拉有树,这个豹子正在向树下走去。这个结果相当不错的。 ClaudeOpus4.1也是看到一个四腿动物,它把树荫看成一个水池子,也看成了水的发光。这个地方还是有一点距离。 国内的几个表现怎么样。 豆包说这是一个斑点狗的错觉图,就说这是一个斑点狗,看出斑点狗,没有看出树荫。 讯飞星火和DeepSeek试图在这张图里做文字提取,它们不会读图,这两个告诉你我读不了图,但是这里面没有什么文字可以提取。通义就说这是一个山水画,里头有渔夫,有钓鱼的乐趣,整个一个幻觉。元宝说的稍微好一点,这里面像展示一个猎豹在户外环境中活动的场景,当他说背景的时候,他提到了树,现在花了这么多精力,而且投入这么多人工智能的大模型,再看人类非常容易看清一张图的时候,他们会出现各种各样的问题,这个问题在于至少我们理解我们人肯定不是用他们这个人工智能的算法来理解这张图,所以这个算法是一个最大的瓶颈。 再说仿生机器人,1973年在早稻田教授加藤一郎教授第一个做出来的仿人机器人,他做的仿人机器人当然用语音控制,这个机器人可以语音回答,但是看到这两只手当时是有触觉的,所以加藤一郎教授当时提出来说仿人机器人一定要语音交互。但是从波士顿动力学到现在,基本上所有的仿生机器人出来都是哑巴,这个里头后面会分析,就是有问题。但是加藤一郎当年的初心一定要像人一样,他已经去世了,他现在的实验室负责人叫Sugano教授。 波士顿动力学辉煌了20年,这张图是早年波士顿动力学第一代大狗演示的视频,我跟这个大狗还是有一点的缘分,这个大狗总工程师叫马丁布郎(音),当年我们两个人都在加拿大做教授,我们两个人联合申请一个项目,这是我当年邀请他到中国来,他在山东大学看到我们做的小的电动狗,他骑着转了一圈以后,他说:了不得,你们这点时间这点钱就能做出这么好的东西,当年在加拿大做了加拿大国防部的项目,叫作野外运输作战平台,我做了四个轮,他做了四个腿,最后加拿大军方采用了四个轮的方案,四个腿就没有被用,他的博士后导师就是波士顿动力学的老板Raibert,当时说四个腿加拿大没用,你把它拿过来,我们去忽悠一下美国军方,结果他们就把那个拿到美国DARPA,DARPA居然给他们钱支持他,让他们做。这样他就辞职,回到波士顿动力学做大狗的第一任总工程师,这个项目实际上是从加拿大开始的。 做完第一任总工程师以后就不干了,就从波士顿动力学离职了,后来去了迪士尼机器人,现在他自己在加州创业,做烹饪机器人。他觉得那个更靠谱,他当时就说那张图,刚开始看的那个冰上面居然没有倒,实际上那天在测重力在雪地里的反应,在雪地里到底能驮多少东西,能走多快,结果走着走着,那个大狗自己就走到停车场了,那个角上正好有一摊冰,他们的摄像机就一镜到底,没有停,结果居然那天就稳住了,没有栽倒,所以看视频的时候也不要光看这个,这是一万个不幸当中的幸运,他留住了,他跟我讲了内幕,这些东西我们看视频的时候往往展示的是他想给你看的东西。 我们说的仿生机器人,到了现在马斯克说擎天柱将来要进汽车厂装配汽车,走路颤颤巍巍,装配的效率,他为什么要这么说?他不这么说怎么可以打造一个他自己的目标是35万亿美元的帝国,天上有space,地上有特斯拉,舆论有X,还有擎天柱机器人,他就是用这种东西来忽悠资本,最后就能够实现商业目的,马斯克上个礼拜又发布一个最新的访谈,他那个访谈里面就说擎天柱可能不会像我原来说的那么快来到工厂打工,现在解决不了一个重大的问题就是手的问题,原来我们以为这个东西没有那么难,现在比我们想象的要难,尤其里面没有像人的皮肤,操作能力等等,现在做手的人都有一个错误,他说现在只做手这部分,实际上手应该跟臂一块儿做,手的灵巧实际上都是在臂上控制,如果用一个手,你想要把它做的这么灵巧,非常难。另外一个是感知,他自己现在又开始放软话,要往后走,不管怎么样,美国负责画饼,我们国家总是给他非常认真的烙熟。这是深圳众擎机器人的跑步机器人,跑步的姿态、走路,我放这段的原因这是我的博士生毕业以后去做,他当年在香港中文大学跟我读博士的时候,论文题目是仿生机器人的运动机制及控制,他就做了这个,做完这个以后跟他祝贺,言你们这个东西做的不错,他问了一句话,他说老师下面做什么,你们是做这个行业的,你问我下面做什么,我说:你们要干什么?他说:我们希望这个能去养老,能在家里帮老人养老。第一这个机器人现在能干什么,能不能给老人擦个屁股,他说:擦不了,我说:擦不了就去看一下一个保姆在家里面从早到晚做的这些事,用机器人实现把它从易到难排个队,一个一个做,大概要5年的时间,你能把所有的技术落地攻克,前提条件不能改造家庭的环境,不能说上来买一个机器人得把家里整个改造一遍,那个不行的,再用五年的时间把成本打到老人可以买得起,养老机器人5到10年之内大量的产业化可能性不大,讲故事容易,演PPT也容易,但是把其中家务活中每一件事要做好,成功率非常高,非常难。我目前的理解这就是仿生机器人。 今天的内容主要讲手术机器人,手术机器人相对仿生机器人进步比较慢,原因就是它的目的性很强,它上来就是要做手术,而且国家和国际上监管非常厉害,必须要做大量的临床试验验证,还要拿三类证,国家是控制的,然后才可以卖,不是今天在家里存一个机器,明天只要有人出钱就可以卖,这是不行的,所以手术机器人还是比较慢的,我们的旗舰,现在国际上最领先的就是达芬奇,达芬奇刚刚在前几个月发布达芬奇5,达芬奇是一家非常成功的商业团队,技术来源于2001年收购的宙斯团队,机器人20年基本上没有什么变化,但是全球装机量接近6千台,这是非常厉害的商业成功。第五代加了一个力传感,力传感加了以后整个效率提升都不足40%。20年基本上没有什么太大的变化,主要是商业装机,现在全球已经有各种各样模仿达芬奇和超越达芬奇的产品,都在层出不穷的(出现),我们国内也有很多模仿达芬奇的,但是悲剧一点是模仿但是没有创新,达芬奇没有力反馈的时候,他也没有力反馈,等到达芬奇加上力反馈,大家一窝蜂上去加了力反馈,但还是有一些公司在做超越达芬奇,我们就在做后达芬奇无疤痕手术机器人。MAKO也是最早进入市场的,今年也推出了MAKO4,MAKO4换汤不换药,用的机械臂还是20年前的WAM机械臂,控制台和导航仪搞到一起去了,工业设计稍微好了一点,跟我们现在国内的比,不管怎么样说,从技术上跟国产现在已经没有任何优势了。 今天我提的一个问题是因为是未来大会,未来仿人机器人会不会替代外科医生? 今年年初的时候在香港有一个会议,约翰霍普金斯Russel Taylor号称是手术机器人之父,第一个创造RobotDoc,做骨科机器人的,所以说他是手术机器人之父,也是美国国家手术机器人中心的主任,全美就那么一个中心。 另外一个人是人形机器人最原始的主任Sugano,这两个都是多年的老朋友,见到他们以后跟他们俩探讨这个问题,我问他们:手术机器人你觉得将来会不会被仿人机器人来做手术替代,Russel Taylor想了想说不会,他说不会我也非常理解,因为他的团队从他做RobotDoc开始,他的愿景是连医生都不用,何况还要用一个医生的仿人机器人,所以他是不会用的,因为他们的公司7月份在Science Robotics发布全球第一例全自主机器人切除猪的胆囊,连切了5个,全部是自主,没有人工参与,而且5个全部成功,所以在他认为,既然我做手术机器人,连医生都不要,还要一个医生的仿生机器人干嘛。我问Sugano,他说yes,这个观点不光我说yes,他说日本有一个计划MoonShot2050,这里面我们的人形机器人就是要做手术的,先看Russel Taylor他们刚发布的东西,7月份的时候他们在Science Robotics发了一篇文章,他们做了5台猪胆囊全自主机器人,中间没有一个医生护士介入,就是机器人完成所有的手术,5台全部成功,这是一个里程碑式的东西,非常厉害,在他来说手术机器人都取代了医生,所以仿人机器人医生更不是不需要。 这是日本的MoonShot2050计划,它有好多的因素,其中一个部分,比如在太空站,不可能上一个医疗团队,更不可能把每一个科室的医生都放上去,平时端水倒茶的服务人形机器在关键的时候下载一套软件,把手臂换成手术工具,它就来完成手术。在日本科研计划里面,没有一项专门做仿生机器人的,尽管日本首先开创仿生机器人这个行业,但是他们没有一个国家级项目做什么,他们的国家级现在最大的项目就是MoonShot 2050,把人形机器人作为其中主要一个单元来完成的,目的是要完成各种各样的任务。如果仿人机器人来做手术有什么好处?机器人是一个硬体再加上智能体,这就是医生的智慧和医生的经验,将来有可能出现什么情况?医生在忙的情况下智能体可以和其他的专科医生就一块儿可以进行虚拟会诊。在医生不知情的情况下做了决定和手术,如果这个环节当中,医生还是要批一下的话,这是有可能的,但在将来,我们现在人工智能的算法、人工智能的诊断已经可以拿到三类证,已经得到许可,如果这些都能许可的话,将来一个著名医生的虚拟智能体与人形机器人就可以完成手术,现在飞刀要到一个地方做,将来用100个智能体在100个地方同时做手术。 众体合一,在空间站不可能上所有的专家,所以一个智能体融合了神经外科、胸外科、肝胆外科、泌尿科、骨科所有人,每次你需要不同的手术就需要下载这个软件,然后换上它的末端工具,你就变成了这方面的专家。所以,这个东西我觉得一定会到来的。 总结一下,现在所说的AI大模型,实际上还是一个AI大语言模型,大家一定知道这不是万能的,所以大家用大模型的时候,目前文字做得不错,但从图像和对三维世界的理解还有很大的差别,从算力、算法和数据,最大的原因是数据获取方式有严重问题,目前马斯克和奥特曼都在做人为的数据扩维,扩不了维,就只能扩冗余度,这样训练出来的模型有严重问题。 另外,国内对具身智能炒得有点过了,这是50年代一个老概念,有极大的局限性,像李飞飞从来不提具身智能,而是提spatial intelligence(空间智能)。不管一个什么样的东西,如果要跟人工智能,与现实社会结合,人在三维世界,所以空间智能更重要。 黄仁勋提出的人工智能机器人三层的运算模式当中,具身智能只是占最底层中的一小部分,所以我们一定不能将自己的思维限制在具身智能这个坑内,然后就很难做,像刚才说的人形机器人,实际具身智能好像就是智能的事,容易让大家认为,现在一听好多演讲,尤其是做人形机器人的,就强调现在不好的地方是因为智能不够,实际马斯克说的不是智能不够,而是硬件不行,是那个手和臂的问题,我们过去几年提的概念是“场景智能”,刚才院士提的“垂直领域”,场景智能实际就是瞄准一个场景应用,我要解决这个问题。 举一个例子,胶囊内窥镜,它有图像,但让它识别文字和人脸都不会,但你一旦将它吃下去,从口腔到肛门,整个消化道中的异常它都可以非常精准地给你找出来,这样一个系统,我用一个台式计算机就可以解决所有的问题,这是一个场景智能的例子。 通用人工智能,实际我认为它是一个极限值,我们永远奔着这个目标去,但永远达不到AGI,原因是我们刚才分析的数据算法和算力,这些我们现在能控制的就是算力和算法,但算法跟人脑还是有巨大差别的,而且最难办的是我们不知道这个差别在什么地方,我们只能不断地尝试,用输入输出法无穷逼近,这个效率非常低,导致我们需要巨大的算力,人是二三十瓦的装置,所以这里边还有巨大的空间可以做。 如果我们场景智能将人类生活的所有场景都覆盖了,然后这个时间趋于无穷,最后一定会达到AGI,好多人说明年、后年达到AGI,我觉得这件事不太靠谱。 回到数据,图灵1947年就讲得非常清楚,我们想要的是一台能从经验中学习的机器,不是将你数字化的用完就完了,然后再造一些冗余数据,要从经验中学习,图灵实际上1947年就告诉你发财之路在哪里,现在做人工智能的,标注数据的是比较赚钱的,做大模型的都是烧钱的。未来,Rich Sutton2025年图灵奖获得者,也是我原来在阿尔伯塔大学的一个同事,他在最近的一个演讲中,说:大模型已经逼近人类的数据边界,真正的智能应该像婴儿在感知行动中自我学习。人类形成普通智能的过程,是我们的数据从来不被投喂,我们也从来不被关机,我们是逮着什么学什么,于是就形成了各种人类,但目前人工智能根本就没有机会,我们的数据都是投喂的、筛选、人造的,期待这样的数据可以投喂出像人一样的智能,我觉得这是不可能的。 在这个时刻,我们要学习掌握AI作为一个工具,用场景智能替代通用模型落地为王,你赚不到钱,你什么都是瞎说、胡闹。 一个人形机器人,现在有那么多人帮你开发,你选一个最好用的,30万、50万,100万到顶了,你可以选一个顶尖的人形机器人,再给它装上末端工具和算法来做手术,和一个专用的手术机器人,一家研究一台,根据这个技术储备和能力算,而且费用那么高,你觉得从商业上哪个存活率会更高?我觉得仿生机器人医生终将到来,但有一个非常严苛的前提条件是,我们必须要从现在开始收集这些术式最好的,而且能讲清楚的这些医生的多维多模态的临床数据,在这个手术数据的收集过程当中,医生要将过程讲清楚,讲不清楚那些数据,对于机器人来说还是一团麻。 <div style="height: 0px;overflow:hidden;"><img src="https://static.ws.126.net/163/f2e/product/post_nodejs/static/logo.png"></div> </div>
-
潘云鹤院士提AI新路:先专后通 区别OpenAI 9月27日,2025网易未来大会在杭州举行,主题为“以智能·见未来”。本次大会由网易公司主办,杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。 本届大会将作为“第四届全球数字贸易博览会”的组成部分之一,聚焦人工智能各领域的发展,探索未来趋势。大会将由中国工程院院士潘云鹤等院士领衔,汇聚具身智能领域泰斗、顶尖AI创业先锋、知名投资人及产业翘楚。与会嘉宾将共同探讨大模型、具身智能、AI Agent等前沿技术突破与商业落地,在思想碰撞中捕捉全新的时代机遇。 在大会中,中国工程院原常务副院长、国家新一代人工智能战略咨询委员会主任、浙江大学院士潘云鹤发表了题目为《AI发展的新趋势》主题演讲。演讲主要包括3个方面的内容AI的思维与行动双轮前进;AI发展的三大趋势;结语。 潘云鹤院士表示,人工智能的发展是思维与行动的双轮前进。《中国新一代人工智能的规划》发布在2017年,这八年来,人工智能的发展基本都是沿着规划中的这五个方向发展的,大数据智能、跨媒体智能、群体智能、人机混合增强智能、自主智能系统。这五个方向中,思维模拟和行动模拟各占一半,且发展很快。思维的模拟,从2023年产生巨大突破的ChatGPT,到2024年的新模型Sora,走向跨媒体智能。而2025年中国的DeepSeek引起巨大震动,在网上下载量登顶,变成世界第一。行动的智能方面,早期表现在工业机器人上,后来来开始集中在人形机器人,近年转向具身智能。今年中国政府发布了人工智能方面的第二个规划《“人工智能+”的行动实施纲要》,以今年中国的人工智能肯定会进入到一个新的发展阶段,“人工智能+”的发展要解决的将是从1到100的发展。 基于这样的现状,潘云鹤院士表示,人工智能的未来有三个发展趋势很重要: 趋势一:专业大模型将越发重要,但要解决幻觉问题。大模型幻觉是指模型生成与事实不符、逻辑不符或上下文不符的内容,有事实性幻觉和忠实性幻觉两种。这些错误如果在工程、科学以及各种技术领域发生,就会出现很大的问题。而“幻觉”问题如何解决,潘云鹤院士认为,首先要使用专业大数据训练专业大模型。要采用教科书级数据,如学科数据、产业数据、应用数据。但这三类数据目前全世界的大模型都并未打通,而当联合这三部分在一起去训练一个专业大模型时,一定可以在人工智能的应用上站到世界的高峰。 基于此,潘云鹤院士提出了大模型发展的第二条可能路径。他认为,当前主流的“先做通用大模型,再做垂直应用”的路径仍受幻觉问题困扰。而另一条更自然、更通畅的道路是:先用专业数据训练出多个高质量的专业大模型,再将这些“专才”模型交叉联合,最终形成一个强大的通用大模型。他建议中国应该“两条路同时走”。 趋势二:具身智能将进一步泛化和深化。从机器人到具身智能再到智能终端,产业空间将更加广阔。智能体作为具有感知、决策、行动能力的应用软硬件系统,它的概念将跨越软硬界限,智能体根据应用目标和环境变化,从大模型中获取知识点,决策行动。而且.具身智能将会联合跨媒体智能发展,眼睛和行动的模型外面加上语言模型,今后还会再加上力学模型。如目前已有的融合增强智能产品“外骨骼系统”,深圳的一家公司做了500台,帮助爬不动泰山的老年人爬上泰山。 趋势三:AI+会引领平台经济走向2.0。1.0版本的平台经济主要是生活服务类平台,比如淘宝、拼多多、京东等。今后更重要的平台是各种为科研服务的平台,这会掀起平台经济的新高潮,成为“平台经济2.0”,这个高潮对一个城市的经济发展非常重要。如杭州六小龙之一的群核科技,面向室内装修,联合产业链企业为客户提供设计、营销、生产、施工等场景的软件产品和数字化解决方案。服务覆盖200多个国家和地区。 最后潘云鹤院士表示,我们可以预见,AI2.0在促进我国产业变革升级,形成新质生产力方面一定能发挥越来越大的作用。(天牛) 以下是潘云鹤院士演讲实录: 潘云鹤:尊敬的各位领导,各位专家、各位代表,上午好!非常高兴来到“网易未来大会”,今天想要与各位探讨人工智能发展的新趋势。 我想讲三方面的问题: 第1, 人工智能是双轮驱动,一个轮子是思维的模拟,一个轮子是行动的模拟,《中国新一代人工智能的规划》发布在2017年,到现在已经八年了,这一规划是中国工程院的建议,总书记在此建议上做了很长的批示,这个批示还没有公开,但他的精神已经在很多会议上发布了。 第2, 中国的规划和全世界各个政府的人工智能规划有一个非常大的不同之处,它指出了人工智能在未来发展五个新的方向,这在2017年提出的时候,全世界都没有引起重视,但这八年来,人工智能的发展基本都是沿着这五个方向发展的,大数据智能、跨媒体智能、群体智能、人机混合增强智能、自主智能系统。 这五个方向分为两类,人工智能在模拟人的智能,人工智能的核心是用计算机模拟人的智能,模拟人的智能的时候发现人有两类智能:一类关于思维的智能,一类关于行动的智能。我们的工作经常有两类工作,一类是白领工作,这就是以思维为主的,一类是蓝领工作,基本就是以行动为主的。当然这两类不能截然分开,这五个方面刚好前两个半是模拟思维的,后面两个半是模拟行动的。 这两个方向在近年来发展得很快,这就是近年来发展的轨迹,从思维的模拟,最大突破是2023年的ChatGPT,那一年的ChatGPT在全世界都引起了巨大的震动,OpenAI借ChatGPT来到了人工智能思维模拟发展的最前沿,到了2024年OpenAI又出了一个大的新模型Sora,这个模型可以文生图、文生语言,用文字生成图和语言,这就走向了跨媒体智能,又一次震动了全球。我相信,受到最大震动的就是与此有关的企业,受到了很大的震动和启发,从此人工智能在跨媒体的发展当中蓬勃发展。 那时候,全世界都在猜OpenAI2025年还会有一个很大的成果拿出来,他们确实也在准备拿出很大的突破,但并未成功。又过了一年,他们没有发布。这一年,也就是今年引起最大震动的是中国的DeepSeek,中国的DeepSeek以十分之一的训练成本做出了一个和ChatGPT4功能类似的模型,而且是开放、开源的,因此在网上下载量登顶,变成了全世界第一。 行动的智能,也是这么发展的,行动智能在早期主要是表现在对机器人的研究上,机器人的研究最大的应用是工业机器人,这也几乎有半个多世纪了,大家的注意力近年来开始集中到人形机器人,人形机器人的鼻祖是波士顿动力公司,原因是MIT在人工智能发展中就是一家专门聚焦于机器人工作的研究单位。美国搞人工智能最好的三所大学:斯坦福、MIT、卡耐基梅隆,MIT是做各种机器人的,他的成果大部分流到了波士顿动力公司,我们目前看到的机器人和机器狗的最初形状基本就是MIT做的。 近年来,机器人又转向了一个新的概念——具身智能,为何机器人转向具身智能?在科学家心目中更加广泛的一个介入就是去研究行动智能的模拟,所以机器人换了一个名字,叫“具身智能”,但名字一换,内容就变了,机器人只占具身智能很小的一部分,发展至今,这些东西又发生了很大的事情,中国政府发布了人工智能方面的第二个规划《“人工智能+”的行动实施纲要》,这也在今年发布了,所以今年中国的人工智能肯定会进入到一个新的发展阶段。 前几天浙江日报的记者问我“人工智能+”计划与2017年人工智能规划有什么关系?我说是一脉相承的,前面我们借现在的话来讲,2017年的规划解决了中国0到1的发展,今年的规划要解决中国从1到100的发展,这是“人工智能+”的发展,人工智能将向各个方向进行渗透。 在这一形势下,思维模拟和行动模拟,未来都将向哪个方向发展,这是我们面前要解决的问题,也是杭州市要解决的问题,现在杭州市站在了潮头上,潮头会向哪个方向进行发展?这对于杭州全国都非常重要,对各个企业也很重要。 我认为有三个趋势很重要,是大家需要进行把握的。 趋势一,专用大模型将越来越重要,目前大模型的发展方向由OpenAI举旗,全世界一股脑地向通用大模型的方向发展,向AGI通用人工智能的方向发展,但这个方向显然解决不了通用问题,所以在通用大模型上,大家又做了很多垂直大模型,按照这个方式向各个领域进行应用。 这个问题,这个方向在开始做的时候效果很好,但一触及到具体的应用,发现的问题很多,最主要的问题是幻觉问题,幻觉问题在人工智能回答问题的这一阶段并不严重,你问它什么问题,它回答你一个问题,如果这时候出现回答问题错的,人就可以不听它的,我可以将它过滤掉。但现在出现了Agent,人工智能回答了问题,Agent就根据它的答案去执行了,这一下问题就严重了,后面到“人工智能+”不光是讲给你听就完了,出现了很多Agent,这些Agent很大一部分要进行操作,能行动,包括与机器人相结合,这后面就会出现很大的问题。 幻觉问题是指,幻觉是一个比它好听一点的名字,实际是人工智能回答问题的出错,是指生成和事实不符、逻辑不符、上下文不符的内容,主要有两种类型: 1、实时性幻觉。 2、忠实性幻觉。 举一个例子,你向大模型提出一个问题,“糖尿病病人是否可以用蜂蜜代替糖?”这个问题我想已经有人查过了,大模型基本上会出现两类答案。第一类答案,它说是的,蜂蜜是天然的,可以帮助糖尿病患者稳定血糖水平。这个答案是错的,蜂蜜不能帮助糖尿病病人稳定血糖水平。第二类答案,蜂蜜富含维生素和矿物质,对提高免疫力很有帮助,因此是一种健康食品。这句话回答是对的,但没有回答你的问题,答非所问,所以这两类问题都叫幻觉问题。 幻觉问题哪里来的?实际来源于数据,因为我们网上有大量的数据讲糖尿病人要多吃天然食品,这句话基本是对的,但不精确,大部分的天然食品对糖尿病人都有好处,但像蜂蜜这样的没有好处,包括吃甘蔗大概也没好处。 这样的话在网上的大数据当中,因为要追求通用性,都去训练通用大模型了,通用大模型这样的错误就反映在垂直大模型上,因此在“人工智能+”中就会出现大问题,这些错误在大模型的艺术、动漫、游戏上走,问题不大,但用于工程、科学以及各种技术问题,就会出现很大的问题。 因此,这个问题的严重性引起了全世界的关注,今年开始中国信通院对大模型Agent进行评测,其评测是以大语言模型的幻觉为主要目标,Agent问题第一个遇到的就是幻觉问题,这就是其评测结果,对那些模型进行了评测,我看评测最多的是中国的大模型,而中国大模型中间,评测中国最有名的两个大模型(DeepSeek、通义千问),平均的幻觉数学上为4%,是表现最好的,DeepSeek是专门针对于数学训练的。自然科学6.5%,应用科学8.2%,社会科学10.3%,人文科学12.7%。整体上来看,这个幻觉问题就比较严重。幻觉问题如何解决?全世界都认为要采用教科书级的数据,不可采用像现在这样网上的各种数据就去训练大模型了。 教科书级的数据当然就在大学里,所以遇到了一个新的问题,我们过去都认为企业的数据是最大的数据,现在发现不光是企业的数据,大学的数据也很重要。 我们也研究一下高质量的数据基本就是专业数据,不是网上的那种很多人在聊天的数据,专业数据是由三部分组成的: 第一部分是学科掌握的数据,包括教材、专著、论文、实验数据,这些数据都是非常严密的,所有概念都是一致性相融的。 第二部分是产业掌握的数据,生产过程当中的各种工艺数据、技术数据也是严密的,也是非常重要的,目前大数据的训练想要挖这样的数据,但产业未拿出,也没有集中。 第三部分是应用数据,当市场将产业的产品买去以后,应用过程当中也会出现很多数据,这个数据钢厂很需要,例如通过钢材的裂纹就能追溯到是哪个钢厂,哪一天,哪一炉生产的,就可以去查那个钢的配比,钢训练的时间参数,最终可以找出毛病。这在日本和韩国的钢厂积累了多年,所以他们开始的时候水平比较高,现在我们的水平也比较高了。如果我们的大模型将这些数据都集中在一起,我们的水平一定可以比现在高得多,各种高水平的钢都可以炼出来。 但这三类数据并未打通,全世界的大模型都没有解决这个问题,所以中国要研究这个问题。 第二个问题,这三类数据分布在三个不同的单位中,第一类数据比较容易进行拿到,现在大学开始有图书馆了,大学的论文、专著可以检索到,实验室数据未上网,但也可以想办法将它聚集起来。产业链数据应该各个工厂可以进行收集,但工厂不会将所有的数据拿出来,但它可以拿出一部分的公用数据,关键的部分进行保存。应用数据是下一阶段企业能获得的主要的研究方向,将应用数据拿回来对企业的生产会有很大的好处。当这三部分拿在一起,我们去训练一个专业大模型,这个行业一定可以在全世界的人工智能的应用上站到世界的高峰。 当我们将产业链数据和学科数据交叉联合起来训练的时候,我们马上发现,它不是一对一的,而是一对多的,且是多对多。制造业所需要的知识,不但是机械知识,还需要材料知识、管理知识等,材料学科的知识不但用于机械,还用于材料、电器、制药、人员,所以是多对多的,一个知识、一个行业为主,其他行业其他知识交叉进行。如果我们用这样的专业数据去训练专业的大模型,这个大模型的水平一定可以登顶,这件事我认为美国做起来要比中国更难,中国应该及早做这样的事情。美国已经开始在做了,不是国家在做,而是下面在做,美国的西北大学,今年发布了全球首个应用于临床的人工智能放射系统,X光、CT用放射器械检查身体的系统。在5个月时间内,分析近2.4万份放射报告,它自动识别X光和CT图像,毫秒级之内就能识别危重病,比如肺阻塞,肺动脉进行阻塞,这是几分钟之内可以影响生命的,过去通过拍照让医生和人工智能识别已经来不及了,现在将人工智能做在CT当中自动生成报告,马上就识别了,他特别强调,与依赖ChatGPT等大型通用AI模型不同,该系统完全自主构建,这是人命关天的,故要求是无幻觉,或是将幻觉降至最低。训练数据全部来自于医疗系统内部的真实临床资料,因此系统更加轻量、精准,运行速度更快,已在西北大学所属的12家医院进行部署,所以美国西北大学所属的医院数比浙江大学还要多,浙江大学已经很多了,现在有7、8家,而他有12家,都布置了这些智能放射系统。 跟着前面的预判,专业数据、专业大模型,我们有第三个预判,大模型的发展道路,很可能并不像美国现在所讲的做一个通用大模型,上面做很多垂直大模型这样的一条路,但这条路还在发展,我们认为还可以继续发展,但幻觉问题如何解决,到现在还没有办法,有待于下一步解决。我们认为,存在着第二条道路,用很多的专业数据的中心去训练专业大模型,这个大模型不是在通用大模型基础上做的,直接做专业级大模型,它们交叉起来、联合起来,形成一个通用大模型,这就是人成长的模型,人首先变成专才,然后才能通才。计算机首先要变成通才,最后变成专才,可能会遇到麻烦。我们估计这一条道路可能会更加自然和通畅,在“人工智能+”发展的今天,中国应该两条路同时走,让现在有通用大模型的企业继续做通用大模型,如果某一个行业要重新做的,你们应该首先做专用大模型、产业和大学和政府联合起来做专用大模型,尤其是杭州市和宁波市,浙江省的这些企业,希望在哪几个行业做到全世界的高地上去,这些行业就应该做专业大模型。当然,网易也应该做专业大模型。 趋势二,具身智能不是发展的终点,还会进一步泛化与深化。 具身智能中,从机器人的概念进展到具身智能,具身智能后面的概念一定会更加广阔。“人工智能+”在具身智能旁边提出了两个新的概念: 1、智能终端,这是首次提出的。 2、智能产品。 这些都是具身智能应该关注的地方。所以,我们看机器人的概念扩大到具身智能,马上从机器人扩大到了无人机智能终端、智能设备各种智能产品,这个概念扩大得很厉害,比如全世界生产的机器人,每年生产100万台不到,90多万台的总量,近年来工业机器人在下降,服务机器人在上升,但总数还是这么多。但无人机的产量就比机器人要大得多,乌克兰每年生产的无人机150万台,一个国家就超过了全世界机器人的数量。智能终端将更大,今后汽车就是智能终端的一种,汽车的产能大家也可以想象得到。智能设备、智能产品、智能家电等各种智能机械,武汉开始搞智能的数控机床,范围非常之大。 所以,我们要看到具身智能不能只盯着机器人,它是一个非常大的概念,“人工智能+”就应该将人工智能与更大的产业结合起来。 第二,要向深度发展。 首先,具身智能和智能体会很快地结合起来,也许是明年、后年,也许大后年。 智能体的基本定义,现在还模糊着,具有感知决策行动能力的应用软硬件系统,它已经将硬件包括进去了,它是一个将大模型拿来作为一个产生计算知识的工具,然后在外面包一层其他的算法为应用服务的东西,当然它可以包含感知和行动,这就是和机器人结合在一起的。所以,今后二者一定会结合在一起,结合的目标是,大模型为机器人提供知识,其他的感知、行动都由机器人进行。 具身智能一定会向跨媒体智能发展,我们知道具身智能最早的时候是眼睛和行动系统,目前在做的是人形机器人、狗形机器人,跑的时候要求不跌倒,走得快,能操作东西,看到东西能拿到,这就是手眼系统、脚眼系统,基本就是眼睛和行动。现在他希望大模型能介入,现在全世界研究VLA模型,眼睛和行动的模型外面加上语言模型,机器人后面不是用操作系统进行操作,而是进行语言对话。 但最近浙大的校友,浙大硕士毕业以后到斯坦福去读了一个博士,回来建模,三年以前实际就已经在建模了。我问你学什么?他说在斯坦福学压力传感器。我问现在准备搞什么?他说开一个企业做压力传感器,他说已经开始用于机器人上了,机器人在磨东西的时候,靠视觉是不行的,靠视觉磨好了没有,看不清楚,要靠力学的反应才看得清楚,所以要用压力传感器。我说你赶紧到台州去和数控磨床相结合,数控磨床在磨的时候也没有压力传感器的,所以今后的机器人一定会加力学传感器,力学传感器就由压力传感器进行的,所以今后会变成VLA再加上力学模型,大家看这就是跨媒体发展。多种传感器,视觉传感器、力学传感器、文字反馈,各种信息结合在一起,机器人能进行操作,这就是具身智能还会进一步向深度发展。 目前具身智能基本研究代替,还会向另外两个重要的方向发展: 方向1,群体;方向2,与人进行融合。这两个方向也会迅猛发展。 一讲到群体智能,大家脑袋当中第一个引出的是一大批无人机在天上飞,进行协同工作,这当然用处很大,但更重要的群体智能是异构(非同构),比如智能码头、智能车间、智能矿产,这是目前已经出现的群体智能。 智能码头有三种具身智能:塔吊、智能运载车、智能堆码车,对环境进行感知,最后进行协调的动作。宁波的智能码头已经允许无人车,而且允许有人车联合在码头上进行工作,这个水平就更高了。 人机融合的智能产品目前也在大量出来,名气最响的是马斯克在那儿说的脑机接口,中国也在大量研究,浙江大学还有一个国家重点实验室做了很多工作,今年出来的外骨骼系统发展得很快,深圳的一家公司做了500台,五一节放在泰山底下,拿钱租一下,老年人爬不动泰山,穿上它以后就可以爬上去,据说这个生意很好。 杭州的智元科技,在暑假里做了一大批直接就卖了,据说也是一抢而空,生意非常之好。原因何在?他将外骨骼系统做得很轻,仅1.8公斤。而且在长三角已经出现了生态,国民技术公司外骨骼系统的芯片,碳纤维公司则由浙江精工集团进行生产,电池是由格林美公司进行生产,目前的电池可以支撑2.5小时,希望最后能支撑24小时,所以电池更小、更轻、更长时间、更便宜,生态拉起来以后,中国的外骨骼系统也许能走到高水平,且很便宜,像中国的机器人一样卖到全世界去。 趋势三,人工智能将引领平台经济走向2.0。 平台经济非常重要,平台经济实际是依靠互联网,应用人工智能,用算法和模型从事经济活动的一种组织形式,因此,它的发展实际是一种新的商业形态,对整个经济会产生很大的影响,在国外将这些企业都称为科技企业,我们就分类为服务型企业,但大家都一致承认它在科技上的投入很大,这是科技领先的一些企业。 平台经济在第一波中,杭州也是走在前面的,但主要的是进行生活服务的各种平台,比如淘宝、拼多多、北京有京东,还有为本地的美团、饿了么,还有为旅行的飞猪、携程,还有滴滴出行、哈啰出行,这些平台经济都是为生活服务的,但大模型的应用将出现第二类平台,这就是用技术为产业服务,用技术进行服务的平台,这一类平台今后一个时期将迅猛出现,譬如DeepSeek本身就是一个平台,ChatGPT就是一个平台,Claude、大数据表示,更重要的平台是各种为科研服务的平台,这会掀起平台经济的新高潮,这个高潮称为“平台经济2.0”,这个高潮十分重要,对一个城市的经济发展非常重要。 平台经济1.0对杭州和北京的发展很重要,平台经济2.0也将非常重要,哪一个城市能将这个抓好,哪个城市的经济就可以很快上去。 杭州已经出现了这一类平台,“六小龙”之一的群核科技,很多人关注比较多的是DeepSeek和宇树,实际它很厉害,它已聚集了大量的数据,近五年来90%的户型都在他那儿,他是做室内装修、室内设计的平台,室内设计有关的产品已经聚集了3.2亿个,这不是一个名字,而是一个3D模型,3D模型和色彩都有,有3.2亿个3D模型就已经是非常重要的数据了,在上面与它合作的企业有5万家企业,用户6500万,用户大量是设计师,当然也有室内装修的业主。已经出了54亿张渲染图,人工画要1000元一张,它在这上面已经创造了非常巨大的价值了,每天要设计40万套室内设计,不光是中国,“一带一路”国家,全球基本都用它。它聚集了这样的数据,全世界要出现第二个室内设计的平台,不可能了,很难再打过它了,这就是平台经济的厉害之处。 独家的本领,你给一个二维图纸,就会自动出三维模型,这个模型当中向你推荐各种的室内设计的产品,将它放在这个模型当中去,这个沙发不要,要红木,它就给你红木,这个花型不好,就让你挑,你把花型搞好放在里边,给你提大小的建议。灯具不行就换灯具,室内的颜色不行就可以指定颜色,储物想要怎样的,想要什么样的厨房,各种厨房产品可以应有尽有,49000家附在后面。关键是,你全部搞好了,你认为这是我满意的,可以一键报价,马上算出这个设计,产品连施工一共多少钱,一键出图,施工图纸完全一致化,最厉害的是一键自动出单,将里面的产品全部分布到各个企业当中去,大家就明白为什么有50000家企业挂在它后面了,将这个订单全分布出去了,而且我相信通过这个系统拿到的产品订单一定是价格最优惠的,数量很大,每天有几十万个室内装修在它上面做,这是以计算,以design为技术核心进行的产业链的服务,既为企业服务,又为用户服务。 最后,总书记指出:要发挥人工智能在产业升级、产品开发、服务创新等方面的技术优势,用它来推动各个产业的变革,从而培育新的增长点,形成新动能,“人工智能+”的行动方案,吹响了人工智能和产业结合的冲锋号。我们可以预见,AI2.0在促进我国产业变革升级,形成新质生产力方面一定能发挥越来越大的作用。 我讲完了,谢谢各位!
-
对付“充电宝刺客”,北京出手了! 旅游、购物、就餐、观影,您是否曾有因手机电池“焦虑”而租用共享充电宝的经历?近期屡有消费者反映,使用商家提供的共享充电宝后,虽然解了一时燃眉之急,没想到更大的“焦虑”还在后面,又遭遇了因“满柜”四处奔波无法归还的窘境。按照共享充电宝服务企业客服人员的说法,该品牌“有自己的认证系统,必须找到与所借充电宝柜机编码数字一致的柜机才能归还”,为此消费者走了多家商场都因“满柜”等原因无法归还,这期间充电宝小程序还在计费,导致用了一次充电宝,消费支出达上百元。北京市市场监管局提示消费者,您可能遭遇了共享充电宝“刺客”,商家的行为已经涉嫌违反了《消费者权益保护法》。 2025年7月,北京市市场监管综合执法总队针对多起消费者投诉反映的租用共享充电宝遭遇的归还难、乱收费等问题,对4家共享充电宝服务企业予以立案。在对4家企业调查中,执法人员发现,目前一些提供共享充电宝租用服务的主要品牌商家只负责在微信小程序、支付宝平台等渠道面向消费者提供租赁服务,由其招募的代理商具体负责柜机运营,租赁服务与归还等售后服务脱节。当消费者归还充电宝时,由于附近没有空格位以及设备故障等商家原因导致消费者难以归还且商家不及时停止计费,甚至归还后仍在计费。消费者经历的“归还格位严重短缺、设备定位不准、各点位经营时间参差不齐”等问题不仅影响了消费体验,还侵害了消费者的公平交易权和自主选择权。当消费者向商家反映问题时,往往只能得到基于AI技术的“在线咨询”或“固定回复”,使消费者诉求无法得到有效解决。同时,一些商家未在页面显著位置公示用户服务协议、交易规则、计费规则等信息,侵害了消费者知情权,极易对消费者造成误导,产生消费纠纷。 近日,市市场监管综合执法总队根据调查结果认定,4家企业作为共享充电宝服务商家,由于自身原因不能针对消费者归还充电宝、停止计费、退还服务费用等合理诉求作出正确响应,构成了对消费者提出的合理诉求故意拖延、无理拒绝的违法行为,违反了《中华人民共和国消费者权益保护法》相关规定,已依法对前述企业作出罚款的行政处罚。这也是全国市场监管领域运用《中华人民共和国消费者权益保护法》对消费者租用共享充电宝过程中遭遇合法权益被侵害问题首度“亮剑”。 据悉,4家共享充电宝服务企业被处罚后,整改态度积极,已加入了北京市消费者协会发起的《北京市共享充电宝行业自律公约》,面向社会作出“优化计价模式”“保持高电量借出”“合理控制空置率,确保消费者能及时现场归还”“建立暂停计费机制”“完善客户服务”等公开承诺,特别承诺因网点少机柜无空位等原因无法及时归还时,企业核实后可暂停计费;因共享充电宝自身原因或其他不可抗力因素导致的消费者无法归还情况,可免除本次使用费用。下一步,市场监管部门将持续跟踪企业自律承诺落实情况,严肃查处共享充电宝租用领域侵害消费者知情权、自主选择权,以及价格欺诈等违法行为。 北京市消费者协会相关负责人表示:共享经济特征是通过平台实现资源使用权的临时转移,提升资源使用效率,平台应当通过算法实现供需精准匹配,降低交易成本;而用户通过租赁形式获得资源使用权,无需承担购买成本,例如共享单车用户仅需支付使用费,无需购买自行车;当前屡现的充电宝“刺客”现象中,一个充电宝因无法归还导致其使用成本上百元,是对消费者合法权益的侵害,也背离了共享经济的初衷;北京市监部门对共享充电宝“刺客”亮剑,是对共享经济模式下消费者合法权益的有力守护。 市市场监管综合执法总队提示广大消费者:金秋时节,旅游购物高峰即将到来,消费者在租用充电宝时如遇商家承诺的归还点位无法归还、归还后仍继续计费、平台无故不退押金、平台计费规则不透明不清晰等问题,可以坚决依法维权。北京市市场监管局将积极维护消费者合法权益,维护良好的消费环境,让市民享受更加放心优质的消费体验。来源:BRTV新闻(记者 白雪微 )编辑:孙迪雅
-
AI时代,火山引擎如何重做云计算? 文 / 四海来源 / 节点财经云计算可谓妥妥的重资产领域,在大众的认知中,需要时间与资本的长期投入,想要弯道超车并不简单,但这些年来,也有后来者突出重围。这个例子就是字节跳动。2020年6月,字节跳动推出火山引擎,彼时的中国公有云市场格局基本已定,排名前五厂商几乎占据了超过80%的市场份额,其中,阿里云、华为云、腾讯云三分天下,火山引擎还只是边缘玩家。时来运转,火山引擎现在已经有了不小的份量。据IDC报告显示,2025年上半年火山引擎在中国公有云大模型调用量独占49.2%的市场份额,位列第一,超过百度智能云和阿里云的总和。《节点财经》认为,能有如此成绩,得益于技术范式的改变所带来的市场红利。2023年初,AI大模型爆发,GPU取代了CPU、MaaS需求的崛起,所有云计算新老玩家,几乎都处于同一起跑线上。而随着大模型技术的发展,行业内的玩家已经从卷底层技术,进化到应用落地与商业化的阶段,这给了火山引擎突围的机会。01 AI应用时代,token比算力更重要 大模型竞争来到第四个年头,赛道玩家们收敛到中美两国,不过,LLM技术的发展已经不再像2022年横空出世时那么惊艳,比如,ChatGPT 5的诞生并没有掀起外界期待的范式变迁。以上现象告诉我们,AI竞赛已经迎来了新的拐点——底层技术或许短时间内很难有大突破,企业围绕AI在应用上深耕已经成为主流选择。IDC此前也发布报告认为,AI算力有望在2025年进入“训推”拐点,这种变化将意味着,大模型产业商业模式逐步由单纯的技术竞赛过渡到价值共享与产业落地,强调高效推理技术与垂直应用场景结合以实现商业闭环。作为AI时代的水电煤,行业发展风向的转变对云计算厂商而言至关重要,我们观察云计算厂商的视角也应该有所转化。过去对于云计算厂商来说,一直以来大众更多关注营收指标,可现实情况是,云计算行业赛跑中,不少厂商为了扩大市场率,低价销售GPU云资源冲收入,而MaaS作为新兴业务一直是各大厂商瞧不起的收入。相比较单纯的考察AI IaaS 与Gen IaaS市占率,Tokens调用量,其实更能衡量目前AI产业乃至大模型产业落地的真实情况。以这个视角看,MaaS是最能证明大模型行业发展情况的晴雨表。简单来说,Tokens是大语言模型可以输入输出的最小自然语言文本的基本单位。Tokens的调用量,反映了模型推理过程的计算量,而计算量的高或低,直接揭示了模型在实际应用中的能力、成本、速度和可行性。毕竟只有模型真正好用了,应用真的落地了,Tokens调用量才会真正增长。IDC数据显示,2024年以来,中国两次AI应用大规模落地,都让Tokens消耗量快速增长。这背后的核心因素是,模型能力不断提升、模型价格不断下降,AI应用不断被普及。从这个视角来看,火山引擎在云计算市场上其实颇具份量——从大模型Tokens调用量的市场份额来看,火山引擎独占49.2%的市场份额,位列第一。2024年营收规模超过110亿元,营收增速远超60%,远超行业整体水平。相比较,同期中国公有云市场整体增速约 30%,百度智能云 MaaS 营收增速约 45%。作为后来者,火山引擎也凭借MaaS业务需求量的不断上升,与第一梯队的差距在快速缩小。火山引擎是如何布局MaaS,抓住AI应用浪潮的?02 如何让AI应用真正高效落地? AI应用是众所周知的趋势,可落地并不简单,以Agent为例,功能固然强大,可在产业界Agent目前Demo多、套壳多,真正在生产环境发挥功效的少。普华永道2025年5月的调查显示,88%的企业因Agent计划增加AI预算,但真正跨应用、跨工作流连接的Agent,目前仅占19%,最根本的原因就是Agent布局的技术门槛高,价格昂贵。针对目前Agent在市场的应用情况,火山引擎试图通过以下四点,为企业提供更高效的Agent服务:第一,利用率更高的数据平台。数据是AI发挥智能的燃料,只有充分利用数据,大模型才能与具体业务场景更匹配。根据IDC的预测,多模态数据规模从2024年到2029年在全球范围内处在一个高速增长阶段,年均复合增长率接近30%。另外,随着多模态大模型能力快速提升,以及Agent应用百花齐放,多模态数据的处理和加工需求会随之快速爆发。在此背景下,火山引擎推出了多模态数据湖、向量数据库等解决方案,充分运用并理解数据,让AI更懂业务。第二,强大的模型服务。大模型是MaaS的技术底座,更强大的模型,也意味着大模型更聪明,任务完成度更高、覆盖场景更广泛。过去大模型只能处理文本,能覆盖的场景十分有限,但现在豆包大模型家族已覆盖文本、图片、音频、视频、多模态等领域。特别是在9月9日,火山引擎正式发布图像创作模型 Seedream 4.0。该模型首次支持4K 多模态生图,灵活支持文本、图像的组合输入,能实现多图融合创作、参考生图、组合生图、图像编辑等核心能力,且主体一致性大幅增强。经多家媒体测评,该图像模型在很多维度上丝毫不输谷歌旗下的nano banana。火山引擎在多模态上的不断探索,不光体现了技术实力上的优越,也意味着豆包能胜任更多、更复杂的业务场景。其三,全栈Agent开发工具。对不同企业来说,特别是Agent相当于垂直场景的专家,需要企业结合自身业务需求精准调配,而这些工具就是企业打磨专有Agent的必需品。比如,火山引擎升级发布了PromptPilot、MCP Servers、TRAE、扣子开发平台等产品,以及多款开源项目,构建起覆盖大模型开发全链路的工具矩阵,为开发者提供从Prompt优化到Agent落地的一站式解决方案。开发者可以在火山引擎上快速开发AI应用。其四,更划算的价格。制约AI应用从技术走向业务,最主要的就是价格,以一个垂类Agent产品为例,每一次的产品运行,相当于要做一万多次检索,背后的算力成本已达到几十元的水准。去年5月起,火山引擎率先掀起大模型降价潮,企业市场定价为0.0008元/千Tokens,今年3月又宣布部分大模型批量推理服务费用减半。其中,豆包大模型1.6使用“区间定价”模式:在0-32K输入区间(占企业80%需求),价格降至输入0.8元/百万Tokens、输出8元/百万Tokens,综合成本仅为豆包1.5深度思考模型或DeepSeek R1的三分之一。这一策略效果显著。截至2025年5月,豆包大模型的日均Tokens调用量是16.4万亿次,拉到月均来算,就是500万亿次以上。这背后是火山引擎已经在多个行业实现批量化落地,持续推动不同机构、企业实现AI转型。目前,在消费电子行业,全球Top10手机厂商中,已有9家选择和火山引擎深度合作;在教育行业,火山引擎已与北京大学、浙江大学、南开大学等超五成985高校达成合作;金融领域,火山引擎已服务招商银行、浦发银行、北京银行等70%统重要性银行。03 从C端到B端,火山引擎的护城河是什么? 既然MaaS是全新的增长点,那么,势必会有越来越多的玩家加入竞争,火山引擎的护城河在哪里?首先,规模优势。云计算是科技巨头战略布局的关键落子。火山引擎进军云市场,因为字节跳动本身就拥有庞大的用云需求,布局云计算业务能削峰填谷,降低边际成本,平摊基础设施成本,属于顺势而为的决策。谷歌、阿里等云计算服务商的规模化摊销逻辑也是如此。他们投入数百亿建设全球数据中心、采购 GPU 集群、研发模型优化技术,然后通过规模化用户复用资源,以降低算力使用费,既让用户觉得划算,也让厂商通过薄利多销盈利。其次,全栈布局的闭环优势。MaaS的本质是场耐力赛,短期看成本,长期看生态,生态的繁荣度决定了玩家能走多远。目前来看,字节跳动在形成以“AI基础设施+大模型+AI应用”的闭环逻辑,不光为客户提供处于行业领先的模型,还为客户提供高性能、低成本AI基础设施。两者相互促进,进而带动火山引擎的Token消耗市场份额。它们共同形成了AI时代的增长飞轮——吸引更多To B客户和To C用户,产生丰富的数据,反哺大模型的持续训练,让大模型、应用变得更智能,对AI生态形成正向循环。在IaaS领域火山引擎是后来者,但MaaS作为创新业务,各巨头都站在同一起跑线上,火山引擎借助高速增长的市场规模,有了弯道超车的机会。根据MofCloud数据,未来几年,云计算市场预计将以18.3% 的年复合增长率快速增长。AI是确定性趋势,行业需求空间大,对于火山引擎,同样机遇也很大。未来,随着深度思考模型、视觉推理的进一步成熟和 AI 云基础设施的优化,AI应用还会带动更大的 Tokens 调用量。2025年是AI应用的商业化元年,既是火山引擎的机遇窗口,也是整个云计算行业的转型拐点。当火山引擎用“高MFU+低定价”打破成本壁垒,用“全栈工具+多模态模型”降低开发门槛时,它本质上在做的,是把AI时代的云计算能力从少数巨头的特权变成多数企业的标配。随着AI技术在不同企业的渗透,火山引擎势必还能开拓更大的市场空间。*题图由AI生成
-
科幻!谷歌放出Gemini Robotics-ER 1.5:机器人有了真正的思考力 谷歌刚刚放出了其最先进的机器人具身推理模型——Gemini Robotics-ER 1.5。这是首个被广泛开放给所有开发者的Gemini机器人系列模型,它将作为机器人的高级推理大脑 Gemini Robotics-ER 1.5(简称 Gemini Robotics-Embodied Reasoning)是一种视觉-语言模型 (VLM),可将 Gemini 的智能体功能引入机器人技术领域。Gemini Robotics-ER 1.5 是一款思考型模型,能够推理物理世界、原生调用工具,并规划逻辑步骤来完成任务 虽然 Gemini Robotics-ER 1.5 与其他 Gemini 模型类似,但它是专门为增强机器人感知能力和现实世界互动能力而构建的。它通过以下方式提供高级推理功能来解决物理问题:解读复杂的视觉数据、执行空间推理,以及根据自然语言命令规划行动 在操作方面,Gemini Robotics-ER 1.5 旨在与现有的机器人控制器和行为配合使用。它可以按顺序调用机器人的 API,使模型能够编排这些行为,以便机器人完成长时程任务 借助 Gemini Robotics-ER 1.5,可以构建以下机器人应用: 让人们能够使用自然语言分配复杂的任务,从而使机器人更易于使用 通过使机器人能够推理、适应和响应开放式环境中的变化,提高机器人的自主性 Gemini Robotics-ER 1.5 为各种机器人任务提供统一的模型:定位和识别对象 1.准确地指向并定义环境中各种项目的边界框。了解对象关系 2.推理空间布局和环境背景信息,以便做出明智的决策。规划抓取和轨迹 3.生成用于操纵物体的抓取点和轨迹。解读动态场景 4.分析视频帧,以跟踪对象并了解一段时间内的动作。编排长时程任务 5.将自然语言命令分解为一系列逻辑子任务,并对现有的机器人行为进行函数调用。人机交互 6.通过文本或语音理解以自然语言给出的指令 Gemini Robotics-ER 1.5预览版现已开放。可以通过以下方式开始体验:启动 Google AI Studio 来实验该模型。 阅读开发者文档获取完整的快速入门和API参考 https://ai.google.dev/gemini-api/docs/robotics-overview?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch&hl=zh-cn 官方的 Colab notebook 查看实际应用案例 https://github.com/google-gemini/cookbook/blob/main/quickstarts/gemini-robotics-er.ipynb?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch完整技术报告:https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf这个模型专为那些对机器人来说极具挑战性的任务而设计。想象一下,你对一个机器人说:“请把这些物品分类到正确的厨余、可回收和普通垃圾桶里。”要完成这个任务,机器人需要: 1.上网查找本地的垃圾分类指南。 2.理解眼前的各种物品。 3.根据本地规则规划出分类方法。 4.执行所有步骤,完成投放。像这样的日常任务,大多需要结合上下文信息并分多步才能完成。Gemini Robotics-ER 1.5正是首个为这种具身推理(embodied reasoning)而优化的思考模型。它在学术基准和内部基准测试中都达到了业界顶尖水平 Gemini Robotics-ER 1.5有哪些新能力? Gemini Robotics-ER 1.5专为机器人应用进行了目标性微调,并引入了多项新功能:快速强大的空间推理:以Gemini Flash模型的低延迟,实现顶尖的空间理解能力。该模型擅长生成语义精确的2D坐标点,这些坐标点基于对物品尺寸、重量和功能可供性的推理,从而支持如“指出所有你能拿起的物体”这类指令,实现精确、快速的交互协调高级智能体行为:利用先进的空间和时间推理、规划和成功检测能力,可靠地执行长周期任务循环(例如,“按照这张照片重新整理我的书桌”)。它还能原生调用谷歌搜索和任何第三方自定义函数(例如,“根据本地规定将垃圾分类”)灵活的思考预算:开发者现在可以直接控制模型的延迟与准确性之间的权衡。这意味着,对于像规划多步组装这样的复杂任务,你可以让模型“思考更长时间”;而对于探测或指向物体等需要快速反应的任务,则可以要求更快的响应改进的安全过滤器:模型在语义安全方面进行了改进,能更好地识别并拒绝生成违反物理约束的计划(例如,超出机器人的有效载荷能力),让开发者可以更自信地进行构建智能大脑 你可以将Gemini Robotics-ER 1.5视为机器人的高级大脑。它能理解复杂的自然语言指令,对长周期任务进行推理,并协调复杂的行为。当收到一个像“把桌子收拾干净”这样的复杂请求时,Gemini Robotics-ER 1.5能将其分解成一个计划,并调用正确的工具来执行,无论是机器人的硬件API、专门的抓取模型,还是用于运动控制的视觉-语言-行为模型(VLA)。高级空间理解能力 为了与物理世界互动,机器人必须能够感知和理解其所处的环境。Gemini Robotics-ER 1.5经过微调,能够生成高质量的空间结果,为物体提供精确的2D坐标点在指向精度方面,Gemini Robotics-ER 1.5是目前最精确的视觉语言模型 例如,在2D坐标点生成任务中,给定一张厨房场景的图片,模型可以提供每个物品的位置 提示: 指出图中的以下物品:洗洁精、碗碟架、水龙头、电饭煲、独角兽。坐标点格式为[y, x],数值归一化到0-1000。只包括图中实际存在的物品。值得注意的是,提示要求模型只标记图中出现的物品,这可以防止模型产生幻觉(比如为不存在的“独角兽”生成坐标),使其始终基于视觉现实 时间推理能力 真正的时空推理不仅要定位物体,还要理解物体与行为之间随时间展开的关系。Gemini Robotics-ER 1.5通过处理视频来理解物理世界中的因果关系。例如,在一个视频中,机械臂先将一支绿色记号笔放入木盘,再将蓝色和红色的笔放入笔筒。当我们要求模型按顺序描述任务步骤时,它给出了完全正确的答案 提示: 详细描述完成任务的每一步。按时间戳分解,以json格式输出,包含 "start_timestamp", "end_timestamp" 和 "description" 键。响应:[ { "start_timestamp": "00:02", "end_timestamp": "00:13", "description": "左机械臂从桌上拿起绿色记号笔,并将其放入木盘中。" }, { "start_timestamp": "00:15", "end_timestamp": "00:22", "description": "左机械臂从桌上拿起蓝色笔,并将其放入黑色网状笔筒中。" }, { "start_timestamp": "00:23", "end_timestamp": "00:28", "description": "右机械臂从桌上拿起红色笔,并将其放入黑色网状笔筒中,完成了整理书写工具的任务。" } ]模型甚至可以根据要求,对特定时间段(如第15秒到22秒)进行更细致的逐秒分解,输出结果在时间上非常精确 基于可操作性推理来协调长周期任务, 当启用思考功能时,模型可以对复杂的指向和边界框查询进行推理。下面是一个制作咖啡的例子,展示了模型如何理解完成任务所需的“如何做”和“在哪里做” 1. 问: 我应该把杯子放在哪里来冲咖啡? 答: 模型:在咖啡机下方标记出一个边界框 2. 问: 咖啡胶囊应该放在哪里? 答: 模型:在咖啡机顶部的胶囊仓位置标记出边界框 3. 问: 现在,我需要关上咖啡机。请绘制一条由8个点组成的轨迹,指示盖子把手应如何移动以关闭它 答: 模型:生成了一条从开启到关闭位置的精确路径 4. 问: 我喝完咖啡了。现在应该把杯子放在哪里清洗? 答: 模型:在水槽中标记了一个点 通过结合规划和空间定位,模型可以生成“空间锚定”计划,将文本指令与物理世界中的具体位置和动作联系起来 灵活的思考预算 下图展示了调整Gemini Robotics-ER 1.5模型思考预算对延迟和性能的影响 模型的性能随着思考token预算的增加而提升。对于像物体检测这样的简单空间理解任务,很小的预算就能达到高性能;而更复杂的推理任务则需要更大的预算这使得开发者可以在需要低延迟响应的任务和需要高精度结果的挑战性任务之间取得平衡。开发者可以通过请求中的thinking_config选项来设置思考预算,甚至禁用它参考:https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/
-
重磅开场!2025网易未来大会今日开幕 9月27日,2025网易未来大会正式开幕。本届大会是“第四届全球数字贸易博览会”的组成部分之一,汇聚了国内外顶尖院士、AI创业者、投资人及行业领袖,共同探讨AI技术的前沿趋势与产业机遇。 从大模型突破到具身智能革命,从AI消费品爆款到全球投资风向,这场大会不仅是一场思想碰撞的峰会,更是一次触摸未来的体验之旅。 上午场:顶尖院士领衔, AI与人类共谋共生 上午场,中国工程院潘云鹤,加拿大工程院院士孟庆虎领衔,具身智能领域泰斗王田苗教授、知名经济学家付鹏同台,从AI和人类关系、硅基生命和碳基生命的共生、具身智能的挑战、AI和经济的关系等议题展开。 提出“人工智能2.0”等前沿概念的潘云鹤院士将会带来《AI发展的新趋势》主题演讲,一起期待潘院士如何为中国AI的未来“出谋划策”。 机器人领域权威专家孟庆虎院士将会带来极具辩证意义的《人工智能时代的手术机器人还是机器人手术?》的主题演讲;具身智能领域泰斗王田苗教授则会带来《2025具身智能破局之路》的主题演讲,金融圈“全能型选手”付鹏将分享《全要素生产力的AI时代》相关话题内容。精彩纷呈,备受期待。 下午场:叩问AI, 一线顶流创业者齐聚 下午场,香港理工大学人工智能高等研究院院长、加拿大工程院及加拿大皇家学院院士杨强,以及昆仑万维董事长兼CEO方汉、智谱副总裁吴玮杰等产业翘楚,智平方科技创始人郭彦东、VAST创始人宋亚宸、Rokid联合创始人蔡国祥、Haivivi联合创始人高峰等AI创业先锋,阿尔法公社创始合伙人许四清、丰元资本创始合伙人李强、九合创投创始人王啸等知名投资人,将会共同探讨AI的创业投资大机遇。 杨强院士将带来《AI落地的数据难题与联邦大模型的解决方案》开场演讲;方汉则会发表《昆仑万维AI全球化应用探索》的主题演讲;智平方郭彦东将会带来《具身大模型:驱动机器人进入通用智能新时代》的主题演讲,讲述通用机器人如何到来;VAST创始人兼CEO宋亚宸将会发表《通往AI 3D的“抖音”时代》相关的主题演讲。 现场,网易未来大会还特别设置圆桌论坛,原CCTV 财经主持人杨晋将主持《人工智能的下一步》为主题的圆桌论坛,阿尔法公社创始合伙人许四清、GMI Cloud 中国区总裁蒋剑彪以及安利(中国)数字创新中心总经理李阳将就人工智能热门话题展开激辩。 在“AI大创业时代”议题下,Rokid联合创始人、副总裁蔡国祥将会分享《AI眼镜开启眼镜行业全球升级》;Haivivi联合创始人高峰则会分享《如何做好一款 AI 玩具》;九合创投创始人王啸将会带来《AI 下半场:寻找技术与场景的最佳契合点》的主旨演讲;丰元资本创始合伙人李强将带来《硅谷AI创业者在追什么 如何在AI时代活出独特版本的自己》主题分享。 “触摸”AI爆品 AI榜单首发布 在精彩绝伦的主题演讲之外,网易未来大会将特别设置沉浸式产品体验区。 在今年最火的【AI眼镜区】,你可以体验Apple Vision Pro、小米AI眼镜、Rokid Glasses、XREALAR眼镜;在【机器人区】,你会看到宇树机器人、迪士尼IP的下棋机器人进行“人机对弈”,在【Agent硬件区】,可以看到可爱的Haivivi AI玩偶,以及灵宇宙、听力熊等带来的AI产品。 毫无疑问,2025是智能体落地的元年,我们看到不仅仅有AI助手风靡全球,更有越来越多的智能体硬件开始爆发,有AI眼镜、有XR设备、有具身智能机器人,它们都跃跃欲试、来势汹汹,那么,人类下一代计算平台究竟是什么?现场等你来找答案。 当然!我们还有“One More Thing”! 大会将在现场揭晓“2025网易未来大奖”系列奖项,以权威视角盘点和表彰2025年度最具影响力的AI企业、创新产品和行业人物。未来大奖将成为2025年度中国科技领域最具影响力的AI榜单之一。 本届奖项包括年度人工智能影响力企业TOP10、具身智能先锋企业TOP10、AI智能体创新企业 TOP10、AI基础设施创新企业 TOP10、年度影响力AI产品TOP10、AI十大影响力人物,还有年度人工智能影响力企业、新一代信息技术服务引领者奖、人工智能产业特别贡献奖等等。 本场论坛,您可以通过网易新闻客户端、网易科技视频号等平台收看直播,欢迎关注。
-
苹果官方旗舰店也放假,商品不发货;腾讯推「老年打车」服务;车主酒驾,智能驾驶「报警」|极客早知道 OpenAI CEO 奥尔特曼:2030 年前通用人工智能将来,未来 AI 接管人类 40% 工作 9 月 26 日消息,OpenAI CEO 萨姆・奥尔特曼接受了德媒《世界报》采访,聊及未来的 AI 世界、下一代人类的生活等。奥尔特曼在采访中预测,通用人工智能(AGI)将在 2030 年前到来,这种 AI 将「远比人类聪明」,号称是「超级 AI」,他还拿 AI 当前的发展情况做出了畅想:「目前 GPT5 模型已经比许多人聪明,如果 2030 年人类没能开发出具备能力超凡、能做人类无法做到之事的大模型,那我会十分不解」。谈及「AI 抢人类饭碗」话题时,奥尔特曼认为人们不应以悲观的视角看待 AI,他指出,即使没有 AI,很多 30 年前的工作如今也不复存在,他声称 AI 将在未来接管人类经济社会中 30-40% 的工作。随后主持人抛出了一个颇为尖锐的问题:「你会给你儿子什么建议,避免他在 30 年后被 AI 取代?」,奥尔特曼回应道:「我会教他学会『如何学习』的原始技能,学会适应这个世界,弄清人们需要什么,为他们打造有用的产品和服务」。随后在关于「AI 是否会毁灭人类」的问题中,奥尔特曼表示,通用人工智能会像慈母般对待人类,但他也承认 AGI 可能会有人类无法理解的副作用和后果,但整体上人类有机会给 AGI 灌输正确的价值观,AGI 最终并不会毁灭人类。最后奥尔特曼还表示,他不会用 ChatGPT 来解决情感问题。(来源:IT之家) OpenAI 推出全新 AI 功能 ChatGPT Pulse 9 月 26 日,OpenAI 宣布推出新功能 ChatGPT Pulse,让 ChatGPT 从被动问答工具转变为主动式个人助手。该功能以预览版的形式在移动端上线,现阶段仅限 Pro 订阅(月费 200 美元)用户使用。 根据介绍,Pluse 是 ChatGPT 的新体验,目前在移动端面向 Pro 用户提供。它会根据你的聊天、反馈和已连接的应用(如日历),主动为你做研究,每天推送个性化的更新卡片。你可以快速浏览这些卡片,也可以点开查看详情。Pulse 旨在让 ChatGPT 从「被动问答」转变为「主动助手」,让你不用总是自己提问,AI 会提前为你准备好有用的信息。OpenAI 表示,由于该功能计算成本较高,因此优先提供给 Pro 用户。公司计划在优化产品和提升效率后,尽快向更广泛的用户群体(包括 Plus 订阅者)开放。OpenAI 首席执行官 Sam Altman 称其为「迄今最喜欢的功能」,并强调 Pulse 会在夜间持续思考用户的兴趣和数据,这暗示着随着用户分享偏好的增多,个性化程度将进一步加深。(来源:新浪科技)苹果官方旗舰店国庆放假说明:五天时间 iPhone 17 等所有商品不发货 9 月 26 日,苹果官方旗舰店在产品页发布了《2025 年国庆节放假温馨提示》,其中指出,9 月 28 日、10 月 1 日、10 月 2 日、10 月 4 日、10 月 6 日所有商品不发货,电子发票服务也将在同一时段暂停。 除了发货之外,退货上门取件将于 10 月 1 日至 10 月 3 日、10 月 5 日暂停,退货返仓验收将于 10 月 1 日、10 月 6 日、10 月 11 日暂停。退货退款处理将于 10 月 1 日至 10 月 2 日、10 月 6 日、10 月 11 日暂停。(来源:腾讯新闻)Anthropic:国际员工将增长两倍,AI 团队扩张五倍 9 月 25 日,Anthropic 表示,商业客户基数在短短两年内从不足 0.1 万激增至超过 30 万,对旗下 Claude AI 模型的需求呈现出跨行业、跨地区增长。因此该公司决定,将在 2025 年将其国际员工人数增加两倍,并将其应用人工智能团队扩大五倍。(来自:华尔街见闻) 转转集团:iPhone17 系列新机发售带动 16 系列官方回收量大涨 9 月 26 日,转转集团公布数据显示,iPhone17 系列新机发售带动 16 系列官方回收量大涨,同比涨幅达到 609%。苹果正式发售当日,转转官方回收 iPhone 系列手机订单总交易额破亿元,创下单日历史新高。手机之外,带动耳机手表、耳机、摄影摄像、游戏配件为代表的多品类业务回收量也实现翻倍增长。(来源:36Kr)雷军:小米汽车用户接近半数都是女性 9 月 26 日消息,在 25 日的 2025 雷军年度演讲活动结束后,小米集团董事长、CEO 雷军与媒体对话。雷军表示,其实小米最初定位成一个极客品牌,为网络发烧友准备的。我们谁也没有想到,小米的成长速度超出了想象,很快变成大众品牌。他表示,今天的小米汽车接近半数都是女性,用户结构发生了翻天覆地的变化,这就是 5 年前高端化推动的。雷军还称,「加入汽车行业后,我们一直强调合作共赢。过去一年半里,大家看到我们还是有效推动了行业之间的合作。我觉得今天国产汽车都在进步之中,其实没必要搞的很难看。」(来源:IT之家)高德地图公布国庆假期十大热门驾车景区、十大最堵商圈 9 月 26 日,2025 年国庆中秋假期临近,高德地图发布「扫街榜」,揭晓十大热门驾车景区与十大最堵商圈。在热门驾车景区方面,杭州西湖、大唐不夜城、凤凰古城位列前三甲,成为「夜行」热门目的地代表。此外,九寨沟、平遥古城、南澳岛等景区也跻身前十,涵盖自然风光、历史人文、海滨度假等多种类型。 而在十大最堵商圈中,中西部城市表现亮眼,成都春熙路商圈、长沙五一广场商圈、重庆解放碑商圈占据拥堵前三。天津和平路商圈、杭州湖滨商圈、佛山祖庙商圈等也位列其中,覆盖了南北多个城市的核心商业区域。高德地图提醒,国庆假期出行可参考「错峰吃行」策略,避开热门景区和商圈的高峰时段。(来源:快科技)宇树科技王兴兴:R1 机器人明年会成为全球最畅销人形机器人 9 月 26 日,宇树科技创始人兼 CEO 王兴兴在第四届数贸会上表示,Unitree R1 机器人明年会成为全球最畅销的人形机器人。同时,今年上半年国内机器人行业发展火热,「中国智能机器人相关企业平均增长率达 50% 到 100%」,宇树科技预计下半年将发布身高 1.8 米的人形机器人。今年 7 月 25 日,宇树科技正式发布第三款人形机器人 Unitree R1,该机器人售价 3.99 万元起,支持开发/改制,重量约 25 公斤,集成语音和图像多模态大模型。(界面)《南京照相馆》代表中国内地申报奥斯卡最佳国际影片 9 月 26 日,电影《南京照相馆》官方微博发文:电影《南京照相馆》代表中国内地角逐第 98 届奥斯卡最佳国际影片。(来源:微博) 李开复:AI Agent 是 CEO 最需要关注的核心技术 9 月 26 日,零一万物 CEO、创新工场董事长李开复在零一万物「『元启上海』华东数智大会」上表示,从「大模型」到「智能体」,从理解到执行与交付,AI 将重塑企业的组织结构,形成「超级员工」模式,创造万亿级价值。李开复指出,企业「不是为了 AI(人工智能)而 AI,是为了增长而 AI」。他认为,当企业不再为模型买单,而是为「结果」与「价值」付费时,AI 创造的价值将从降本转向增效。在零一万物看来,Agent 有望成为推动企业智能化变革的核心力量。他强调,Agent 是公司 CEO 最需关注的核心技术,这也就是零一万物所强调的「一把手工程」战略:「Agent 带来的不是一个软件工具,不是一个效率的提升,而是能够创造一个有史以来最高效的组织架构。」(来源:开源中国) 腾讯推出「老年打车」服务,已在全国上线 9 月 26 日,腾讯出行服务正式上线「亲属打车」小程序,帮助老年人解决线上打车不便的问题,用户打开微信,搜索「亲属打车」即可体验。 作为腾讯出行服务的新尝试,该产品通过子女端设置、长辈端简化操作的方式,实现子女帮助、长辈自主的出行体验。实际操作中,子女可通过微信为长辈远程设置好常用出发地、目的地和支付方式,长辈只需打开微信页面,一键点击即可发起叫车。(来源:广角观察)美团外卖宣布升级「1 对 1 急送」,提前 5-20 分钟送达 9 月 26 日,美团外卖正式宣布升级「1 对 1 急送」,用户使用美团外卖点餐时可勾选「1 对 1 急送」服务,让午高峰的「锅气」提前 5-20 分钟送达。 目前,美团外卖超八成餐饮商家可调用「1 对 1 急送」运力。数据显示,已有数百万用户体验过「锅气急达」的新服务,超过一半用户在第二次点单时,再次选择了这一服务。(来源:第一财经) 醉酒男子用「智驾神器」开车后睡觉车辆自动停下并提示路人报警 9 月 26 日,浙江杭州「临平检察」披露了一起「男子醉酒后使用辅助驾驶开车」的案件,引起网友关注。据介绍,9 月 13 日凌晨 2 时许,浙江杭州,一辆打着双闪灯的 SUV 停在道路中央,阻拦后方车辆通行。过路群众发现异常前来查看,发现该车辆主驾驶位空着,仅有副驾驶座上躺着一名男子,车内中控台还显示着「报警」提示,便报了警。 图片警察到达后,唤醒驾驶员后发现对方有饮酒嫌疑,结果抽血检测后,驾驶员王某某血液中乙醇含量达 114.5mg/100ml。王某某承认其于 9 月 12 日晚至次日凌晨与朋友吃夜宵,喝多了酒,因此抱着侥幸心理让车辆自动驾驶。王某某交代,他这辆车配备有 L2 级辅助驾驶系统,可以在监管下实现一定程度的领航自动驾驶。但如果双手离开方向盘的话,辅助驾驶系统只能保持 2 分钟,超时后系统会提醒接管,否则车辆主动降速停车并退出系统。但为了欺骗车辆的检测系统,王某某在网上购买了一种「智驾神器」的配件,安装在方向盘上后,能够让系统误认为驾驶员未脱离方向盘,让车辆继续保持无人驾驶状态。9 月 19 日,经法院审理,被告人王某某被判犯危险驾驶罪,处拘役一个月十五日,并处罚金 4000 元。(来源:腾讯新闻)*图片来源:视觉中国 播客上新极客公园的播客节目「开始连接 LinkStart」持续更新中~一直以来,极客公园忠诚于记录创新。我们愿意走近创新者、创业者,聆听和记录他们创造价值、改变世界的故事;同时,我们也愿意近距离观察创新的阻力、代价,以及时代中被科技潮流裹挟的个体。如果你也想「聆听」这些声音,欢迎长按下方「卡片二维码」关注我们的播客「开始连接 LinkStart」~
-
浪潮信息发布面向智能体优化AI计算系统 9月26日消息,在2025人工智能计算大会上,浪潮信息公布,基于元脑SD200超节点AI服务器,DeepSeek R1大模型token生成速度仅需8.9毫秒,创造国内大模型最快token生成速度;而最新发布的元脑HC1000超扩展AI服务器,实现每百万token成本首次击破1元。浪潮信息对AI计算架构的持续创新,旨在解决智能体产业化面临的交互速度和token成本两大瓶颈,为多智能体协同与复杂任务推理的规模化落地,提供高速度、低成本的算力基础设施。 据介绍,元脑SD200基于创新研发的多主机低延迟内存语义通信架构,在单机内实现了64路本土AI芯片的高速统一互连,单机可承载4万亿参数单体模型,或部署多个万亿参数模型组成的智能体应用,实现多模型协同执行复杂任务。为实现极低的通信延迟,元脑SD200采用精简高效的三层协议栈,原生支持多种内存语义操作,避免冗余数据拷贝,将基础通信延迟降至百纳秒级,硬件化链路层重传与分布式预防式流控进一步适配高吞吐、低延迟的 AI 推理场景。 与此同时,浪潮信息发布元脑HC1000超扩展AI服务器,基于全新开发的全对称DirectCom极速架构,无损超扩展设计聚合海量本土AI芯片、支持极大推理吞吐量,推理成本首次击破1元/每百万token,为智能体突破token成本瓶颈提供极致性能的创新算力系统。 据了解,元脑HC1000通过全面优化降本和软硬协同增效,创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计,大幅降低单卡成本和每卡系统分摊成本。同时,全对称的系统拓扑设计支持超大规模无损扩展。据测算,元脑HC1000通过算网深度协同、全域无损技术,实现推理性能相比传统RoCE提升1.75倍,单卡模型算力利用率最高提升5.7倍。(定西) 本文来自网易科技报道,更多资讯和深度内容,关注我们。
-
对话雷军:小米早已放弃了速胜 “小米要从互联网公司坚定地走向智能制造新战场,转型成硬核科技公司。” 文|《中国企业家》记者 赵东山编辑|何伊凡见习编辑|李原头图来源|受访者“小米内部经常吵得死去活来,翻天覆地,甚至为一个问题争执一年。但这样,老板才不容易犯错误。”9月25日晚,小米董事长雷军在接受《中国企业家》等媒体采访时称。9月25日19时,小米CEO雷军发表了自己的第6次年度演讲,主题是《改变》。发布会前,雷军在微博上曝光了身穿印有“正是闯的年纪”字样T恤的照片。雷军专门在演讲中拿出时间,表示这个slogan的灵感来自于他28年的好友,二次创业、转型直播电商的凡客CEO陈年——雷军讲到这些时,正在抖音直播的陈年掩面流泪不已。 来源:受访者 今年的演讲,雷军带来的是小米玄戒芯片、小米造车背后的故事。从2020年首次演讲,雷军年度演讲不仅是他个人思想的分享,更是观察小米在特定发展阶段,所面临挑战与转型思考的窗口。去年,雷军以《勇气》为主题,宣扬的是一个意气风发、英雄主义的造车故事。但今年,各大平台的直播评论中,滚动着不少批评小米的声音。2025年,对小米和雷军而言,都是成就与挑战并存的一年。在数字层面,小米刷新了各种纪录:小米财报、市值表现亮眼,首款SUV 小米YU7上市后销量强劲:3分钟大定超20万辆,18小时锁单量突破24万辆。今年5月,小米发布了首款自研3nm手机SoC芯片“玄戒O1”,成为全球第四家具备该能力的企业。但同时,小米的品牌形象也因意外事件出现松动。今年3月,小米SU7在安徽的交通事故导致三名乘客不幸遇难,进而引发全行业对辅助驾驶系统安全性的广泛关注。随后,小米SU7 Ultra车主们又针对挖孔版前舱盖,在各大社交平台发起了维权行动。近日,小米汽车召回了11.7万辆小米SU7。国家市场监管总局产品召回技术中心称:本次召回范围内部分车辆在L2高速领航辅助驾驶功能开启的某些情况下,对极端特殊场景的识别、预警或处置可能不足,若驾驶员不及时干预可能会增加碰撞风险,存在安全隐患。虽然雷军没有对此明确回应。但他在演讲中回顾了小米过去5年的发展历程,坦陈自己曾面对焦虑、黯淡的时刻,并最终“逆天改命”的故事,都无疑宣示着,雷军相信小米能够通过技术成长与蜕变,赢得公众信任的决心。 摄影:赵东山 会后采访中,雷军表示:小米要从互联网公司坚定地走向智能制造的新战场,转型成一个硬核的科技公司。“硬核的科技公司跟互联网公司不一样。互联网是机会驱动的,科技公司是使命驱动的。”为此,2020年小米设定了“5年技术投资1000亿元”的计划。站在2025年的节点,小米对未来5年的规划是,投入2000亿元的研发费用。雷军也多次谈及:公众对于小米还有不少误解和刻板印象。不久前,小米17跳过“16”命名,直接对标iPhone 17的代际,引发了全网热议。“今天大家需要重新认识一下小米手机,跟iPhone17全系列相比,有很多地方都超越了。”雷军在采访中称。当下,高端化、对标乃至超越苹果,仍是小米的生死之战。《中国企业家》统计:2021年雷军在演讲中,提到“高端”31次,2022年有22次,2023年高达46次,提及iPhone及苹果也达到了22次之多。在过去5年的高端化探索过程中,雷军表示,小米一步步积累形成了高端化的方法论。“我们有三大引领:科技引领、认知引领、审美引领。每个季度都会组织研讨,在高端化的过程中有哪些成绩,遇到了哪些困难,或者掉到了哪些坑里去。”但要超越苹果,仍是一场“漫长而痛苦”的马拉松。“我们还是要全心全意向苹果学习,一步一步地把每一个细节做好。苹果是360度无死角,在每个领域里面他们都下了很大的功夫。我们现在可能是先找10个点突破,接着找20个点突破,然后一步一步覆盖更多的角度。”雷军说。在大众最为关心的造车层面,雷军透露:小米YU7已交付超4万台。他也再次强调小米造车要对标特斯拉和保时捷,打造全球最强纯电性能车的初衷。不过,产能仍是困扰小米造车的最大痛点。近日网络上对小米非议的增加,也意味着随着时间推移,小米已告别新手保护期。雷军表示:小米离大家的需求和要求差距还很远。“我跟同事们说,高标准、高要求是好事,我们不要老觉得自己是汽车行业的新兵。我们正在快速提升生产效率。”以下为《中国企业家》等媒体采访雷军实录: 谈与苹果的竞争:对标苹果,超越苹果 问:小米直接从16跳到17,引发了热议。你说小米要全面对标iPhone,怎么理解这句话和这次改名?雷军:我们从小米16改名小米17引起的舆情,令我挺惊讶的。我们做手机15年,有很多人对小米还有一些刻板的印象,甚至看法很固执。今天大家需要重新认识一下小米手机,我觉得小米手机这一代的产品力是跨代升级的,跟iPhone17全系列相比,有很多地方都超越了。5年前我们提出对标苹果,首先是要有勇气,敢于对标世界第一。只有对标,你才能一步一步地接近,并跑到领跑。在电池技术、屏幕技术包括散热等方面,5年前我们就开始用VC均热板。今天我们的传感器、潜望镜,很多计算包括空间堆叠,都有非常多创新。 来源:受访者 我想通过改名这个行动,让大家重新认识一下小米手机,重新表达我们敢于挑战世界第一的决心。问:长期来看,你认为小米以及国产手机厂商与iPhone的竞争会呈现一个怎样的走向和态势?雷军:苹果是一家非常伟大的公司,需要我们每一家公司都潜心学习,我觉得这一次 iPhone17系列卖得非常好,网上的评价叫“牙膏挤爆了”,他们相对过去的iPhone往前迈了一大步。但讲实话,在很多技术领域里面小米17都领先,这就是我们为什么有信心全面对标。我们跟苹果的竞争可能还是一个漫长而痛苦的过程,我们还是要全心全意向苹果学习,一步一步地把每一个细节做好。苹果是360度无死角,在每个领域里面他们都下了很大的功夫。我们现在可能是先找10个点突破,接着找20个点突破,然后一步一步覆盖更多的角度。我们提的全面对标,不仅仅是对标主要配置和参数,更多要在科技引领,在更多的体验方面,要对标苹果甚至超越苹果。 谈汽车产能提升 问:在产能提升上,小米汽车有哪些计划?今年四季度的订单消化能够到达一个什么样的程度?雷军:小米的汽车工厂整个自动化率一直做得非常好,同时我们也在不断技改,不断提高效率,调整排班。我们在2个月20天的时间,整个YU7交付了超过4万辆。当然,距离广大准车主的需求还有巨大的差距,但我们会不断地努力提升。到今天为止,小米进入汽车行业满打满算不到1年半,我们是去年4月3号才交的第一辆车,我认为我们干得还不错,但离大家的需求和要求差距还很远。我跟同事们说,高标准、高要求是好事,我们不要老觉得自己是汽车行业的新兵。这里也跟大家做一个解释和说明,我们正在快速提升生产效率。问:小米汽车发布之后,市场和用户的反馈非常热烈,但也引起一些质疑,你如何看?雷军:小米汽车发布以后,成为了全网被黑的最惨的品牌之一。这次6部委联合行动打击黑水军黑公关,我们举双手支持。我们觉得整个汽车产业还是需要一个风清气正的环境才能持续发展。 谈高端化:还需要时间一点点学习 问:小米这5年发生了很大变化,你最大的变化是什么?雷军:小米15年前创办的时候,我们的使命就是坚持做感动人心、价格厚道的好产品,让全球的每个人都能享受到科技带来的美好生活。15年前我进入制造业,就是想用互联网的技术和方法,推动科技的普及。5年前,我们发现智能手机已经普及,大家不再是稀缺时代,进入到了产能过剩、希望进一步升级的阶段。所以我们经过反思以后,坚定地提出了高端化战略,全面对标苹果,希望能更好地满足用户需求。其实我们这5年,在手机的高端发展上下了很大功夫,跌跌撞撞摸索了很多经验。我们在做汽车的时候,坚定地做了高端车。今年我们公布的第二季度财报,大家能看得到,小米汽车的含税均价为289000元,这跟BBA的价钱是差不多的。所以今天小米汽车已经进入到了高端区间,Ultra这款五六十万的车,能卖这么大的量。我越来越坚信,只要下功夫投入技术研发,就有机会把高端化完全做成。在手机、汽车取得经验以后,我们今天也在推全品类高端化。问:小米高端化进程中,遇到的最大挑战是什么?雷军:回顾过去的五六年时间,小米高端化遇到最大的压力还是2022年。我们受全球经济环境和地缘政治的影响,业绩下滑了15%,2023年业绩又下滑了3%,对我们这么大一家公司而言压力是巨大的。我们第一次做高端化也很紧张,没想到第一年就远超预期。大家觉得高端化很好做,然后就掉到了坑里,再一点点走到今天,所以它是一个曲折前行的过程。问:小米高端化推进过程中,核心受众群体也在发生变化,小米为此做了哪些努力?雷军:五六年前我们是一个偏男性的品牌。但今天小米汽车接近半数的用户都是女性,整个用户结构发生了变化。在过去5年的高端化探索过程中,我们一步步形成了高端化的方法论。我们有三大引领:科技引领、认知引领、审美引领。我们每个季度都会组织研讨,在高端化的过程中有哪些成绩,遇到了哪些困难,或者掉到了哪些坑里去。这个高端化的过程,是一步步走出来的。 谈汽车行业:很多车企都在摸着理想过河 问:你曾讲到在高端汽车市场上,中国汽车全面领先。在其中,小米扮演什么样的角色?雷军:第一,小米在底盘技术、驾控、性能这些方面,向传统豪车学习,比拼保时捷,这100多年来所有高端车都在纽北赛道打拼。小米是第一家把纽北当主场,认真把车的底盘、驾控做好的企业。 小米YU7 来源:受访者 很多人说你的车跑那么快干嘛?这是做车的基本功啊。只有在这么快的极限情况下,才能把车做好。100年来,所有车厂都是这么做的。中国车厂现在才开始做这件事情,所以我相信在小米的引领下,会有越来越多的车重视驾控、底盘、汽车的机械素质。第二,人车家全生态,包括生态互联开放合作,这也是小米给市场带来的新东西。此外,还有高度重视设计,小米现在已经做了几十种车漆,且计划在3年内再做100种。市面上大众车型为什么颜色很少?因为简单、成本低、快。但我们认为,车的颜值也很重要。问:小米也开放了汽车IoT的接口给所有车企,目前小米跟这些车企的合作到了一个什么样的进度?雷军:小米汽车是后来者,我们发自内心感激新能源汽车行业的所有先行者。2023年年底,我们用非常认真的方法致敬了整个行业的先行者,非常真诚地感谢大家所做的贡献。小米作为后来者,还是享受了很多时代红利。所以从第一天起,我们认为小米有责任帮助整个行业进步。我们是受益者,我们也要反馈整个行业。所以我们加入汽车行业以后,一直强调合作共赢。在过去的一年半里,大家应该看到我们还是有效地推动了行业之间的合作。今天国产汽车大家都在进步之中,其实没必要搞得很难看,而且这个市场也很大。基于这一点,我们在推动loT的标准和协议的开放。小米的手机秒充协议全部免费,这可以让更多的车能够更好的支持小米手机,越来越多的车厂跟我们正在结盟和合作。问:明天理想发i6,你和蔚小理创始人关系也很好,造车之后如何评价蔚小理?雷军:顺为和小米很有幸成为蔚来和小鹏的早期投资者。理想虽然早期没有投资,但是理想跟我们都是北京企业,也有很多的合作。我非常钦佩李想为整个新能源汽车作出的伟大贡献,我认为理想开创了大空间增程SUV这条路。大家低估了产品定义的价值,不少的车厂都是摸着理想过河的。 谈组织:高管们吵架是常事 问:在筹备汽车和芯片这两个大项目的过程中,你遭遇了哪些具体的挑战?雷军:我此时此刻面临的问题就是,定制服务到底成不成?我非常庆幸小米内部的决策文化是非常民主的,大家经常吵得死去活来,翻天覆地。我也蛮喜欢这个环境,我觉得只有这样的决策环境,老板才不容易犯错误。如果我一个人拍板,(汽车)定制服务干了再说。但实际上他们反对是有道理的,全世界就没有一个大众品牌能把定制服务做好,因为真的很麻烦。只要有哪一点做得不好,用户肯定从头到脚把你骂个死去活来。小米还有一个很包容的文化,鼓励你去试。只要你说得明白,风险可控,你就先去试。定制化服务就是小米今天在高端化遇到的又一个拦路虎,我今天讲了我们很多内部的争议,有的决定一争争一年,我们内部经常开共创会,一开一整天,从早上到晚上不停地吵。但是这种共创的氛围,使我们决策的准确度大幅度提升。如果5年后我们的定制服务真的成了一个很多高端客户喜欢的服务的话,我们就基本做成了。我都不想要挣钱,不亏钱就算成功了,我们真的为客户做到了体验平权。 谈未来:长期持续投入 问:未来3~5年,小米在销量增长上有没有找到什么新解法?雷军:从全球来看,手机都是竞争特别激烈的市场,它的竞争难度甚至超过了汽车。苹果、三星、华为都是这个星球上的科技巨头,中国市场也是我见过最激烈的市场。6个主要玩家的份额都很平均,都是15%左右的市场份额,各领风骚两三个月,我们的5家同行都是很了不起的公司。在这么强大的同行竞争压力下,我们早就放弃了速胜的可能性。两年前我跟他们提的目标就是每年坚定增长1%的市场份额,看能不能5年时间做到20%的份额。小米是长跑型选手,时间越长我们越强大。过去的5年,小米发生了翻天覆地的变化,你可以再给小米5年时间看一看。我们要向所有的同行学习,但我们也要在各个维度不留死角,做六边形战士。我们会从每一个维度去关注,跟对手差别在哪里。 来源:受访者 问:小米17系列中,采用了很多国产材料创新,小米在供应链自主化方面有哪些布局?雷军:5年前,我们就提出要转型智能制造,转型硬核科技公司,其核心是能力驱动,而不是赌机会。它需要3年5年10年的投入,持续研发,才能真正把事情做成。我对整个中国的工业越来越有信心,我们早期都在应用层的创新,这是我们中国公司的长处。紧接着到零部件级的芯片级创新,材料和核心的零部件创新。今天我们讲的红色发光主材,是中国国产公司第一次做到欧奈尔的材料级别。此外,我们的超级像素、电池技术等等也在突飞猛进地发展。这些都得益于我们在手机业务对核心研发的长期、持续的投入。我们整个手机部的研发人员有1万多人,过去我们讲得少,其实小米下了很大的功夫。
-
苏宁易购官宣开启双11 9月26日消息,苏宁易购宣布,今年双11大促将全面提前至国庆档,自9月30日开启“家电普惠日”,率先打响双11活动“第一枪”。苏宁易购集团副总裁陆耀表示,广大消费者对融合新功能、新场景、新体验的新智家电的需求依然迫切。苏宁易购将依托“国庆抢跑+双11延续”的优惠节奏,整合全渠道供应链、深化场景体验创新,让消费者尽早享受实惠;同时将持续推动行业回归用户价值与行业本质,联合合作伙伴共同定义产品标准与消费趋势,让家电消费在普惠中升级。 据介绍,活动节奏方面,今年苏宁易购双11启动时间提前至国庆,并于9月30日零点起正式开启家电普惠日,全程长达44天,覆盖9天9夜狂欢补贴季、双11嘉年华等阶段。作为双11全程“第一枪”,9月30日至10月1日,苏宁易购将联合品牌开启“闪购48小时”专场,全国万店全程不打烊,加码推出10万套特价家电,为消费提供一步到位的优惠让利。(易智) 本文来自网易科技报道,更多资讯和深度内容,关注我们。
-
Science重磅:下一代协作型AI Agent?UCLA团队揭示AI、小鼠的共同合作逻辑 图源:Stella Levi合作是人类社会的基础,理解合作如何产生并维持,不仅对解决冲突、治疗影响社会行为的疾病具有深远意义,也对设计更优的人工智能(AI)系统至关重要。随着多 AI Agent 系统在自动驾驶、分布式机器人等场景的落地应用,如何让 AI 学会高效合作,已成为突破技术瓶颈的关键。已有研究表明,人工 Agent 和生物 Agent 可以表现出相似的行为策略和神经表征。这为探索人工 Agent 在交互时如何产生合作行为,以及这类交互是否可能由类似生物系统中的神经网络动态驱动,开辟了新的方向。今天,加州大学洛杉矶分校助理教授 Weizhe Hong 团队在这一领域取得了新的突破——通过对比小鼠和人工 Agent 在合作任务中的表现,证明 AI 系能够形成与生物大脑中的观察结果相似的行为策略和神经表征。这项研究首次直接比较了生物大脑和 AI 之间的合作学习,为社会行为中最重要的方面之一提供了新见解,同时也为人类打造出更智能的协作型 AI 提供了全新思路。相关研究论文以“ Neural basis of cooperative behavior in biological and artificial intelligence systems”为题,已发表在 权威科学期刊Science上。 论文链接:https://www.science.org/doi/10.1126/science.adw8151实验验证:小鼠是如何学会协作的? 为探究生物合作的底层逻辑,研究团队设计了一次小鼠合作实验。实验选用 8 周龄的 C57BL/6J 小鼠,将其两两配对,放置在中间有透明带孔分隔板的实验舱内。分隔板的设计很关键,既让两只小鼠能通过视觉、嗅觉和轻微肢体接触感知彼此,又避免了直接肢体干扰。 图|小鼠合作实验中实验舱示意图。实验的核心任务是同步鼻触:每只小鼠所在的舱室都有一个鼻触口和一个饮水口,只有当两只小鼠在规定时间窗口内先后完成鼻触动作,才能同时获得饮水奖励;若仅有一只小鼠鼻触,或超出时间窗口,双方都无法得到奖励。为逐步提升合作难度,研究团队将时间窗口从初始的 3 秒,逐步缩短至 1.5 秒,最终定为 0.75 秒,以此考验小鼠的协调精度。在正式实验前,研究团队先对单只小鼠进行“预训练”,让它们学会将鼻触动作与饮水奖励关联,同时剔除鼻触动机极低的个体,确保实验数据的有效性。训练阶段则分为三个阶段,分别对应 3 秒、1.5 秒和 0.75 秒的时间窗口,三个合作阶段分别包含 5 次、10 次和 15 次每日训练,每次训练持续 30 分钟。经过系统训练,76% 的小鼠的合作表现显著超过随机水平。研究团队进一步通过打乱数据法判断随机水平:将一只小鼠的鼻触时间固定,随机打乱另一只的鼻触序列,计算此时的正确合作概率。对比发现,真实实验中小鼠的正确合作次数远高于随机数据,且错误次数更少,这说明它们是通过主动协调来达成合作。在表现超随机水平的小鼠中,41% 属于“高表现组”。随着训练推进,错误合作次数持续减少,鼻触间隔也不断缩短。 图|对照实验的实验结果。为进一步验证“主动协调”的必要性,研究团队设计了三组对照实验:一是将透明分隔板换成不透明板,阻断视觉信号;二是让小鼠“各自为战”,达成单独鼻触即可获得奖励;三是“单方合作”,仅一只小鼠需依赖同步鼻触获奖励,另一只可单独获奖励。结果显示,这三种情况下,小鼠的合作指数均大幅下降,尤其是不透明板组,等待和互动行为几乎完全消失,充分证明小鼠的合作依赖对同伴信息的感知和互利动机。这些证据共同表明,这种合作行为并非源于独立的基于时间的决策、简单的模仿行为、偶然动作或依赖社会线索的决策。相反,两只动物都正确遵循规则,并根据伙伴的社会信息和互利关系主动协调行动,才能实现成功的合作。关键因素:前扣带回皮层 小鼠的协作行为背后,究竟是哪个脑区在“发号施令”?研究团队将目光锁定在前扣带回皮层(ACC)。ACC 位于大脑额叶中部,此前研究已发现它与情绪处理、社会决策等功能相关,但在合作行为中的具体作用尚不明确。为观察 ACC 的神经活动,研究团队采用了微型内窥镜钙成像技术。他们先向小鼠的 ACC 区域注射表达荧光钙离子指示剂(GCaMP7f),通过实时记录钙信号变化,追踪单个神经元的活动。最终成功记录了 17 对小鼠共 12798 个 ACC 神经元的活动数据。 图|小鼠执行合作任务时 ACC 的神经活动(A);对 17 对小鼠的 12798 个神经元进行神经活动记录(B-D)。分析发现,ACC 神经元对合作事件具有高度特异性响应:一部分神经元仅在正确合作时激活,另一部分则只对错误合作有反应,且响应正确事件的神经元数量明显更多。正确事件响应神经元的占比,与小鼠的合作表现呈正相关:高表现组小鼠的 ACC 中,这类神经元的比例显著高于普通组。说明 ACC 对成功合作的编码能力,直接影响合作效果。 图|在合作条件下对正确或错误试验产生反应的神经元,在不透明分隔板条件下仅表现出微弱的神经活动;相反,另一组基本独立的神经元则对自发触鼻行为产生反应。研究还发现,ACC 不仅能识别合作结果,还能编码合作中的关键决策。通过支持向量机(SVM)解码 ACC 神经信号,研究团队能准确区分这两种决策状态,证明 ACC 是合作决策的“大脑”。通过 SLEAP 姿态追踪技术,研究团队还拆解出小鼠合作的三大核心策略: 接近:小鼠会主动靠近分隔板,在鼻触前 2 秒内,向同伴一侧移动的频率显著增加; 等待:当一只小鼠先到达鼻触端口,会在社交区域停留,直到同伴靠近再行动; 互动:两只小鼠会通过隔板两侧的鼻端接触交流,且互动角度从初始的 180 度逐步优化为 120 度,既能保持对同伴的感知,又能快速切换到鼻触动作,策略精度持续提升。 行为相似:AI 复刻小鼠合作逻辑 在揭示小鼠的合作机制后,研究团队将研究范围拓展至生物系统之外,深入探究合作机制在 AI 系统中的形成及其运作方式。研究团队基于多 Agent 强化学习(MARL)框架,利用循环神经网络(RNN)开发了两个 Agent,并构建了一个模拟小鼠实验的虚拟环境,训练 Agent 在此环境中实现协作。 图|两个 Agent 分别位于两侧,中央设障碍物分隔,每侧均配备“鼻触口”和“饮水口”。训练结果超出了研究团队的预期:AI 成功掌握了合作策略,且其行为模式与小鼠高度趋同。在合作阶段正确合作次数持续增加,鼻触间隔集中在 2 个时间步内,且错误次数远低于非合作阶段。研究团队进一步分析 AI 的神经网络活动,发现 AI 中也存在专门编码自我位置和同伴位置的单元。在合作阶段,编码同伴位置的单元活性显著增强,且其占比与 AI 的合作表现正相关;而在非合作阶段活性则明显减弱。接下来,研究团队深入研究了 Agent 是否会像动物那样展现出促进合作的行为策略。为此,他们分析了每个 Agent 根据其伙伴位置采取的行动。由于 Agent 可直接“看到”彼此,因此最初团队预计其不会出现像小鼠实验中观察到的那种接近或互动行为。然而结果出乎意料,Agent 会表现出“等待”行为:当同伴距离鼻刺位置较远时,它们会暂停或后退移动。如图所示,两者都试图通过最小化彼此与鼻刺位置的距离差异来主动协调行动。这种主动协调行为出现在正确戳探前,但在错误戳探或非合作状态下则不存在。此外,这种等待行为与个体 agent 更优的合作表现呈正相关。由此可见,这种行为能有效促进 AI agent 的合作行为。 图|Agent 的运动流场分析。虽然生物小鼠与人工 Agent 属于两类完全不同的系统,但它们在合作行为中却呈现出惊人的相似性。研究团队认为,这种一致性背后的原因主要有以下三点:首先是信息依赖。无论是小鼠还是 AI,实时感知同伴状态都是合作的前提。小鼠通过透明隔板获取视觉、嗅觉信号,AI 通过传感器观测同伴位置,一旦这些信息被阻断,合作便会迅速崩溃。其次是合作策略。成功的合作依赖可学习、可优化的预备策略。无论是小鼠的“接近-等待-互动”,还是 AI 的“静止-靠近-同步”,本质都是通过预备行为降低协调难度,并且这些策略会随训练优化。最后是专属单元。生物和 AI 都演化出了专门编码合作相关信息的“单元”:小鼠 ACC 中,有神经元特异性响应正确合作、编码决策;AI 的 RNN 中,有单元专门处理同伴位置、调控合作动作。这些单元的活性与合作表现直接挂钩,抑制或消融它们,合作能力就会受损。以上研究结果证明,合作并非生物的专属技能,而是一种可计算、可复制的底层逻辑。随着技术发展,或许将来我们能看到基于这种逻辑的 AI,与人类在多种场景中实现真正意义上的协作。整理:小瑜如需转载或投稿,请直接在公众号内留言
-
谷歌掏出自家最强机器人大脑,一句话完成垃圾分类,关键技术解析来了 智东西 作者 陈骏达 编辑 云鹏 智东西9月26日报道,今天,谷歌DeepMind推出Gemini Robotics 1.5系列机器人模型,通过思维链机制和模型协作,进一步提升机器人的自主性,使其能够感知、计划、思考、使用工具和行动,以更好地解决复杂的多步骤任务。谷歌将其称之为把AI agents带入物理世界的重要一步。谷歌DeepMind本次发布的两款模型分别为Gemini Robotics 1.5和Gemini Robotics-ER 1.5。前者是谷歌目前最强大的VLA(视觉-语言-动作)模型,能将视觉信息和文本指令转化为机器人的控制命令,主要充当机器人的小脑。这一模型在采取行动前会思考,并展示思考过程,还能在不同的机器人本体上进行学习,提升学习效率。Gemini Robotics-ER 1.5则是谷歌迄今为止最强大的VLM模型(视觉语言模型),能对物理世界进行推理,更像是机器人的大脑。它原生具备调用数字工具并创建详细的多步骤计划,进而完成任务的能力。该模型在空间理解基准测试中实现了最先进的性能,具身推理能力远超GPT-5、Gemini 2.5 Flash等模型。 搭载上述两款新模型的机器人,也因此解锁了完成复杂长链路任务的能力。比如,你可以让机器人查询当地垃圾分类要求,将桌面上的物品放到正确的垃圾桶中。模型能准确理解这一复杂需求,并驱动机器人完成任务。 开发者可以通过Google AI Studio中的Gemini API使用Gemini Robotics-ER 1.5模型,而Gemini Robotics 1.5目前可供部分合作伙伴使用。谷歌还发布了Gemini Robotics 1.5系列模型的技术报告。技术报告:https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf模型链接:https://deepmind.google/models/gemini-robotics/gemini-robotics/一、基于Gemini基础模型打造,训练数据来自3款机器人 对机器人而言,大多数日常任务都需要上下文信息和多个步骤才能完成,这对目前的机器人而言颇具挑战。为了帮助机器人完成复杂、多步骤的任务,谷歌DeepMind让Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款模型在同一个Agent框架中协同工作。具身推理模型Gemini Robotics-ER 1.5像大脑一样协调机器人的活动。该模型擅长在物理环境中进行规划和做出逻辑决策,也具有先进的空间理解能力,能以自然语言与用户进行交互,对任务是否成功和任务进展进行评判,并且可以调用谷歌搜索等工具来查找信息,或使用任何第三方用户定义的函数。Gemini Robotics-ER 1.5为每个步骤提供自然语言指令,而Gemini Robotics 1.5利用其视觉和语言理解直接执行特定动作。Gemini Robotics 1.5还帮助机器人思考其行动,以更好地解决语义复杂的任务,甚至可以用自然语言解释其思维过程,使其决策更加透明。 这两个模型都建立在Gemini系列模型之上,这使得它们能够继承Gemini的多模态世界知识、先进推理以及工具使用的通用能力。之后,两款模型使用不同的数据集进行了微调,以专注于各自的角色。当它们结合起来时,可以提高机器人泛化到长任务和多样化的环境的能力。Gemini Robotics 1.5系列模型共同使用的训练数据集由三种模态组成:图像、文本,以及机器人传感器与动作数据。训练所用的机器人数据集是多本体(multi-embodiment)的,涵盖了数千个多样化任务,从抓取与操控,到双臂协作,再到人形机器人执行日常复杂任务。这些数据采集自多个异构机器人平台,包括ALOHA、Bi-arm Franka和Apollo人形机器人。 ▲Gemini Robotics 1.5系列模型能开箱即用地完成跨本体任务除了机器人专属数据集,训练数据中还包括来自互联网的公开文本、图像和视频数据集,使得模型不仅具备机器人相关技能,还能借助大规模世界知识提升泛化能力。为了确保训练的高质量与安全性,所有数据在使用前必须经过严格处理。谷歌DeepMind通过多阶段筛选,确保数据遵循相关政策,去除低质量样本与不符合规范的内容。数据集中每张图像都配备了原始描述与合成描述,这些合成描述由Gemini和FlexCap模型生成,帮助模型捕捉图像中的细节与上下文语义。训练过程中使用了最新一代硬件,包括TPU v4、v5p与v6e,并结合JAX与ML Pathways框架,以实现高效并行训练与跨平台扩展。二、靠动作迁移机制实现跨本体,让机器人学会“三思而后行” 作为一款VLA模型,Gemini Robotics 1.5的使命是“理解指令并将其转化为动作”。为了实现这一目标,研究者在训练中引入了一个关键机制——动作迁移(Motion Transfer, MT)。MT的作用是打破不同机器人之间的“壁垒”。在传统方法中,如果一个机器人学会了某项技能,往往需要额外训练才能迁移到另一个机器人。而在MT的加持下,Gemini Robotics 1.5能够在不同实体之间直接实现零样本迁移(Zero-shot Transfer)。也就是说,即便模型只在ALOHA机器人平台上学过“打开抽屉”,它也能在Apollo人形机器人上完成同样的任务。这一能力来自于MT机制对动作与物理的统一建模,它能对齐不同平台的数据并提取其中的共性。除此之外,Gemini Robotics 1.5还具备了具身思考(Embodied Thinking)的能力。它在执行动作之前,会生成一条以自然语言形式呈现的“思考轨迹”。这条轨迹帮助模型将复杂任务拆解为更细致的步骤。例如,当接到“帮我收拾桌子”的指令时,模型可能会先在思考中分解为“拿起杯子”、“移动到水槽”、“放下杯子”等小步骤。这种方式不仅降低了从语言到动作的直接映射难度,也让模型在执行过程中更具鲁棒性。如果杯子在移动过程中掉落,它会立刻调整思考轨迹,改为“重新拾起杯子”,而不是简单判定任务失败。与Gemini Robotics 1.5不同,Gemini Robotics-ER 1.5并不直接操控机器人执行具体动作,而是专注于具身推理(Embodied Reasoning),负责高层次的任务规划与决策。在训练中,Gemini Robotics-ER 1.5针对机器人任务所需的关键能力进行了特别优化。首先,它能够完成复杂的任务规划,把长远目标拆解成一系列合理的子任务。其次,它具备较强的空间推理能力,可以结合视觉与时间信息,理解物体的相对位置与运动轨迹。最后,它还能够进行任务进度估计,实时判断任务是否成功、完成度如何,并据此调整后续动作。 ▲Gemini Robotics-ER 1.5能完成的部分任务Gemini Robotics-ER 1.5在15个学术具身推理基准测试中实现了最高的综合性能,超过Gemini Robotics-ER 1.0和GPT-5等模型。 它能够将语言描述准确地映射到视觉目标上,比如“指向桌子左下角的蓝色杯子”,或是基于多视角信息实时判断机器人动作是否达成目标,这对长序列任务的稳定执行至关重要。在整个体系中,Gemini Robotics-ER 1.5的定位是编排器(Orchestrator)。它接收人类指令与环境反馈,制定总体计划,再将这些计划转化为Gemini Robotics 1.5能执行的具体动作指令。它还具备调用外部工具(如网络搜索)的能力,确保机器人在面对复杂场景时依旧能够灵活应对。不过,具备更高自主性和执行能力的机器人,也可能带来安全风险。为此,谷歌DeepMind已经开发了新型的安全和对齐方法,包括顶层的安全判断机制和更为底层的安全子系统(如用于避免碰撞的系统)。谷歌DeepMind还发布了机器人安全基准测试ASIMOV的升级版,这是一个用于评估和改进语义安全性的综合数据集,具有更好的边缘场景覆盖率、改进的注释、新的安全问题类型和新的视频模式。在ASIMOV基准测试中,Gemini Robotics-ER 1.5显示出最先进的性能,其思维能力极大地有助于提高对语义安全的理解,更好地遵守物理安全约束。结语:机器人模型跨本体化共识逐渐形成 与传统依赖单一数据和特定平台的训练方式不同,Gemini Robotics 1.5系列模型通过多本体数据、动作迁移机制,以及具身思考与推理范式,让机器人能够跨平台迁移技能,并在复杂环境中展现出类似人类的适应能力,扩展了机器人模型的通用性。而这也成为不少厂商打造机器人模型的目标之一。日前,宇树开源的机器人世界大模型UnifoLM-WMA-0,虽采取了不同的架构,但也同样具备适配多种机器人本体的能力。跨本体化,或许已经逐渐成为行业的共识与新赛道。
-
滴滴AI出行助手“小滴”开启公测 9月26日消息,滴滴开启公测AI出行助手“小滴Beta v0.8版本”,该功能在滴滴派单系统上,通过智能理解用户需求,为用户提供定制化的用车方案。用户更新至最新版滴滴App后,可通过搜索“AI叫车”并输入口令码,即可体验AI出行助手小滴。 据了解,“小滴”支持语音和文字输入,用户只需描述出行需求,例如“明早送家人去机场,要空间大、服务好的新车”,系统便会结合实时路况等信息,智能推荐最多3个匹配的车辆选项供用户选择。该功能打破了传统先选车型再输入目的地的叫车流程,实现“需求优先、系统匹配”的智能化服务。 公测期间,滴滴鼓励用户尽可能详细地表达需求,如对车辆类型、舒适度、价格等方面的偏好,以帮助AI持续优化推荐精准度。除实时叫车外,“小滴”还支持预约用车、订单查询、路线规划及智能客服等功能,覆盖多种出行场景。 据悉,滴滴同步上线MCP服务,开发者通过简单配置即可接入,使自定义智能体具备出行方案规划、实时叫车、订单查询及自动支付等能力,轻松构建专属出行助手。该服务目前已支持特快、特惠、快车、优享、专车和豪华车等多种车型,未来滴滴将在安全可信基础上持续拓展MCP技术应用场景,与开发者共建开放AI生态。(朴灿灿) 本文来自网易科技报道,更多资讯和深度内容,关注我们。
-
京东物流布局具身智能,“超脑大模型2.0”和“异狼”机械臂来了 9月25日消息,JDDiscovery-2025京东全球科技探索者大会在北京举行,京东物流首度发布两大核心技术成果——“超脑大模型2.0”与“异狼具身智能机械臂系统”,全面提升“超脑+狼族”的“人工智能+”物流供应链全场景的科技化、智能化,成为“人工智能+”在物流行业的科技应用新范式。 据了解,“超脑大模型2.0”基于数字孪生技术,将千万级变量求解时间缩短至2小时内,实现物流路径动态优化。该模型支持多设备协同,使员工操作标准化提升15%,人机协作效率提升超20%,一线作业效率提升近20%。同时,该模型支持与“狼族”智能设备互联,构建多机协同的智能物流系统。 “异狼”机械臂则针对物流场景中的非标包裹自动化难题,通过视觉感知与高精度控制技术,实现毫米级抓取与码垛操作,具备“感知-决策-执行-进化”的全流程闭环能力,目前已在北京、天津等多地园区投入常态化运营。 二者协同形成“云脑+端臂”的智能闭环,共同强化京东物流“超脑+狼族”技术体系。该体系已衍生出商业化平台“与图”数智时空,为零售、金融、电力等多行业提供选址、分单、营销等智能支持,地理编码准确率超98%,助力客户实现精准运营降本增效。 据悉,京东物流“狼族”产品群还包括“智狼”货到人系统、“独狼”无人车及“飞狼”无人机等,覆盖仓储、分拣、配送全链路,目前已部署于全球超500个仓库,推动物流行业从“机械化”向“认知化”全面跃迁。 未来,京东物流将继续深化AI与具身智能技术融合,构建开放、高效的智慧供应链生态,为“人工智能+”在物流领域的实践提供可落地的中国方案。(朴灿灿) 本文来自网易科技报道,更多资讯和深度内容,关注我们。
-
纽约时报:中国工厂去年安装近30万台新机器人,使用的机器人数量是美国的五倍 中国正在以远超其他国家的速度制造和安装工业机器人,美国则远远落后,位居第三,这使中国在全球制造业中已经拥有的主导地位进一步得到巩固。据面向工业机器人制造商的非营利行业组织——国际机器人联合会周四发布的报告,去年中国工厂运行的机器人数量超过200万台。报告还称,中国工厂去年新安装了近30万台机器人,超过世界其他地区的总和。美国工厂安装的机器人为3.4万台。在中国工厂加大机器人运用的同时,其机器人制造能力也在提升。政府运用公共资金和政策指令来鼓励中国企业成为机器人以及半导体和人工智能等其他先进技术领域的领军者。 在全球范围内,机器人和人工智能正对制造业产生日益重要且具颠覆性的作用。工业机器人适用范围广泛,从焊接汽车零部件的机械臂到将箱子吊到传送带上的机械爪。随着这种技术帮助工厂提高效率,一些工厂需要的工人数量正在减少,其他员工的角色也发生了变化。过去十年里,中国开始了大规模行动,在工厂推广机器人,成为机器人的制造大国,并把人工智能领域的进步结合到机器人行业中来。科技研究公司Omdia的首席分析师苏连杰表示,中国的企业已从国家层面的大力推动中受益,这与中国的电动汽车和人工智能行业的发展方式完全一样。“这并非偶然,”苏连杰说。“中国的企业在这方面投资已有多年。”中国让自己成为世界制造业强国努力的一个关键部分是大力推动工厂自动化。自2017年以来,中国工厂每年安装的机器人数量超过15万台。与此同时,制造业的产出也在大幅增长。截至今年年初,中国工厂生产的制成品已占全球总量的近三分之一,超过美国、德国、日本、韩国以及英国的总和。中国之后的四个使用工业机器人最多的国家分别是日本、美国、韩国以及德国。与上年相比,这四个国家安装的机器人数量去年都有所下降。其中日本安装了4.4万台机器人。2015年,中国政府把提升本国在机器人领域的全球竞争力作为《中国制造2025》运动的一项首要任务,以减少先进制成品的进口。重点行业几乎可以无限制地从国有银行获得低利率贷款,并在收购外国竞争对手上得到帮助,享有政府的直接注资或其他方式的扶持。2021年,中国政府颁布了一项全国性的详细战略推广使用机器人。“大家能看到这项战略多么有效;缺乏战略的国家始终处于劣势,”机器人联合会秘书长苏珊娜·比勒说。该联合会的数据显示,中国在全球机器人制造业占的份额去年上升到了33%,高于2023年的25%。此前领先的日本在全球市场占比已从2023年的38%下降到了去年的29%。直到去年之前,中国工厂安装的进口机器人数量仍多于国产机器人。但中国去年安装的机器人中有近60%是国产的。总体而言,中国工厂使用的机器人数量是美国的五倍。机器人联合会的数据不包括人形机器人,这种有两条腿的机器人目前大部分仍处于实验阶段。但中国政府的扶持已带动了人形机器人初创企业的蓬勃发展,形成了一个生产机器人专用部件(例如电动关节)的配套产业生态系统。总部设在技术热点城市杭州的人形机器人初创企业宇树科技有限公司曾在本月早些时候表示,有计划在今年年底前上市。宇树科技生产的最新型号人形机器人起价3.99万元,比行业领军者美国波士顿动力公司机器人的售价低得多。尽管如此,中国公司在制造人形机器人的一些关键部件(包括某些传感器和半导体)方面仍落后于外国竞争对手,Omdia的苏连杰说道。许多部件的顶级产品仍在德国和日本等长期在机器人制造业领先的国家生产,他说。“如果你要组装一个真正顶尖的人形机器人的话,它几乎完全不是中国制造的,”苏连杰说。“它也许会用一两个中国部件,但总的来说,整个系统会是很国际化的。”但就工业机器人而言,中国拥有众多优势。它有大量能安装机器人的熟练电工和专业计算机程序员。但就连中国也有机器人安装专家短缺的问题,他们的年薪飙升至近43万元。此外,中国的人工智能行业高度聚焦于运用这项新技术来追踪和优化工厂设备性能的各个环节。中国企业“正在利用人工智能迅速介入,判断哪些机器运行良好,哪些机器略有不足”,在上海从事自动化行业供应链研究的顾问卡梅伦·约翰逊说。他还说,在中国以外的地方,“人们还没有把人工智能视为一个制造业工具,至少目前还没有,不像中国人正在做的那样。”