找到
1111
篇与
互联网
相关的结果
- 第 51 页
-
究竟用什么迎接AI的军备之旅 2025.09.12 本文字数:1733,阅读时长大约3分钟作者 |一财评论员AI再次点燃人们对未来的殷切期许。最新OpenAI巨额资本支出点亮了硅谷和全球金融市场。这份资本支出,让甲骨文公司的“剩余履约义务(RPO)”猛增至4550亿美元,令其股价10日飙升约36%,埃里森的财富也一度超过马斯克成为全球首富。这也同时将博通、谷歌等科技巨头推上增长的风口。人们将市场对AI驱动增长的狂热追求称为一场“军备竞赛”。诚然,科技的希望之火一旦被点燃,就注定光芒四射。OpenAI的大手笔资本支出不是唯一,人们会看到更多逐梦者和冒险家前赴后继,投身于这场人类科创史上最大的洪流中。相比OpenAI,特斯拉最近与马斯克对赌的万亿薪酬背后,是特斯拉的完美转身,这不再是一家电动车公司,而是一家物理世界AI驱动的科创公司,Optimus机器人V3版本、FSD、AI5和AI6等,都吊足了市场胃口。正如马斯克在做客美国知名商业科技播客《All-In Podcast》中表述的那样,擎天柱的供应链很多需从零到一、从无到有的创建,需基于物理第一性原理的创见。很多人用泡沫来形容华尔街和硅谷在AI领域的孤注一掷,但如果市场聚焦式的热情是一种泡沫,那么泡沫就是通往未知的门票,因为市场在包容所有参与者试错的过程中,注定会有一种叙事结构和逻辑载誉归来,但这并不意味着其他的试错和冒险就是泡沫。市场试错伴随着泡沫,科学发现的逻辑就是猜想和反驳,没有捷径。面对未来已来的AI“军备竞赛”,我们用什么来迎接,并积极参与?首先,必须在认知上明晰,AI不是一个连续函数,而是一场科技跃迁,本身就伴随着巨烈颠簸的经济生态重构,因为AI不是简单的对已知经济生态的重新匹配,而是一种猜想和反驳的商业化运营,先有创新者和冒险者对需求的精确描述,才有满足需求的匹配和创见等行动,因此通往AI之旅,并不都能从现有全球经济和产业生态链中找到答案,而更多需创见新的设计和工具,以满足由猜想和反驳孕育而来的需求。这意味着现有的经济产业生态链,本身就需基于物理第一性原理去挖掘和跃升自身的能力,这在特斯拉开创的电动车供应链中得到了初步路演。因此,当前必须明确一点:在新科技变革前沿,甚至需人们有魄力将过往优势摧毁和重塑,敢于壮士断腕。其次,重塑和重建叙事结构和逻辑,才是AI时代的核心竞争优势。科创的过程本质上是一个准确陈述和勾画未来逻辑图腾的过程,这需通过猜想和反驳精确地将需求表达出来,背后是一系列概念内涵外延的厘定、边际标准的精准把握等。科创最终需通过自由浇灌,需制度性包容,需不同的创见声音在市场汇聚出磅礴的交响乐。这就要求围绕个体的创见这一内核,搭建一个自由陈述和表达的环境,尊重每个人对创见的自由表达权,尊重每个人合法利用市场的权利,有效降低市场准入门槛,维护经济社会的公平正义和市场的公平竞争秩序。这还要求监管部门在制定政策时尊重和践行衡平法则,用法经济学的经济社会成本最小化原则来完善公共监管。此外,AI时代的竞争,是一种超越时空的竞争,已无法通过物理隔离来保护一国一域之市场。因为人类用重金打造的AI,其智力注定远超人类,如AI与Web3.0的结合将拥有穿墙透壁的能力,变得无孔不入,又如股票代币化和美元稳定币等将给国别的资本项目管制、国别法币等带来极大冲击,这种市场散点式冲击,会极大提高监管成本。因此,AI“军备竞赛”,竞争的不单是大规模的算力算法和数据等基建,最核心的竞争聚焦点是对需求的清晰描述和定义,这需制度精心呵护企业家的自由创见,尊重企业家的首创精神和自由意识。毕竟,让每一种可能性都有在市场表达的自由、投融资自由、匹配交易自由,每一条通往未来的路线,都在不违背自由背离原则下得到尊重和延展,是AI“军备竞赛”的必备行囊。敬之敬之,天惟显思。AI“军备竞赛”正在触发一场百舸争流的科技向上和向善革新,这场竞争不仅仅是发达的算力芯片、充足的分布式能源供给等器物之争,更是一场认知变革,唯有秉持常存敬畏的君子之心,为富有企业家精神的人打造出无事不扰、有求必应的竞争秩序,AI竞争才能真正实现不经意间见繁华。微信编辑| 七三第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专用邮箱:bianjibu@yicai.com(注:我们会对线索进行核实。您的隐私将严格保密。) -
微信推出“后悔药”! 近日,微信团队发布了安卓微信8.0.63内测版本,这也是继iOS版本后的一次重要更新。这次更新虽然看似“小修小补”,但却带来了几个实用且有趣的功能变化。对于新增的“删除联系人同时清除聊天记录”的选项,有网友表示“救了手滑的命”。在此前iOS微信8.0.61版本中,上线的“删除聊天可撤销”功能,现在安卓版也跟进了。在微信主页左滑删除与好友的聊天对话后,底部会立刻弹出“已删除与‘×××’的聊天”的提示。若在5秒内点击右侧的“撤销”按钮,即可恢复该聊天记录。微信还上线了另一个更大的“后悔药”:在删除联系人时,新增了“删除联系人同时清除聊天记录”的选项(默认不勾选)。如果未勾选,即使删除好友也能保留与对方的聊天记录。删除后对方不会收到通知,你仍然可以给对方发送消息,并且对方能正常接收。如果想重新加回对方,直接点击顶部的“对方还不是你的朋友”选项,即可悄无声息地添加回来,无需额外验证,且聊天记录完整存在。这对于误删好友、吵架后想和好,或单纯想清理列表但保留记录的用户来说,非常实用。综合自:潇湘晨报、微信责编:叶舒筠校对:杨立林 版权声明" Type="normal"@@--> 证券时报各平台所有原创内容,未经书面授权,任何单位及个人不得转载。我社保留追究相关行为主体法律责任的权利。转载与合作可联系证券时报小助理,微信ID:SecuritiesTimes" Type="normal"@@--> END" Type="normal"@@--> -
OpenAI与微软就合作关系修订达成初步协议,为重组扫清道路 OpenAI与微软宣布就修订合作关系达成初步协议,为重组成传统营利性公司扫清了关键障碍。周四,OpenAI主席布雷特·泰勒(Bret Taylor)在一份声明中表示,与微软签署了一份"下一阶段合作的非约束性谅解备忘录",正在积极制定最终合同条款。根据重组计划,重组后的非营利部门将继续控制新的公益公司,并拥有价值超过1000亿美元的股权,约占该公司寻求的5000亿美元估值的20%。据报道,1000亿美元股权只是底线,实际金额可能会增加。布雷特·泰勒强调: OpenAI作为非营利组织起步,今天仍然是,未来也将继续是。主导我们未来的,始终是非营利部分。 这一初步协议的达成,使得OpenAI首席执行官Sam Altman向其公司结构改革的目标迈出了重要一步。Altman及其投资者认为,将OpenAI转变为更传统的营利性实体,对于公司在未来几年筹集所需的海量资金至关重要。协议宣布后,微软在盘后交易中一度上涨超2%。但该交易仍需监管部门批准,且面临包括马斯克在内的多方反对。 解除旧有束缚OpenAI的崛起一直伴随着其复杂的、非传统的公司结构带来的挑战。该公司最初是一家非营利研究机构,后来设立了一个有利润上限的子公司,以便为微软等外部投资者打开大门。然而,随着公司寻求筹集数十亿甚至数万亿美元的资金,这种结构相比传统公司模式显得愈发束手束脚。此次重组的核心目标之一,是避免两年前发生的“董事会宫斗”重演,当时Sam Altman曾被短暂解雇后又迅速复职。据报道,作为近期几轮融资的一部分,OpenAI已向投资者承诺,将转型为一家营利性实体。最新的计划是,新的营利公司将被组建为一家公益公司,其董事会可以在追求股东回报之外,考虑其他社会目标。复杂合作关系寻求新平衡OpenAI与微软的合作关系被视为科技史上最重要的商业伙伴关系之一。微软已投资数十亿美元获得OpenAI技术的优先使用权,包括2019年的10亿美元投资和2023年初的100亿美元追加投资。然而随着OpenAI快速成长,这一合作关系日趋紧张。两家公司在客户争夺上存在竞争,OpenAI寻求的计算能力需求甚至超出了微软的供应能力。另一个争议点涉及一项条款,该条款规定一旦OpenAI达到"通用人工智能"这一模糊定义的里程碑,微软对OpenAI技术的使用权将受到限制。微软今年已放松对OpenAI的控制,允许其推进自己的数据中心项目“星际之门”,包括与甲骨文签署价值3000亿美元的长期合同,以及与谷歌达成另一项云服务协议。监管审查与法律阻力并存尽管取得进展,OpenAI的重组计划仍面临重大障碍。加州总检察长Rob Bonta和特拉华州总检察长Kathy Jennings正在审查该公司提议的财务和治理变更。两位总检察长上周发布联合信函,对OpenAI产品与儿童互动的相关报告表示担忧,包括一名加州儿童在与聊天机器人互动后自杀的案例。信函指出: 我们共同认为,OpenAI和整个行业在确保AI产品开发和部署安全方面还没有达到应有的水平。 OpenAI还面临早期支持者马斯克的法律挑战。马斯克指控这家初创公司在其慈善使命承诺上欺骗投资者,正在进行诉讼。OpenAI对Musk的指控予以反驳,称这位亿万富翁试图拖慢公司发展。此外,一些慈善机构也呼吁监管机构阻止这一交易。这些悬而未决的法律和监管问题,仍为OpenAI的转型之路增添了不确定性。 -
信息窃取软件已成 Mac 用户最大威胁:ModStealer 再被披露 IT之家 9 月 12 日消息,科技媒体 9to5Mac 昨日(9 月 11 日)发布博文,报道称苹果设备管理与安全公司 Mosyle 最新披露名为“ModStealer”的跨平台信息窃取恶意软件,自一个月前出现在 VirusTotal 以来,未被任何主流杀毒引擎发现。ModStealer 不仅针对 macOS,还能在 Windows 和 Linux 系统运行,其核心目的是窃取数据,尤其是加密货币钱包、账号凭证、配置文件和证书。研究人员发现,该恶意软件内置针对 56 种浏览器钱包扩展(包括 Safari)的代码,可直接获取私钥和敏感账户信息。 据分析,ModStealer 通过伪造招聘开发者的广告诱导目标下载恶意文件,攻击载荷是经过高度混淆的 JavaScript 文件(基于 NodeJS),能绕过所有基于特征码的防御工具。这种跨平台特性意味着更多企业与个人可能受影响,威胁范围远超 Mac 用户。除数据窃取外,ModStealer 还能截取剪贴板和屏幕,并执行远程代码。其中远程代码执行功能尤其危险,可能让攻击者几乎完全控制被感染设备。在 macOS 上,它利用苹果的 launchctl 工具,将自己植入为 LaunchAgent,实现长期隐蔽驻留。Mosyle 的调查还追踪到窃取数据的服务器位于芬兰,但相关基础设施与德国有关,疑似用于掩盖攻击者真实位置。结合功能特征与传播方式,Mosyle 认为 ModStealer 符合“恶意软件即服务”模式,即开发者将恶意程序打包出售给无技术背景的“加盟者”,后者可自行定制攻击目标。IT之家援引博文介绍,Jamf 今年早些时候报告称信息窃取恶意软件数量激增至 28%,使其成为 2025 年 Mac 恶意软件家族中的主要类型。 -
传统商贸市场加速“人工智能+”转型,轻纺城、小商品城相继布局 近日,义乌小商品城与群核科技达成战略合作,引发业内广泛关注。从小商品城发布的消息看,双方合作将主要围绕场景化数字展厅建设、商贸数字工具等方面展开。群核科技将利用其在3D AI技术等领域的技术优势,打造“AI+小商品贸易”的可复制模式,让技术成为“中国制造”出海的“加速器”。财闻注意到,在此之前,A股上市公司轻纺城(600790.SH)也与另一家“准独角兽”企业凌迪科技达成了类似的战略合作,并推出全面拥抱AI技术的战略转型计划。从合作内容和业务模式上看,两大市场可谓“不谋而合”。顶层战略上,双方都注重AI技术的赋能,小商品城计划“AI+小商品贸易”,轻纺城则可概括为“产业+AI+平台”;合作方选择上也有相通之处,群核科技与凌迪科技均以3D AI技术为技术核心,群核科技在电商场景推出了 3D AI 虚拟拍摄工具 “酷家乐电商棚拍”,凌迪科技自主研发的3D柔性体仿真引擎在各个行业都有巨大商用价值。轻纺城、小商品城的双双落子,标志着传统批发市场正在加速“人工智能+”的转型。以轻纺城为例,坐拥亚洲最大的纺织交易中心,公司手中握着一张王牌:各种交易数据、物流数据、资金流、需求流汇聚而成的海量商流,当AI算法与这座“数据富矿”相遇,传统市场生意的天花板也随之被掀开。具体而言,轻纺城计划在传统市场之上,再造一个“AI轻纺城”,旨在通过数字技术重构传统纺织品交易模式。首要工作是线上平台的升级。此前,轻纺城已打造了网上轻纺城、全球纺织网、帘想家等一系列交易平台,不过,受制于纺织品的特殊性,更多人还是愿意在线下购买。此次升级,轻纺城计划将最新成熟的3D展示、渲染与AI等技术集成至上述平台,最终实现面料展示、交易数字化,大幅减少面料交易环节中的时间与交易成本,全面提升商户的经营、决策与运行效率。同时,升级后的线上平台,也将与轻纺城布局在海外的展贸一体展厅实时融合,让客户现场看样、在线下单,大幅提升交易效率。市场功能的前置,让商户高效触达海外客户,做外贸像做内贸一样简单,也让“中国轻纺城”有了向“世界轻纺城”跃升的资本。在平台构建后,轻纺城也将获得海量的展示、需求、采购与交易数据,依托这些独一无二的珍贵数据,轻纺城计划开展“中国轻纺城纺织智能体”综合平台建设项目,打造“中国轻纺城AI大模型”,全方位赋能市场、商户、产品、渠道。“中国轻纺城纺织智能体”综合平台项目核心是面料纺织垂直大模型的建设。后续,大模型将落地在商户智能体、产品智能体、渠道销售智能体等多个平台,应用于设计、制造、营销等多个环节,大幅提升从设计、打样到营销的全产业链效率。在技术赋能之外,轻纺城的转型升级还体现在开展面料交易上,为各个平台的海量客户提供代采服务,这也是公司未来重点发展的业务之一。依托庞大的供应商资源库,轻纺城的代采业务具备稳定高效的货源保障,同时,借助“轻纺城”品牌的公信力,公司可以快速建立信任、降低交易成本。这一业务也是轻纺城从“市场管理者”迈向“产业运营商”的关键一跃:不仅开辟了参与交易环节的营收新曲线,更通过服务终端、拓展海外,为经营户带来增量订单与渠道,最终形成与现有市场业务共生共荣的良性生态循环。在业内人士看来,柯桥轻纺城和义乌小商品城的“人工智能+”转型并非孤立现象,而是传统商贸市场应对新形势的必然选择。随着数字经济的发展和国际竞争的加剧,传统批发市场正面临着前所未有的挑战。通过引入数字技术,这些市场能够突破地域限制,拓展全球市场;同时,数字技术也能帮助市场提高运营效率,降低交易成本,增强核心竞争力。可以预见,当“AI+”逐步落地,浙江传统市场的版图将被重新勾勒:义乌的小商品、柯桥的面料不再仅仅是货品,而是一串串可溯源、可交互的数字资产。下一步,AI技术有望嵌入传统市场每个关键节点,在市场、商户、产品及渠道上实现全方位智能化支持,让线上线下业务高度融合、境内境外市场同频共振。 -
用AI伪造商品毁损图恶意退款 涉嫌违法! 网购是大家现在习以为常的一种购物方式。在网购时,如果碰到有质量问题的产品,拍一张照片再申请售后是很方便的事。但是最近一些电商从业者反映,有些买家发来的“包装破损”“食品发霉”的照片,乍一看挺像那么回事,实际上根本不是真实拍摄图片,而是用AI技术伪造出来的。伪造图片目的也非常简单,就是想靠假图片骗取退款。面对这种情况,不少商家确实很头疼。那么用AI伪造图片骗取退款是否涉嫌违法?又该怎样防范和治理? 徐先生在多个电商平台经营水果生意,上个月,他在某平台上收到了一个“仅退款”申请,买家声称收到的哈密瓜已变质损坏。买家发图的同时,平台还同步发来了一条信息,提醒他这张图片已在平台发送多次。徐先生判断,这张图片里不自然的裂纹和斑点,应该是AI工具合成。之后他就拒绝了对方的“仅退款”申请。买家不服申请仲裁,最终也被平台驳回。徐先生:平台让我们举证,然后我们就提供了开箱视频,包括快递收到之后的图片。快递小哥也说了,签收的时候是没有任何问题的。 经营化妆品生意的李女士这段时间也被伪造售后图困扰。她告诉记者,按照规定,化妆品这类商品拆封后将不支持7天无理由退货,有些买家动起了歪心思,伪造过敏图片,借着“过敏包退”条款申请退货。李女士:会有客户钻空子,他随便AI一个图片说自己过敏,然后平台就会把这个责任就归到商家。商家不但损失产品,也损失运费。记者调查发现,这类“AI售后图”的制作并不复杂,买家通常先对快递实物拍照,再通过生成式AI工具对照片进行“局部改造”——将原本完好的商品,添加上破损、腐烂或变形的视觉效果,以此向商家申请退款。在社交平台上,不少商家和客服晒出各式各样的疑似“AI售后图”,这些图片里的“问题痕迹”往往透着不自然。当商家质疑照片真实性,要求再拍几张照片的时候,新发来的照片还可能会暴露更明显的破绽。 那么,买家利用AI伪造图片骗取退款是否涉嫌违法?中国法学会消费者权益保护法研究会副秘书长陈音江:我们肯定支持消费者依法维权,但是我们坚决反对打着维权的名义,去恶意索赔。通过AI来伪造一些图片证据去退款,是一种民事上的欺诈行为,确实会面临比较严重的法律风险。针对这类行为,专家建议商家也应主动防范,在对照片真实性有疑虑的情况下可以要求买家从不同角度多拍几张照片。通过对比不同照片中的关键信息,往往能发现AI造假的破绽,还可以要求买家提供视频。中国法学会消费者权益保护法研究会副秘书长 陈音江:通过AI图片识别工具,就能够检测出图片是不是经过技术合成,平台也可以建立“黑名单”制度,更好地规范这种行为。 -
腾讯辟谣“OpenAl前员工姚顺雨上亿薪资入职腾讯” IT之家 9 月 12 日消息,腾讯官方公众号“鹅厂黑板报”今天一早发布一条辟谣信息,“前 OpenAl 姚顺雨上亿薪资入职腾讯”的报道被打上“谣言”标签。 IT之家查询获悉,姚顺雨本科毕业于清华大学姚班,获普林斯顿大学计算机科学博士学位,2024 年加入 OpenAI 并参与智能体产品 operator 与 deep research 开发 。其研究聚焦语言智能体与现实世界交互,提出 ReAct 方法首创“推理 — 行动”结合的智能体范式,被学术界与工业界广泛采纳。姚顺雨博士期间提出思维树(Tree of Thoughts)框架改进决策模型,构建 CoALA 模块化认知架构。2025 年 5 月,他以 27 岁年龄成为《麻省理工科技评论》TR35 中国区最年轻入选者。 -
阿里开源新架构Qwen3-Next,模型训练成本降9成 每经杭州9月12日电(记者叶晓丹)9月12日,阿里通义发布下一代基础模型架构Qwen3-Next。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计,采用全新的高稀疏MoE架构,并对经典Transformer核心组件进行了重构,创新采用线性注意力和自研门控注意力结合的混合注意力机制,实现了模型训练和推理的双重性价比突破。基于这一新架构,阿里通义“打样”了Qwen3-Next-80B-A3B系列模型,开源指令(Instruct)和推理(Thinking)两大模型版本。新模型总参数80B仅激活3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens(文本处理的最小单位)超长上下文。 -
报告:一体化数据库是中小银行应对国产升级与AI规模化落地的“最优解” 银行业务系统正迈入与AI全面融合的时代。在2025Inclusion·外滩大会上发布的《面向AI时代的中小银行数据库研究与展望》报告提出,一体化数据库是中小银行应对国产升级与AI规模化落地的“最优解”,它将多种功能和特性集成于一体,为银行提供更为全面、高效、可靠的数据库解决方案,以更低成本满足中小银行数字化转型中的复杂需求。这份由中国银行保险报联合OceanBase海扬数据库,与19家银行机构编委单位发布的《报告》调研发现,中国银行业数据库国产升级进程在金融业处于领先地位。超50%的银行核心系统已采用分布式数据库,预计未来三年渗透率将突破90%。对于众多中小银行来说,推进核心系统国产升级与AI规模化应用时,仍面临三大痛点:关键业务系统的高并发承载压力、实时数据分析能力不足、AI应用落地门槛过高。加之技术人才短缺与预算限制,中小银行亟需高性价比、低门槛的解决方案。中国金融传媒特聘高级专家、中国银行业协会原首席信息官高峰在报告解读中指出,政策引导、技术驱动与市场需求三力合一,把银行业推进国产升级“深水区”。城商行步伐明显快于农商行,核心系统“选分布式、用一体化”已是行业共识。他强调,当下,金融业正面临着国产升级加速推进与AI全面迸发的双重浪潮,一体化数据库作为承载金融业务与数据智能的核心底座,战略地位愈发凸显。OceanBase CEO杨冰表示,在AI时代,金融业务正从TB级迈向PB/EB级,业务场景从单一TP或AP转向“实时交易+实时分析+AI推理”融合,并提出降本增效、架构简化及数据安全等要求。一体化数据库将“单机与分布式、TP与AP、多模数据与AI能力”深度整合,恰好契合这一痛点,成为当前最优选。如何解决众多中小银行的个性化需求?杨冰在接受采访时表示,中小银行本身业务虽然是不一样的,但是抽象成底下对数据库的要求,我们已经做了一次抽象,就是关键业务负载、实时分析、AI,在这三个方向上,可以用不同的形态解决,或者说都放到一个库里面去解决。《报告》总结了数据库未来四大趋势:一体化数据库成核心方向;AI与数据库深度协同推动智能化管理与多模融合;数据库将突破算力瓶颈进化为“算力引擎”;未来5-10年将诞生2-3家具备国际竞争力的中国数据库厂商登上世界舞台。“2025年,全球及我国数据库企业数量有所收敛。截至2025年6月,我国数据库企业数量为103家。预计未来数据库企业数量将缩减到个位数。随着中国国力及科技实力显著提升,OceanBase 海扬数据库等国产数据库厂商将在性能、生态与品牌三大维度形成国际竞争力,代表中国数据库产业站上世界主舞台。”《报告》指出。“也许现在对我们来说,需要全球最顶尖科技人才的投入和资源投入,但是却得不到相应的回报。没关系,我把它当作长期的投入。因为国家给了最好的时间窗口和机会,让我能够具备全球顶尖的竞争力,场景对于打磨一个科技产品最重要,这是第一趴我们在做,我们继续做。我们的出路在做这些竞争力的同时卷出去,世界那么大,我觉得可能要到全球去卷。”杨冰在接受采访时指出,打铁还需自身硬,既然要成为全球化的企业也要具备全球化的竞争能力。 -
从“经验依赖”到“数据驱动”,AI+消费让上海传统商场变客流地为客留地 上海正在加快打造具有国际影响力的人工智能高地,如今,大商场的柜台边,小菜场的摊位前,传统实体商业正在悄悄装上AI的“智慧翅膀”,让他们由昔日的“经验依赖”向“数据驱动”转变,传统实体商业也由此从“客流地”变为“客留地”。人工智能时代的“数豆子”神器1915年,南京路上,两位身着对襟短衫的男子,一位站路南,另一位站路北,过一行人,他们放一粒豆子。经过一连数天的测算,他们得出结论:路南人流比路北多。最后,上海永安公司决定开在南京路的南面。百年以后,作为零售行业“老兵”,百联股份引入“AI精准客流分析系统”,并在百联西郊购物中心、百联又一城等多个商业空间试点,堪称人工智能时代的“数豆子”神器。“AI精准客流分析系统”的原理是以室内实景3D地图为基底,通过激光雷达、惯性导航、相机等多传感器融合技术,实现厘米级精度的空间重建。“在不采集人脸等生物识别信息,确保个人隐私不受侵犯的前提下,我们把每位进店顾客包括衣着、步态、携带物品在内的200多个个性化特征采集下来,通过大数据分析,判断出他们的年龄、性别等。”百联西郊购物中心相关负责人介绍。 系统赋予每一位到店的顾客一个专属IP。依靠这套精准分析系统,商场摸准了客群的“画像”:顾客平均年龄35.3岁,51岁以上老年人占比超15%,独行客群占比最大、家庭客群次之。于是,他们明确了更为精准的运营策略,即“既要守牢服务周边社区居民的基本盘,也要开拓Z世代年轻人的消费空间”。以近期入驻百联西郊购物中心的5000平方米超大生鲜超市——品上生活为例,门前那座下沉式舞台原本是常规的营销空间,如今,它靠客流数据实现了“分时段精准运营”:上午银发群体集中,便安排家庭餐饮体验活动;工作日下午及周末,小太阳家庭客群增多,就主推儿童育乐业态宣传。“以前搞活动靠‘拍脑袋’,参与度时高时低,现在按数据来,每场活动人气都很旺,还能对超市和周边其他店铺进行导流。”商场运营人员表示。不仅如此,这套“AI精准客流分析系统”还赋予每一位进店顾客一个专属IP,从而记录下他进入购物中心后的运动轨迹,最终能为每家租户形成一个包括过店率、进店率、深逛率等数据在内的“数据驾驶舱”。百联西郊购物中心内有家著名金店,品牌响当当、楼层位置也过得硬,但品牌方因为业绩不佳,萌生不再续约的念头。购物中心方面用“AI精准客流分析系统”对其复盘后发现,路过这家金店的顾客并不少,但到店率和深逛率都要明显落后于同一楼面的另一家金店。“搭脉”下来,商场建议这家金店在门前摆放显著的促销广告,同时增加促销人员在门口的生意招徕,还要适当增加潮流金饰品的SKU(商品品类)。调整3个月后,金店的深逛率提高了166%,月销售额提高了146%。另据记者获悉,在上海大型商场中,利用AI技术实现精准获客的新一代“数豆子”神器,还有百联青浦奥特莱斯和浦东的比斯特购物村引入的AI智能客服。比斯特购物村把AI智能客服搜集到的顾客提问整理后,建成客户反馈分析模型和意图识别模型,从而进一步优化营销方案,并据此来吸引顾客到店、深逛。百联青浦奥特莱斯还形成VR地图推送给顾客,成为不见面的“导购员”。“物”脸识别助力菜场升级改造如果说百联西郊购物中心的“数豆子”神器,展现的是AI如何为大型商场的转型注入新动能,那么为民办实事项目——标准化菜市场升级改造过程中,AI技术的赋能,又给人们提供了一个“人工智能+消费”的“民生样本”。近日,记者步入焕然一新的静安区宁家·黄山市集,只见每个摊位上的传统电子秤均已被“AI智能识别电子秤”所取代,商户无需再对照价目表核对单价,只要将青菜、萝卜、水果等菜品放上秤台,系统便能自动“物”脸识别菜品名称、匹配单价,实时算出重量与总价,数据同步显示在屏幕上,顾客一目了然。 AI智能识别电子秤。(上观资料照片)今年以来,上海提前完成包括黄山市集在内80家标准化菜市场的升级改造,不仅在硬件设施上焕然一新,植入以“AI智能识别电子秤”为数字底座的“数据大脑”,更是升级改造过程中的“标配”——哪种菜品卖得最好、哪个时段客流最集中、当日营收多少,“AI智能识别电子秤”上形成的一笔笔交易最终归集成“买菜大数据”,可以帮助商户及时调整进货。之前凭经验进货常出现“有的菜不够卖、有的菜剩一堆”,现在根据销售数据按需采购,损耗减少了,营收效率也提上去了。记者了解到,不仅是标准化菜市场,盒马、联华超市等商超企业也广泛使用AI视觉秤技术,盒马自主研发的AI视觉秤技术,能够准确识别1000种以上的蔬菜、水果、干货、零食等,识别时间不超过0.8秒。目前,盒马已将这项专利技术向大润发、三江等企业共享。国务院日前印发《关于深入实施“人工智能+”行动的意见》,将“人工智能+消费”列入六大重点领域之一。市商务委表示,下一步,上海将围绕“促进人工智能消费终端进千家万户、人工智能商业终端进千商万店”,积极推动人工智能新品首发首秀首展,拓展“人工智能+服务”消费场景,打造人工智能特色商圈,赋能实体商业数字化转型,让“人工智能+消费”成为引领上海消费市场能级提升、加快建设国际消费中心城市的全新动力。原标题:《从“经验依赖”到“数据驱动”,AI+消费让上海传统商场变客流地为客留地》题图来源:上观题图 图片编辑:苏唯来源:作者:解放日报 吴卫群 -
“真金白银”支持产业蓬勃发展,普陀聚力打造“AI+数字广告”发展高地 随着数字经济蓬勃发展,广告产业也正经历着深刻的数智化转型。近日,2025年上海国际广告节在普陀区开幕。会上正式发布了《上海市支持人工智能赋能广告业创新发展的若干措施》,以12条“真金白银”的举措,推动AI在全市广告业的广泛应用,支持徐汇区、普陀区加快推动“AI+数字广告”创新集聚发展,助推上海打造人工智能与数字广告发展“双高地”。这一政策的推出,无疑为普陀区在数字广告细分赛道,特别是“AI+数字广告”领域的深耕发展提供新一轮精准助力。 据悉,此次新政的资金补贴力度创历史新高。比如,《若干措施》提出,支持“AI+数字广告”智能体研发。鼓励自然语言模型、视觉模型、多模态模型等基础模型在广告业创新应用,加大广告业全链路智能体研发力度,对具备自主创新能力、实现行业应用且获得市场认可的项目,按照上海市服务业发展引导相关专项资金管理要求,市、区两级给予最高不超过1200万元支持。同时,支持数字广告新技术新业态创新,对研发费用占营收达一定比重的数字广告企业,鼓励有条件的区按照企业研发费用投入的10%-50%,给予最高不超过500万元支持。“规模空前的资金支持,是企业能实实在在获益的政策,能引导企业进一步加码AI投入、扩大研发规模。”普陀区企业利欧集团数字科技有限公司CEO郑晓东表示,当前企业正加快构建由“利欧智能体”驱动的AI营销人机协同系统,旨在大幅提升广告产业的效能,“比如原本我们有1000人,有了智能体就可能具备3000个人的能力,未来甚至到达6000人的能力。”在本次广告节上,利欧数字的“AI广告一体化平台-AI创意工厂”入选“上海市数字广告业高质量发展十大创新案例”,成为区域AI技术应用实践的优秀代表。该平台通过多智能体系统,实现从需求洞察、内容生成到审核优化的全流程智能化,目前已在汽车、电商、金融等多行业中得到广泛应用。数据显示,端到端智能体可实现分钟级单图生成,创意产能提升3倍,内容可用率超90%,生产成本下降70%,直观体现了AI技术对广告业数字化转型的实际推动作用。普陀区是上海市数字广告产业的重要集聚区。在政策支持方面,普陀区早已布局在先。近年来出台了《普陀区加快发展数字广告产业实施意见》等一系列关于数字广告产业的政策,为数字广告行业发展营造了良好的生态环境。今年1-7月,普陀区广告业营收同比增长10.7%,呈现出良好的增长态势。区市场监管局副局长陈燕介绍:“我们将充分发挥区级层面政策落地能力强、配套好的优势,深入贯彻落实好《若干措施》,尤其是重点考虑政策的精准度和兑现率。” 同时,以打造上海国际数字广告园为契机,进一步优化数字广告产业生态,提升专业化服务。她透露,为进一步推动AI技术与广告创意深度融合,近期,普陀区还将举办“AI赋能广告新生”等系列活动。在生态集聚方面,普陀区亦成绩显著。作为中心城区首个数字广告园区,坐落于真如副中心核心区的上海国际数字广告园已经吸引了近180家数字广告及相关企业入驻,覆盖新媒体平台、MCN机构、整合营销等全产业链环节,2024年全年营收近150亿元。“我觉得数广园提供了一个非常好的平台,一方面促进了行业间的交流发展,另一方面给到我们企业很多政策、金融等方面的支持。”蔚蓝云创MCN内容中心副总经理文琼表示,AI赋能对企业来说创意会更多,制作成本也会变得更低,“希望未来可以涌现出越来越多的符合中国语言体系的国产图生视频类目的AI产品。”真如副中心公司党委书记、董事长杜春文表示:“我们以打造产业要素集聚地、龙头企业入驻地、知名奖项举办地、专业人才涵养地为目标,期望为数字广告产业提供富有活力的产业生态。”目前园区已吸引剧星传媒、元隆雅图等头部企业入驻,并配套3D数字化体验厅、共享会议空间等设施,为企业提供全方位服务。随着“The One Show奖获奖作品展示中心”落地上海国际数字广告园,以及上海国际广告节、国际MCN大会、长三角文博会等品牌活动的持续举办,普陀区数字广告产业的知名度和影响力正在不断提升。未来,普陀区将以沿沪宁产业创新带为战略通道,持续优化营商环境和创新生态,积极促进科技创新和数字广告产业双向赋能,进一步强化其在“AI+数字广告”领域的集聚效应和辐射能力,为上海建设“国际数字广告之都”贡献更多普陀实践。原标题:《“真金白银”支持产业蓬勃发展,普陀聚力打造“AI+数字广告”发展高地》栏目编辑:顾莹颖 文字编辑:赵菊玲来源:作者:陶钦忆 -
十年磨一剑,芝麻信用「开门」 「核心提示」 信用正在成为重塑商业规则的重要力量。 作者 |陈法善刘杨五毛钱买一条好评,花钱请探店人打卡,给“大V”封口费压差评——本地生活赛道的评价乱象,让商家陷入“不刷单没流量,刷单又烧钱”的困境。开餐馆、理发店本就是小本生意,却要为虚假评价买单。正如电商呼唤“让天下没有难做的生意”,本地生活同样需要一套真实可信的评价体系。9月10日,芝麻信用宣布战略升级商业信用服务体系,扩大本地生活场景接入,正式面向高德地图开放产品能力,双方共同打造全新线下信用服务体系。在新上线的“高德扫街榜”中,经用户授权后,芝麻信用将作为用户评价分的重要校准因子影响商家的综合评分,从而让商家评分更真实、可信。这也标志着,十年磨一剑的芝麻信用正式“开门”。1、线下探店打卡规则变天?现代人的餐前仪式,不再是洗手,而是刷点评。这堪称一种“赛博卜卦”,算一算此行是“惊喜”还是“惊吓”。这种评价体系,虽然为消费者提供了参考,但也存在局限性:刷单、职业探店人盲目推荐、被竞争对手恶意差评等乱象层出不穷。商家为了维护评分,需要额外花不少成本。轻则送用户饮料“买”评价,或者花钱打点“大V”,看似流量大,但实际转化寥寥。重则还得给职业差评师“封口费”,哪怕是竞争对手“0成本”的恶意差评,都需要花很大代价去应对。这些现象表明,这套以“数量取胜”的评价机制,往往无法真实反映商家的服务质量。在高德推出的“高德扫街榜”评分机制里:只有真实到店的人,才能参与打分;信用越高的用户,则对商家综合评分的影响越大。 信用等级高的的人,其评分往往更贴近真实体验,毕竟,谁会用多年积累的信用分去换取一次虚假评价的“蝇头小利”?这恰好成为“高德扫街榜”筛选优质评价的天然滤网,让店铺的评分更真实、可信。同时,“机器人”刷单、注册小号刷分营造的虚假繁荣也将被刺破。商家得以回归产品和服务本身,专心做好每一单生意,真正用品质赢得口碑。高德地图和芝麻信用的合作,因此被业内人士精准概括为:身体力行+言而有信。这是一种信用社会的基本价值观,也将爆发出巨大的行业影响力,有望改变众多行业规则。2、为何拉着芝麻信用给它撑腰?高德在这次发布会上官宣跟芝麻信用的合作,最直接的是借助芝麻信用的商业信用评估体系,校准商家评分真实性,优化消费体验;更长远的,是双方共同来构建线下服务信用体系。这里为什么要拉上芝麻信用来“撑腰”?不少普通消费者可能会误以为芝麻信用只是单纯的评分,殊不知,芝麻信用“十年磨一剑”,早已在商业信用体系建立了难以复制的生态壁垒。从2015年正式推出至今,芝麻信用作为独立第三方商业信用评估机构,积累了超7亿用户。用户规模之庞大,覆盖了租赁、购物、商旅出行、本地生活等众多商业场景,用户通过个人芝麻分,就能享受到免押、先享、先试等各种便利的服务。这也意味着,芝麻信用构建起了覆盖广、渗透高、高粘性的商业信用生态网络,目前已成为国内最成熟的商业信用体系。不仅仅让“守信”的用户能享受到更多优质服务和便利,商家也通过接入芝麻信用,不断降低商业交易中的摩擦和信用成本,降低经营风险,实现获客增收。这次和高德地图的合作,同时也扩大了芝麻信用在本地生活场景的接入,是服务价值和能力的全新外延。就像电商发展初期,买卖双方都信任中间方支付宝,生意就简单多了。现在,芝麻信用助力构建本地生活的“信任基础”,买卖双方的不信任感减弱,衣食住行的小本生意也就盘活了。 或许很快,商家在做推广时,不是只盯着达人的流量,而是更看重“信用为王”。信用分高的顾客成为新的店铺KOL,他们一句真心推荐,胜过千万虚假好评。当“信用探店”成为行业新标准,整个本地生活服务也将回归品质本身。3、信用基建,还能开启哪些可能?从合作信息释出后的大众反馈来说,可以说击中了大家的痛点和需求,对于高德地图的这次选择,不少用户高芝麻信用分用户表现出了十足的欢迎。这也意味着,他们的高信用账户又有了更多使用的场景。在社交平台上,已有用户开始“晒分”:“珍藏多年的802信用分,终于有用武之地啦”“25岁800多分,同龄人最高”。信用分正在成为人们的“个人信用名片”,在虚拟网络世界共同构建安全感。芝麻信用产品负责人萧沐洋表示,未来将进一步加大更多场景的产品开放力度,欢迎更多平台和商家接入,共同为用户带来更真实、可信的服务评价体系。除了餐饮消费、生活服务、公共服务等地场景之外,随着商业信用被市场和大众更广泛的认可,相信它的影响力也日益凸显。以二手市场为例,现在很多3C数码翻新机、高仿商品等问题抑制了交易活跃度,两个高信用用户的交易,则能大大减少货不对板、被调包的风险,让闲置物品流转更加顺畅。高信用还可能真的“当饭吃”,变成人们工作面试时的加分项。也有可能是,保险购买时的优惠券,消费分期时的绿色通道……这些,既是对“言而有信”的人价值的肯定,也是以信用为纽带,推动数字服务生态往更诚信、可靠的方向发展。 -
临近机器人GPT-3时刻,具身智能开源模型的加速演进 (点击收听本期音频) 采访|泓君图文|王梓沁、孙泽平编辑|朱婕作为人工智能和机器人交叉的前沿领域,具身智能是当今科技领域最具潜力和前景的方向之一。其中,机器人/具身大模型扮演着“中枢大脑”的角色,使机器人能够在复杂多变的环境中实现自主学习和持续进化。因此,大模型的研发已成为推动机器人产业——尤其是通用型机器人突破发展的关键环节。9月8日,中国的具身智能公司自变量机器人开源了他们的具身模型WALL-OSS,紧接着的9月9日,美国的具身智能公司Physical Intelligence(简称PI、π)也开源了他们的π₀.₅模型。中美两家公司几乎同时开源了自己的模型,这并非偶然。2025年,具身大模型的开源生态正在进入百花齐放的发展阶段。这一态势让人联想到过去几年里以ChatGPT为代表的语言大模型演进路径:从2018年开源社区初步兴起,到2020年5月ChatGPT-3引发全球瞩目,语言大模型用了三年时间走向成熟。那么,机器人大模型距离属于它的“GPT-3时刻”还有多远?本期《硅谷101》,主播泓君邀请了自变量机器人的CTO王昊,以及Physical Intelligence的研究员柯丽一鸣(Kay Ke),她是π₀、π₀.₅论文作者,一起来聊聊今年机器人模型领域重要的突破、当前还面临着哪些挑战、对比下中美的机器人发展路径有何区别,以及还需要多久才能在全场景落地。 欢迎关注《硅谷101视频号》的音频栏目直接收听本期播客。如 果 你喜欢我们的 节目,更推 荐大家使用 音频客户端来收听,《硅谷101 》已覆盖各大 主流音频 平台(渠道见文末),欢迎订阅!以下是这次对话内容的精选:01行业突破与泛化能力泓君:你们认为整个2025年,机器人的模型领域最重要的突破是什么?柯丽一鸣:我搞机器人大概有七八年了,我觉得机器人大模型的红火,也是在最近两三年才开始集中爆发。我自己刚开始的研究中,没有用到很多大模型这些东西,更多是做一些小而精的任务。当时我就发现:一套东西在一个场景下能解决特定的问题,虽然做出来效果不错,但是很难便宜、便捷地复制到新的问题上去。所以在我探索大模型的途中,最大的一个惊喜发现就是,验证了模型的通用性,这样就可以开始做一些泛化、性能提升上的探索,这时才能开始讨论机器人大模型的可能性。在机器人领域,我觉得现在比起两三年前,对大模型这一种技术路线的信仰要浓厚得多。王昊:今年有一个非常明显的现象,那就是在应用上呈现出了指数效应。这背后的驱动力,其实也是来源于通用机器人基础模型的发展和进步。在2023年以前,我们很多人会专注在单个任务上,把它做到极致;但现在我们有了统一的基础模型之后,就能够同时学习并执行成百上千种不同的任务,其实也就意味着:我们的优化目标变了,重心放在了提升整个模型在所有任务上的平均成功率。这也是指数效应发展的基础,我们现在可以开始去做复杂的长程任务(Long-Horizon Task,包含一系列连续步骤、需要机器人进行多步推理、规划并执行,最终才能完成的复杂任务),这是一个非常令人惊喜的现象。泓君:我总结大家刚刚的关键词,一个是整个机器人模型泛化的探索,还有一个是复杂的长任务。请帮我们举一些例子来说明下,比如有哪些任务机器人以前做不到,到了2025年就能做到了?或者以前机器人只能局限在某个场景的特定任务,现在可以迁移到其他的场景了? 图片来源:Physical Intelligence柯丽一鸣:2024年的时候,PI(Physical Intelligence,美国具身智能公司)发布了π₀,当时就是想要推动泛化能力。其中最有代表性的一个例子就是叠衣服的任务。这个任务其实在机器人界做了十几到二十年,有很多人都在研究。大家一般认为让AI下围棋很难,因为围棋的复杂度很高嘛,每一把棋局都不一样,其实在我们日常生活中,叠衣服这些看上去对人来说很简单的小任务,它具体的复杂度也很高。比如衣服上面可能有两个折、有三个折,或者某个折的角度不一样,对机器人来说可能都是一个新的情况,它需要把这么多不同的情况解决。同时叠衣服有很多不同的步骤,要先叠什么再叠什么,有这样的序列性,这种复杂的细分的情况和序列性,使得叠衣服这个任务在以前是比较难解决的。到了2025年,我们也开始探索了不少泛化的方向,比如说把π₀.₅模型放到一个移动机器人里,再把这个移动机器人放到不同的、没有见过的家里,这些都不在模型的数据集里面,模型可能不知道会怎么反应,然后我们观察它会怎么做。在这个过程中我们发现,要做到泛化性还是比较有希望的,虽然机器人的表现不是很完美,但它好像展现出了一点像人类的特性,比如拿东西,换到别的家场景里还是能拿。 泓君:它拿的是哪一类的东西?在我的理解中,衣服是软的布,但如果拿起一个杯子、一个碗,是不是就不太一样? 柯丽一鸣:是的,其实这一类问题在机器人内部术语就叫抓取问题,因为它要结合物体具体的形状、摆放的位置,甚至你靠近过去的时候的角度来考量。所以抓取问题是既简单又不简单的一个问题,比如你要抓一个水杯,就算是完全一样的水杯,在两个不同环境中,也是一种泛化的体现,需要的策略会不一样。甚至以后我告诉机器人要拿杯子,它不管去了一个新的家、拿了一个完全不一样的杯子,都要能完成,彻底的泛化结果就需要这样层层递进的测试。 图片来源:Physical Intelligence泓君:所以π₀.₅相比π₀,它的进化表现在哪?你刚刚提到了让它去一个新的家,它依然能够适应这种环境,这是一点。但比如说它做的任务是不是有一些局限性的?它的任务的可迁移性如何?哪些任务还不可迁移?它的规律是什么?请跟大家简单地解释一下。 柯丽一鸣:当我们在开始推进π₀.₅的时候,我们强调的点就是泛化,这时会强迫自己去收集一些不同的数据。但这个“不同”的数据的“不同”,其实没有那么好定义,因此我们决定把机器人放到外面不同的房子里去测试。而在这个过程中我们又发现,不知道要收多少个不同的房子的数据才算到头了,我们得一边收集、一边检验,同时心里也会怀疑:今天收集了3个房子的数据,是不是就有帮助了?如果我们收集了30个都没有帮助,是不是就意味着这条路走不通?但还好我们收集到了很多的不同的数据以后,最后训练出来的模型在验证时,确实发现它有比较强的泛化能力。也就是说π₀.₅在一些新的环境中的表现比以前更好了。当然并不是任意新环境都很好,目前还存在一些局限性,但大家还在慢慢地在感受和探索,未来落地时在性能上还有很多提升空间。 泓君:你们觉得机器人模型在研发过程中,泛化问题最难的环节是什么?比如是因为数据量比较小,还是算法的问题? 王昊:难点之一是物理世界中长尾效应的鲁棒性(robustness的音译,指事物可以抵御外部应力和影响并维持原有状态的自身性质),比如因为环境、光照产生了一些视觉误差。虽然可以通过用更好的传感器、更强的算力、更好的生成模型帮你做数据合成、数据增强,来缓解这些长尾效应,但真正的难点就是,现实时间有太多种可能性了,我们没法预测到所有可能的corner case(边角案例)。 图片来源:自变量机器人所以这些情况就没法让机器去提前学习,比如机器人执行任务的时候,桌布上可能有个小的褶皱、杯子可能放置不稳、可能有一个透明物体反光刚好干扰了相机等等情况。人类可以凭直觉和丰富的经验去瞬间适应这些微小的物理变化,但由于算法非常依赖于数据驱动,AI大模型面临这些新的挑战时,不一定能做好。 另一个难点就是在长程任务上,很多微小的物理扰动会造成的各种微小误差,它会像滚雪球一样被放大,尾部的误差到最后,可能就直接导致了任务的失败。所以我们要解决的就是,怎么让模型解决这些没法在数据里包含的各种corner case,这个事的核心是要去构建一个能够理解物理常识、能够有物理直觉的模型基础,让模型能有空间的理解能力、推理能力。所以这个问题的核心就是,我们要把机器人真实的数据、人类的视频数据等等都合在一起,让数据的规模更大、来源更丰富、质量更高、更多样,让机器人从这个学习过程中能够理解物理规律。但是这些和真实世界交互的高保真数据又是目前比较稀缺的,要得到这些数据并不意味着疯狂地在现实世界去采就行了,这件事情远比想象地更复杂,它不止是数据量的问题,还是数据工程、数据管线的问题,比如如何降低我们的数据采集成本。 柯丽一鸣:我也觉得难点挺多的,并不是只有一两个难点。王昊刚才说的长尾问题我觉得是难点之一。而从研究的角度来看,我认为是测试机器人模型的表现如何是很难的。大家经常看到新闻里说,哪家公司开放了新的大语言模型,它在某个榜单上面变成了第一名。而在机器人界,过去数十年来,一直没有办法在真机世界中做出这么一个榜单。没有办法非常客观、公正、可重复地告诉你:在什么情况下,模型A比模型B的表现是要好的。 做这个榜单的难点就是一个模型,它可能在某些地方表现好、其他地方表现不好,你要包含多少种不同的情况呢?如果要有一些corner case的话,那可就无穷无尽了。同时如果你想做一个真机的榜单,还要考虑这些真机维护、细节、对于模型的表现会不会造成影响等等情况。因此到现在,机器人整个业界在发表论文的时候,很多时候都是依靠自己,既作为作者、又作为一个测评官,“我现在开发了一套算法,我们觉得它在这个任务上比之前的一些方法要好一些”。缺乏统一的评价机制使得具身智能领域的发展缓慢了一些,因为你真的很难去分辨模型A、模型B到底哪个好。理想的情况是评分高的模型表现非常明显的好,而真实世界是菜鸡互啄。你说在模型上做了一些数据、算法上的改动,那你怎么验证?据我所知的话,业界里肯定有不少人在探索用模拟器,或者说一个第三方的、像打擂台一样的评测标准,我觉得这也是大家在这个难题上开始进行的一些探索。 图片来源:央视网泓君:之前我看中国有机器人运动会,还有首届的机器人的展会,机器人有表现出很多的能力,比如说踢足球、赛跑,还有做一些具体的任务,怎么样去评判一个机器人,它的技术是好还是不好?从这些Demo上能看出来吗? 王昊:我觉得是比较困难的。这也是我们具身领域大家感到的一个难点和一个痛点。很难有一个统一的评测标准,可以让大家没有那么高成本、且比较公平地去评测模型。最好的评测就是要到现实世界去评测,但是我们又很难搭建一个公平的决斗场,所以这个是比较困难的地方但我觉得还是有些办法可以去评测的。比如说我们有一批开源模型,大家可以在自己的机器人本体上,去看不同的模型在学习相同的任务的时候所需要的数据量,它所展现出来的泛化能力、推理能力,是可以去评测的。那另外对于不同的机器人的公司,那可能合理且公平的是:我们把它的机器人应用到具体的场景里面,去看不同模型的表现怎么样。因为在真实世界运用时,它所展现出来这种多样性、泛化性或者环境是非常随机的,所以它是最能体现你模型能力的。02 数据挑战与硬件瓶颈泓君:刚刚说到难点,Kay提到了第一点,还有两点是什么? 柯丽一鸣:第二个难点刚才王昊也提到了,就是数据的质量和数量,就算在2025年的今天,还是鱼和熊掌不可兼得的事情。如果你想要数据质量非常高,是需要精心地去设计、勤勤恳恳地去清洗的,就比如大语言模型训练,也是对数据的质量很敏感。我们做机器人的数据都是自己收集的,然后再做清洗,每个细节都要到位。而一旦要对细节有追求,追求更高数量就有些难度。所以问题变成了我们是需要又多、又好、又快的数据,才能让我们的模型更好。第三个难点的话,就是真机的维护。做机器人、尤其现在还在奋斗做真机机器人的同行们,一定是对这个行业很热爱的,但真机机器人硬件的维护,我觉得是很劝退的,尤其是很多新人,当我看到他们开始研究机器人的时候,会发现没有一个比较好的、上手就能用的机器人。这可能不像一些纯软件的行业,你可以下载些代码就直接跑机器人,到现在依然没有一个大家都非常认可、都愿意拥抱的一个硬件平台,甚至这个硬件应该长什么样,其实业界到现在也还是在争论、在探索。我觉得这些客观条件使得我们的研究和领域有了一些门槛吧。 开源机器人数据集,图片来源:Open X-Embodiment泓君:对,说到这个让我想起来,我有时候跟机器人的研究员们一起聚会,大家问白天在干嘛,那就是一天啥都没干,专门在修手,因为手不太稳定。 柯丽一鸣:是的,我刚开始读博的时候不是搞机器人,是搞理论机器学习的。当时还很年轻,就觉得:哎呀,整个机器人的项目怎么会用这么长时间呢?等我自己做的时候就发现,天天都在拧螺丝。 泓君:我觉得数据确实是挺重要的一块的,我也知道王昊你们自变量机器人的模型,是有数万小时的多模态数据积累的。Kay你刚刚提到了π的模型,你说需要采集这种高质量的数据,然后要自己去收集、自己去做数据的清洗。 柯丽一鸣:稍微纠正一下,我觉得不光是π的模型想要大量高质量的数据,这可能是行业的共识,因为大语言模型的成功, 所以大家对数据的质量是比较敏感的。 泓君:你们的数据是你们自己采集的,还是第三方公司做的?柯丽一鸣:我们有很多自己采集的数据。 泓君:行业里面会有一些专门的第三方公司去提供数据吗? 柯丽一鸣:我倒是认识一些朋友,他们自己创业就是为机器人提供一些真机数据,但是这不是我们现阶段研究的重点。 泓君:你觉得多少的数据可以构成一个优秀的大模型。 柯丽一鸣:在这点上我有个暴论,也很好奇大家怎么看。我之前就经常和朋友聊天说,一个人的一生假设是100年的话,那我们很粗略地算就是100万个小时,现在我在公开信息里,好像没有看到有人做100万小时的数据集。 所以我会觉得,什么时候我们能够收到100万小时,等同于一个人一生的物理经验的数据,可能才能开始后面的探索。之后如果真的能把机器人广泛地部署在真实世界中的话,那也许收100万小时的数据,也就是几天的时间。这也是来自于和一些做语言、图像、音频生成的朋友的吐槽,因为他们动手就很豪气的:我今天要做这个任务,给我来400万小时的数据,明天就要收集,后天就要清洗,我就说,咱做了多少年机器人,好像都没这个400万这个量呢。 图片来源:Physical Intelligence泓君:为什么你的判断是100万小时?以前我们在说,人成为一个领域的顶级的学者专家,有个1万小时定律。包括我观察我家宝宝学吃饭的过程也是,她在非常小的时候,拿着勺子把饭喂到嘴边都是喂不准的,但她每天练习这个事情就慢慢学会了。但为什么机器人要训练出这样的灵活度,就需要比人大得多的数据量? 柯丽一鸣:我有一些很粗糙的想法,我们PI自己在做研究的时候,有个重心叫做跨本体迁移,就是希望在不同形状、不同类别的机器人上收集的数据,能适用到别的机器人上,让它更快地学会一个任务。人类能做到这点可能和基因、躯体有一些关系,毕竟人类有一个非常好用的感知器,就是眼睛,现在也没有哪个相机敢对标人眼,还有我们的关节,这些物理的、天生的东西,我觉得是人行动力的基石。我个人比较相信,可以用一些算法上的优势,去盖过硬件上的不足。但罗马不是一天建成的,咱也不能指望机器人马上就能像宝宝一样学得这么快。机器人如果要快速学习新任务的话,它之前还是得有非常多的积累。刚才王昊也提到、并且我在PI也看到的一点就是:某个机器人上收的一些任务数据,是可以帮助其他任务做得更好的,让新的任务也许就不用那么多数据。 王昊:其实和人比的话,我觉得对机器人来讲还是太不公平,核心就是因为人其实有“预训练”的。整个生物界在大规模的进化过程中,有两个非常核心的点:一是在进化过程中,人积累了很多先前验证的东西,比如跟世界交互的认知,关于物理世界的应对的策略,这些其实都写到了基因里;另一方面,人其实在不停地进化自己的硬件,整个生物界都是这样,大家能不用“智能”解决的东西,就尽量用“硬件”解决,所以很多生物体都会进化出一些结构,比如说大肠杆菌,它就不用长眼睛,只要对有化学、温度敏感的一些感知,就可以去适应周围的环境。我们现在正在做事,就是帮助机器人做它的预训练模型,虽然看起来要覆盖人类进化的几亿年的时间,但其实也不太一样。第一是因为机器人是可以进行大规模复制的,不同机器人之间可以共享它们的经验,我们就可以快速构建机器人的预训练模型,让它能够具备对物理世界的感知、理解能力。当然这个过程也是让机器人越来越熟悉自己的身体,就像刚才Kay说的“跨本体泛化”,我们就是让不同的机器人(模型),适应不同的身体,并且让它能够互相感知到身体的不一样,这个很重要。其次在人的学习里面,所谓1万小时理论还是有很多不一样。人并不是一定时间内专门去学这一个任务,学完了再学下一个新任务。你开始教宝宝去做某件事情的时候,比如说拿一个东西,他可能精确度也不够、抓不准,所以就把这个东西扔到一边就不管了,去玩别的玩玩具、搭积木什么的,而过一个月之后你会发现,拿东西这个任务他在并没有花多少时间学习,但是他已经会了,这也体现了人在后天和环境交互过程中学习,其实也是一个多任务并行的学习。它可以从不同任务中学习到这种底层的、共同的物理结构,这种共同物理结构就会帮助它学习新任务时,减少它所需的数据量。所以现在我们训练机器人时也是这么做的,我们用尽可能多样的数据、覆盖各种能力的任务,去构建这个大的数据体系、构建机器人能力,它也许在学习新的任务的时候,需要的数据量就会大大减少。所以刚才说机器人需要百万小时数据,核心就是解决两个问题,第一是覆盖过去人类长时间进化这个预训练的过程,我们需要通过多样的数据,去帮助机器人构建这种基础能力。第二就是在学习新任务的时候,我们也要利用它在旧任务学习中,形成的这种通用能力,让他能够泛化到新能力上。所以在数据上、时间长度上不能完全类比人类,但我觉得这个学习历程和背后所反映的规律可能是一致的。 图片来源:自变量机器人-已开源的具身智能基础模型WALL-OSS泓君:我很好奇大家在真实世界里面采集到的数据量有多大?训练一个具身模型时,数据会占多少成本?或者说数据有多贵? 柯丽一鸣:在π₀的时候,我们做了一个比较简单的统计:π₀使用的数据,比谷歌研究院收集的所有数据加还要多,即使π₀发表的时候,PI还是一个很年轻的初创企业。我觉得其实这是说明了两件事:第一就是那个时间点采集的数据量确实是非常大,而且之后一直有往里面增加数据,而数据的成本、数据的量是在实时变化的。在谷歌研究院在开始探索的时候,要花很大的功夫才收到这些数据,但后来渐渐的有了经验,PI或者其他公司再收就会越来越简单,成本应该也是能够得到控制和降低的。 泓君:那你们现在合成数据用的多吗?我知道业界很多都会用合成的数据,前几周谷歌发布了Genie 3世界模型,我听到了两派不同的观点:有一派认为的Genie 3对机器人有非常大的帮助,因为这种世界模型的数据是有用的,但是另一派就会觉得这个数据质量还是不够好。 图片来源:Google柯丽一鸣:我觉得可以分成两个问题,一个是我们之前做了什么,另一个是对整个领域来说什么东西很有用。π₀.₅应该有一篇后续的论文,探讨了我们对π₀.₅训练中的一些考量,其中有提到过,我们在π₀.₅的时候,引入了一些网络数据,我不知道严格意义上这算不算合成数据,但确实是希望通过引入一些外界各种各样的知识,去给它一种通用和通感,而不是直接告诉机器人应该什么动作。而合成数据对于领域有什么作用,我觉得没有一个很清晰的定论。现在有些人觉得,如果能够大批次的生成成本低廉、有可控性、而且对机器人有用的的数据,那会是很好的,但现在比较大的困难就是怎么弄出这些数据、怎么样证明它有用,这还是比较前沿的研究问题。 王昊:现在头部的机器人公司的数据量,因为有真实物理世界限制,大家可能都集中在几万到几十万这个范围内。但这个和训练像GPT-4这样级别的语言模型去比,数据量还是少很多。我们除了用最重要的现实世界真实数据、机器人上的数据,其实也会用一些其他方面的数据,但是每一类型的数据肯定都是有自己的问题的。 机器人的真实的数据是比较贵的,受限于机器人的硬件场地、操作员的收集速度等等因素,所以大家有了很多改进方法,不仅可以依靠真实机器人本体,也可以做一些低成本的本体,甚至不用做完整的本体,只有一些穿戴式的传感器设备,都是可以去采集的。其实我们也用了很多生成模型去做合成数据,但合成数据主要是缓解一些视觉和现实的分布差异问题,它很难去生成带有物理交互过程的数据,这种数据还是得来于现实世界的采集。 还有一类数据,就是人类的视频数据。这个规模非常非常大,多样性也很多,成本相对来讲也比较低,我们也帮很多公司在做这方面的探索。但要靠这些数据帮机器人做动作级的生成还是很困难的,现在具身模型从视频数据里学到的,还是在动作意图上,我们从人类的视频里,让模型学到了一些高级的语义理解、一些任务规划。但是这种规划是通过视频,而不是语言的方式机器去学习的。包括像Genie 3,我觉得它是非常好的一个工作方式,它就是从互联网、从游戏环境里面得到了大量高质量的数据,所以通过视频生成的方式,可以做一些动作控制,是未来是一个很好的方向。虽然这个环境相比于现实有些简化,但它仍然可以作为训练的环境,去帮你去做这种交互。 所以在数据上我们还有工作要做,我想每家公司在数据的投入占比可能都不太一样,这也取于整个公司的综合的实力,比如运营能力、硬件的水平,对数据的使用规划不一样,会让你的数据成本也不一样。中国和美国相比,可能硬件成本、人力成本是比较大的差异。就算在同一个地区,运营能力、数据过滤、清洗、任务生成分发、不同的场景里面的数据采集能力、场景的快速搭建以及恢复的能力,这都会影响数据成本。 泓君:所以你们公司的数据成本类比于其他机器人公司,大概是在什么水平? 王昊:这个很难在不同公司之间进行比较,因为大家对数据质量、多样性的要求可能不一样。但是对于我们公司来讲,数据肯定是在整个研发成本里占相当大的比例了。 图片来源:自变量机器人泓君:在今年的9月8日,你们WALL-OSS的开源模型是正好上线了,请你给大家简单地介绍一下,你们的这个开源模型是什么?以及它的行业特点是什么? 王昊:我们是持续地发扬开源精神,也吸收了很多经验,所以是用了大概几万小时的真实世界的数据,训练了一个具身的基础模型。我们是在一个统一的框架下面,让它可以既可以去做思维链、也可以做动作的生成。我们基于已经训练好的基础的视觉语言模型去做扩展,让它具备比较强的视觉理解、空间推理、多语言的指令遵循能力,同时它的动作的生成精度也比较高。这是我们观察到的,目前具身的开源模型上还比较欠缺的一些能力,我们也希望这次开源能够对具身智能行业有比较好的补充,让大家可以更好地用我们的基础模型,去做一些长程任务、解决一些复杂任务。要解决这些长程任务,就需要更好的语言遵循、更好的空间以及因果的推理,也希望我们这种端到端的推理、规划加动作的执行模型,可以发挥作用,被社区用起来。 泓君:所以你们模型主打的点是什么?我觉得行业里面做模型玩家们,方向都还挺不一样的,比如有些是专注在精细的操作上的,像谷歌就很擅长于折纸的这些动作,像PI是希望有更强的泛化能力。如果用一句话去总结你们的优势,你觉得你们在机器人领域最关注的点是什么? 王昊:我们最关注的点是机器人的泛化和它的长程任务的解决能力。解决长程任务就意味着,它一定得有比较强的泛化能力,因为解决任何一个长序列的任务,它背后面临的都是变化的场景,这个任务可能遇到各种失败情况、各种没见过的操作对象,所以都需要它有很强的泛化。 泓君:比如那些长而复杂的问题,请大家举一个例子。 图片来源:自变量机器人-已开源的具身智能基础模型WALL-OSS王昊:其实我们在现实中把机器人用到任何一个场景,都是长而复杂的。比如我要完整地把一个餐桌收拾好,它就是一个长而复杂的任务,因为你要操作对象的种类很多:你可能有硬的东西的操作,比如说餐具;也有一些液体需要去操作,比如把食物残渣、流体倒到固定的地方;你还可能有很多不规则物体的处理,比如说垃圾、残留物;有很多柔性的东西需要去处理,比如说擦桌子,折叠毛巾等等;可能需要把不同的东西放在不同的位置、还要比较小心地去处理可能洒出来或者其他的情况。所以在收拾餐桌这个任务中,它执行起来并没有固定的顺序,说先做什么、后做什么,都是在一个长程任务里面,把各种子任务给穿插起来。人其实很难划分每个任务的边界是什么,这种任务就得靠模型端到端自主去决策、实时去规划,把整个任务完全做完的。 泓君:那在你们实验室里面,评测机器人任务做得如何时,实际训练是什么样的场景? 王昊:我们实际训练虽然也包含了其他的一些场景,但还是以家庭的场景为主,因为家庭场景其实基本上已经包含了具身智能需要解决的所有任务。像收拾整个餐桌、布置餐具、收拾整个卫生间、收拾房间,这些都是我们的训练任务,我们也实实在在地看到,机器人在处理这些长序列的闭环任务时,体现出来了操作能力、泛化能力的进步,这点确实让我们的信心大增。我们也希望能借助自变量的开源模型,让大家看到现在的基础模型,在解决长程任务这种泛化场景的时候所体现出来的能力。03 模型架构与技术路径 泓君我注意到不管是PI还是自变量,都是在做开源模型,为什么大家想做开源?开源对整个生态的好处是什么? 柯丽一鸣我觉得能和业界、社区分享一下模型,并且能够帮助到大家很快地上手,可能也是在变相地降低机器人模型研究的一个入门门槛吧。其实在公司内部,开源也是一种(研发的)过程,就是从决定要开源,然后抽调大家把刚刚发表的研究去重构代码,然后做测试,再和社区的一些开发者沟通看能不能跑得起来。这是一项不简单的工作,但是真的看到我们的模型,在一些我们自己都没想到的机器人上面跑起来了、别人能用我们的模型做很多不同的实验,还是很开心的,现在大家都很乐意去开源,我觉得是很好的氛围。 图片来源:X.com泓君:我看得出来你很热爱机器人。 王昊:我一直都觉得开源是非常重要的事情,开源意味着我们可以站在巨人的肩膀上继续前进。我们可以基于已有成果做更多的改进,社区开发者的反馈也会帮助到开源的公司,开源公司可以从中吸取到经验,然后把这个技术路线思考得更加深入。一般的高校、或者一些小型的企业,他们可能没有能力去做基础模型,但是如果能够使用这些基础开源模型,他们就可以去做应用,把它用到各个方向,丰富整个生态,这也是一个非常重要的事情。AI 的研究我觉得跟大模型之前有很大不一样。过去,我们可以看到AI和大模型的研究是非常离散的,在真正形成一个社区之前,可能做研究的只有两、三个人,大家疯狂地研究一个算法,更多是以论文发表作为第一要务,目的是占据技术的主动权。但有了社区和整个开源体系之后,大家更在乎的是,怎么在一个工程化的体系下,把这个工程基础打好,让这个社区更加繁荣?个人是通过什么方式给社区做贡献?大家的荣誉反而来自于这样的事情。这样也就会促使开源模型的技术不停地发展。所以我觉得开源是一个非常好的事情,既可以从中学习到新的东西,也可以看到你的东西可能对别人帮助。泓君:大家觉得现在模型公司在判断一个模型好坏的核心因素是什么?现在大家不仅在拼各自采集的数据质量,同时在模型层可能有非常多不一样的技术路径,比如说是不是用高频控制的方式,是不是用 system 2+system 1的两个system的架构?大家可以聊一下模型层上不同的技术路径,以及你们看好的方式? 图片来源:自变量机器人-开源具身智能基础模型WALL-OSS王昊:从自变量机器人公司的角度来讲,我们是非常相信,数据驱动的端到端的模型搭建的方式的,我们开源了WALL-OSS模型,也是基于这样架构去构建的。不管有多少模态、不管你是语言、视觉还是动作,它们都应该在同一个空间下被表征、被对齐,分层对它们来讲就是一个非常不利的因素,所以我们应该尽可能避免人类的分层带来信息的损失。但是从另外一方面来讲,你都端到端训练了,那模型可以做得很大,可以做到几百亿、千亿的矩阵模型,那真正要去使用的时候怎么办?不可能在端侧需要非常高频控制去部署这么大模型,所以在推理的时候,我们反倒觉得模型是可以分开的,可以把更慢的任务过程可以放在云端去处理,更快的任务过程放在物理端侧,再由梯度回传更新整个系统参数,这个过程是非常非常重要的。泓君:我们说其实两层架构的模型,它有一点点类似于人脑的大脑跟小脑,比如说有一层负责理解与规划,还有一层就是负责高频输出的控制,就像大脑去掌管认知跟决策,小脑去掌管运动控制。为什么你们不用这样的一个架构?王昊:我们是一种端到端的训练,很难在模型内部把某些参数完全分成system 2,比如把某些系统分成快系统、直觉系统等,但是我们可以训出一个非常大的端到端模型,它可以具备非常强的具身通用能力,让具身的通用能力既包含理解推理,也包含动作生成。但你实际在部署的时候可以有很多方式,比如把擅长动作部分给蒸馏压缩出来,然后擅长语言推理、视觉推理的部分给它放在云端等等。利用类似的方式部署,在推理过程中做很多优化,但训练的时候它还是一个统一架构。泓君:就是推理跟控制在训练的时候是在一起的。那Kay你们是怎么做的? 图片来源:Physical Intelligence柯丽一鸣:我们现在还是非常开放的一种态度,我们觉得现在机器人大模型还没有达到像GPT-2的时刻,我们希望能够尽快地达到这个地步,但是现有的模型和表现还是有一些差距。数据和数据驱动的算法是我们最看重的东西,但是具体怎么样去设计这个算法?模型的架构如何搭建?甚至硬件系统怎么设计?数据怎么收集的?我觉得一切工作还是为了数据驱动在服务。泓君:所以它到底是把推理跟控制分开做成两个,还是说端到端的解决是完全放在一起?你觉得这个其实反而不是现在最重要的问题,可能这几种路径都可以,我感觉现在整个机器人模型领域大家的技术路径看起来也是没有统一的。柯丽一鸣:我觉得这句话非常有意思,我最近在和一个学弟吃饭的时候还在聊,因为大概从三、四年前开始,我们能感知到整个行业是有变化的,之前学术界会更加的散一些,大家的方向、想法、算法还有关注的问题都非常的不一样,而现在自从 VLA 就视觉语言动作模型出世以后,变得流行起来,而且很多人跟进,反而让我觉得现在越来越多的方面开始趋同化了。泓君:你觉得趋同化表现在哪方面?从哪些各种各样不同的方向变成了同一个方向?这个同指的是什么?柯丽一鸣:其中之一是模仿学习。我是2018年开始做模仿学习的,那个时候行业研究不多,也没有很多真机的研究可以 follow ,在当时会觉得这是一个不那么主流或者大众的一个想法,2018年当时是已经看到了波士顿这个跳,毕竟人形机器人跳即使到现在直接用模仿学习,可能也是一个比较难的挑战。业内的很多人开玩笑的时候就会说, 60 年代咱机器人就把人类送上月球了,机器人就朝着火星去了,这是成功的机器人的方法,它就直接变成火箭学科了,只有我们这些机器人研究者还没搞明白它怎么做成功的,还在这里搞机器人,虽然是玩笑,但也说明这个行业内,有一波又一波的接力探索,就包括 2000 年左右自动驾驶的探索,还有后面这些人形机器人,波士顿动力为首的这些力量。2000 年初,其实还有一个Willow Garage,也是在美国机器人学术界里面比较有名、当时很红火的一家创业公司,当时他们就主推了一个叫PR 2 的机器人,也算是移动、但不是人形机器人的一个老祖宗。所以从之前那个时代看的话,我会觉得大家的研究方向都不一样,有的人做车、有的人做手,这些都是散布在机器人行业里各处的,而现在确实因为大模型的红火,模型的通用性被强调,很多人开始想说能不能把这些东西糅合在一起,这算是一个非常有意思的趋同化的发展吧。 Willow Garage,图片来源:Business Insider泓君:我看到现在业界,从创业方向看的话,大家又有很多的不一样,比如说有足式机器人,下面是一个人形机器人自己走路的;还有轮式机器人,它可能就注重于手部的操作,走路的部分它用轮子滚就可以了。很多公司也在想,我能不能有一个上半身跟下半身都能同时操作的机器人?因为很多机器人它可能要么上半身,要么下半身,但整体上大家可能都想把模型做得更大、功能做得更通用。柯丽一鸣:我觉得“同”说的是,很多原来做在不同形态机型上的人,会用不同方法,现在大家都非常的开放,会说我们要不要试一试视觉语言的这种大模型,你说的这种上半身、下半身的形态,其实 π₀.₅做的就是这个事。泓君:Kay觉得现在整个机器人模型连GPT-2它的水平都不够,王昊你怎么看?王昊:我认为到GPT-2的水平了。用这个类比的话,GPT-1基本上是一个概念验证,通过预训练加数据的方式,可以处理一些任务。但到GPT-2的时候,我们开始验证它规模化的力量,通过大幅的增加模型参数和训练数据,就可以展示出规模化带来的能力提升。可能我们规模再做得更大,就能到GPT-3的水平了,大家就能看到很多能力的涌现了,所以我会觉得现在就是在GPT-2的这个阶段。我们现在基本上已经知道:规模化是唯一的可靠路径了,所以我们要在这个阶段,疯狂地积累数据,提升模型规模,同时搭建支持具身智能的各种基础设施,所以说人形机器人目前是已经处于GPT-2的阶段是比较客观的。 图片来源:自变量机器人-已开源的具身智能基础模型WALL-OSS泓君:那你觉得机器人领域到定义的GPT-3时刻,大概还有多长的一段路要走?王昊:现在在谈我们在机器人领域的GPT-2到GPT-3 ,从语言模型来讲,是有一个不一样的地方。当年在做语言模型时候,大家不知道这条路线是否真的可以走通,中间产生了很多分散式的探索又汇聚的过程。现在我们是明确的知道、而且看到了这种规模化带来的提升,所以对于我们来讲,路径和目标更加明确、更加唯一,所以我预测会在1~2年的时间,我们完全可以达到GPT-3的这个水平。泓君:要1~2年的时间还挺快的。我注意到在美国,我们聊起机器人的话,大家都是想做这种通用机器人,然后再朝一个超大规模的模型做,如果类比于自动驾驶的话,就是美国上来就想做的是L4、L5级的自动驾驶。但是我们看到中国的发展方向,我感觉还是有很多的小而精的创业路线,就好比中国企业在做自动驾驶的时候,首先想到的是能不能在一个园区、一个码头,把这个场景先落地了,做一个非常垂直的小而精的产业。二位怎么看机器人的这两种方式,以及在产业的发展上,最终结果会有什么不一样?哪条路径能跑出来?王昊:我觉得这个得结合中美各自的优势来看这个问题。确实美国的现在路径就是自上而下的不计成本的,他们会优先做一个接近于AGI的超大模型,有这个基础之后,再去想应该怎么去做。这也是因为美国在算力上的优势,最顶级的芯片、最大量的算力集群都在美国,所以路径更加倾向于用无限的算力,去探索能力的边界。但中国其实芯片上确实有一定的限制,所以这也倒逼了中国的企业,研究思考在有限的算力下如何实现更高的效率,但说中国企业现在在走小而精的技术路线,我倒不是很同意这一点。中国其实是拥有全球最大的互联网生态移动应用场景,这个场景优势以及中国在硬件领域拥有非常完善的产业链,这个是美国其实没法比的。其实国内有很多顶尖的研究机构和非常好的创业公司,都是非常深刻地去从第一性原理的角度去思考,非常深刻地去理解Scaling law这件事情,它其实是通往AGI的必经之路。我们坚信必须得有一个强大的、无所不能的基础模型,才有可能把这基础模型用到各种垂直领域,让它得到更加高效的部署,但这个过程不能反过来,必须得有大而通用的基础,才会有小而精的发展。在实现的路径上,其实国内更像是上下结合,双轨并行,一方面尽可能多的去考虑场景,尤其是考虑这种通用泛化的场景可能带给我们什么,同时又去迭代我们自己的通用基础模型的能力,才能更快地让机器人在现实世界获得更好的反馈,帮助大家实现商业闭环以及开始形成数据飞轮。 图片来源:自变量机器人泓君:所以你个人也是想做通用的模型的?王昊:对,我们一定会去做通用的模型,这个是很重要的。柯丽一鸣:我觉得现在两边各自的生态环境有很多的历史因素。一方面国内经济高速发展,经验足够,很多创业的成功,都是因为公司活下来了、公司商业化能够做好,就促使了国内创业的人会从解决问题、解决用户的需求来出发,因此会有很多人去深耕垂直领域。之前我还在网上看到什么中国的除草机器人“暴杀”这个欧美家庭,看到它以后,我觉得我都要给我朋友去安利,我觉得中国企业是很擅长做这样一个商业化的一个事情。同时,中国制造业摆在那里,机器人确实是有很大的硬件需求,在国内针对商业需求做硬件这个优势,现阶段来看,就没有谁能够比得过国内。因此国内现在的生态里,很多人的创业都是一边保证着商业的成功,一边做一些其他探索。之前我说自己毕业的这一年比较幸运,因为如果早两年毕业(可能我就做不下去了),当时有很多(早毕业的)朋友,他们机器人研究做得很优秀,可是都转行了,都转去做大语言模型、做强化学习。做机器人能让你锻炼到技术,但并不是做机器人本身,与其说美国很多公司一直都在做大而通用的模型,而不如说是这个时代恰巧让我们在2024年前后,涌现了一批相信这个道路的人。这个恰巧的因素也是归功于OpenAI把大语言模型这件事做通了,给整个行业的一个反思和震撼。直到现在,我在加入PI的时候,和他们聊天讨论要不要去做,我就在问:你们做人型机器人行吗?你们要做人型的话是不是要烧很多钱?道路怎么走?商业化怎么走?这公司怎么活下来呀?从商业化的角度上来说,其实并不是那么明朗的一件事情,所以我才会感叹这些公司真的是凤毛麟角,能够有这么一个时机成立,能够有人去相信他也许能把事情做成。而在这样的公司出现之前,其实美国的工业界是有很多机器学习的应用公司的,其中可能比较有名,也和我们公司渊源颇长的一个公司,就是Covariant Robotics,这个是伯克利的一位非常有名的教授所创立的,这些个人的创业的经历启发到了后面的人。因为在外界看来, Covariant就是因为深耕了一个商业的点,所以它商业做成了,但是它通用就没有做得那么好。我们公司最大的目标是想要做通用、想要做数据驱动,所以我们是很小心地避免做一些短期的商业项目,有这么一个历史因素,导致了现在的公司生态是这样。 图片来源:Covariant Robotics泓君:我理解Covariant其实更多的是做灵巧手,而不是在研究模型。柯丽一鸣:这件事情有点好笑,因为他们公司刚刚起步的时候,创始人Peter Abbeel作为机器学习机器人的一个领军人物,也表达过他们想把机器学习的机器人做到现实生活里,做到通用,当然可能是因为他们在物流上面做的太成功了,大家就记得他们的另一种模样了。泓君:所以他们内部也是在研究通用的解决方案跟模型层的解决方案?柯丽一鸣:我相信他们在早期的时候应该是有这种探索的,因为当年他们开始做的时候,确实没有人知道机器学习、机器人的应用能做成什么样的,所以他们肯定是做了一些探索的,现在的很多企业和研究者就是受到他们的经验的启发,选择走了现在的路。04 商业化与落地前景泓君:我看大家在研究机器人的时候,都希望机器人能够帮大家做一些家务,比如说叠床单、叠衣服,把碗塞进洗碗机,大家觉得未来真的能有个这样的家用机器人帮我们做家务吗?你们觉得还需要多久才能拥有这样的通用型机器人?王昊:做家务看似简单,但我觉得可以作为一个完美的机器人的图灵测试了。因为这个过程包含了具身智能机器人领域所有的精细动作,比如切菜,要有精细的力道控制;一些易碎东西处理时,要有非常丰富的感知;也有一些长程规划,比如得看菜谱去做菜、看说明书去使用某个电器、以及各种意外情况的处理等等,基本上已经包含了机器人的所有挑战。要完全实现到这个程度,还是得分步走。我觉得在两、三年以内,我们可以在半结构化的环境里面,让机器人做一些简单的事,比如仅限于厨房内,帮你做一些简单的菜、洗碗等等,这些我觉得还行,但说如果要在完全开放的厨房里面、所有的事情能做到,我觉得还需要五年左右的时间。 图片来源:自变量机器人泓君:五年左右,实现机器人在厨房里面做饭、洗碗?王昊:对,我觉得是有可能去实现的。但那时还是有很多情况需要大家容忍,比如虽然机器人在各种任务上的成功率都比较高了,但也并不是100%,还是存在失误的可能,所以如果我们允许机器人可以和人协作、获得人类的帮助,我觉得5年是可以进入到家庭里面的。我现在是比较乐观的,因为我觉得机器人领域的发展走在正确的道路上,有了Scaling law这样快速发展的规律,这在整个人类的历史演进中,我都觉得很幸运的事情,因为有一条看起来很明确路径,可以告诉我们怎么做:你只要投入算力和数据、迭代模型的架构、提升机器的能力,那就能肉眼可见地看到机器人的提升。所以虽然现在有很多问题,让我们觉得很困难,但放在5年后再去看,都是可以被解决的,而且模型一定可以跨越到一个阈值、进入到新的阶段,所以我预测5年这个时间是非常合理的。另外关于5年这个时间点,其实也需要审慎一点,因为机器人不像纯软件那样可以轻资产快速迭代,机器人还是受限于物理世界的物理定律,硬件得发展,还要全方位突破数据、算法、供应链、商业模式等等因素,才有可能真正做到那个地步。泓君:我觉得是一个蛮大胆的预测。柯丽一鸣:我觉得5~10年落地应该是可以的。现在的模型能力和算法显然还没有达到“我们只要商业化它就能做出产品”的这个地步,但行业的迭代速度确实非常快,再加上大家有这么多的热情和投入,我相信在两、三年里,甚至可能每一年,都会有新的很大的变化。另外,我们具身智能行业其实和自动驾驶、甚至火箭升天这些传统的机器人行业有些不一样的地方。我们可能更像扫地机器人,就是最早的扫地机器人其实不完美,需要用户明白它能做什么、不能做什么,这就是一个比较好的商业化典范。以这个为目标的话,我保守估计是需要5~10年做出这样的产品,它可能偶尔会出错,但是它犯的错是在用户的范围里的,这样也能成为一个可以帮到用户的产品。我有个问题很好奇,有的机器人公司是以“产业化”为目标的,想要做一些商业化应用的东西,这些公司该如何兼顾商业化与研发? 图片来源:自变量机器人王昊:我觉得这个问题挺好的。因为作为创业公司,从第一天我们就在思考,怎么做既能仰望星空,也能脚踏实地?由于现实的因素,不可能达到AGI再去思考商业化,我们现在的策略就是,尽可能在我们通用模型的基础上,让它进入一些场景里做一些事情,这个场景必须和最终想实现的通用场景是比较接近的、它是可以去泛化的,所以我们尽可能的不去碰那些比较封闭的场景。像一些公共服务、养老服务的场景就非常好,这样场景和通用机器人的最终应用场景有一些类似的地方,能涉及一些复杂的任务,比如和人的接触,也涉及到没有那么复杂的,比如只是打扫卫生、拿东西、处理食材等等。从这个角度来看,这些就是好的场景,因为和最终的目标接近,你可以在这些场景里,不断地迭代、检验通用模型的能力,也可以获得非常宝贵的数据反馈。但要保持这个选择初心,很重要的一点是:得有很强的商业化路径的定力。另外一个比较重要的点,是公司的组织能力。因为一个公司的组织能力、组织结构,决定了这个公司的上限,我觉得公司一定要以通用模型、以基础模型作为目标,达到一个完全没有壁垒、高效协同的一个组织,才可能促使你在中间迈出的每一步都不会走错,最终能使你达到终极目标。泓君:所以你是比较注重训练的场景是否能有商业化应用的,而不是一个在封闭化场景里面就能实现的一个需求。刚刚说的家用机器人帮我们做饭、洗衣、叠被子,这样的使用场景能不能让机器人有足够销量,去养活一个机器人公司?王昊:我觉得是很有希望的。因为现在整个机器人的产业的规模还没有起来,所以等规模起来后,硬件成本还有非常大的降低空间。随着模型水平的提升、加上硬件成本降低,几年后的价格,会让用户的接受度更高。其次从这个功能角度来讲,如果我们可以帮普通用户去做很多事,大家会非常乐意接受这样的产品。现在大家难以接受机器人,是因为机器人似乎只能跳跳舞、做一些情绪价值的陪伴,好像没有其他功能,以前机器人没机会向普通用户展示各种应用,但未来我觉得是有很多展示机会的,这个想象的空间是很大的。【音频收听渠道】公众号:硅谷101收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客|哔哩哔哩海外用户:Apple Podcast|Spotify|TuneIn|Amazon Music联系我们:podcast@sv101.net -
美团AI助手初体验:它或许能让你“戒掉”所有App 还记得曾经那个一发布就被各路自媒体吹捧、形容成“炸裂”、“炸醒AI圈”的Manus吗?彼时,Manus被“吹”的像AGI时代到来一样,人们能过依靠AI解决一切问题。如今,Mauns并没有“炸”起来,但是三言却发现一款比较接近“全能”的AI产品。它就是美团不久前刚在安卓端内测的AI生活小助手“小美App”。它也是近期笔者体验过最“智能”的AI产品之一。更贴近大众日常生活的AI应用 目前,“小美”在iOS App Store已经上架,但才刚登陆安卓各应用市场不久。 据官方介绍,“小美”是一款AI生活小秘书,具备“主动思考、深度个性化、帮你办事”三大能力,可以帮助用户安排日常、发现好去处、制定旅行计划等。目前,“小美”正以邀请码形式进行小范围内测,笔者也在第一时间进行了体验。整体体验的感受是,目前很多AI大模型以及智能体等产品,虽然也具备相同能力,但这些AI产品往往只针对特定专业、工作的人群有“革命性”体验。而在笔者看来,“小美”算得上是一款足够惠及更多群体的AI产品,基本上只要有一部智能手机就能体验。并且不像部分“AI智能体”产品,响应速度缓慢,往往需要十几甚至几十分钟才能给出方案;“小美”的任务处理耗时极短,体验感很流畅。美团能做的几乎都能做暂时不支持预订机票和高铁票 笔者有幸拿到邀请码后,第一时间下载注册了“小美”。 首先还是要吐槽一下“小美”Logo设计,是一个亮绿色的姑娘形象,这种颜色多少有些晃眼,希望后期能够更改。 初次使用时,需要告诉“小美”自己昵称,以后的沟通交流中“小美”会按照用户指定昵称称呼用户。 然后就进入主界面了。可以看到,主界面非常简单,就是一个聊天框,底部是语音输入或者文字输入入口,类似微信聊天页面。左侧菜单栏也只是历史对话栏目,除此之外并没有更多其他功能。但最重要的是,目前“小美”没有广告植入。那么,“小美”能干嘛呢? 根据“小美”自己的说法,它能够在餐饮、购物、出行住宿、生活助手等方面处理用户需求。笔者最开始理解为,美团所有能做的业务,“小美”都能做,例如外卖、酒店、公园景点门票预约购买等。 “小美”自己的回答也符合笔者猜测。 先从点外卖开始,笔者给“小美”一个模糊的“我很饿,推荐吃的”提示词,“小美”会要求笔者授权查看美团外卖的消费喜好,同意后“小美”根据我所在位置、以及餐厅营业时间等维度推荐了牛肉面、扬州炒饭以及麻辣烫。有趣的是,“小美”给的推荐并非仅仅是餐厅,而是具体到了每个餐厅中的一道菜。显然是默认笔者只有一个人,也吃不了很多。 笔者接着告诉“小美”想吃上述三道菜其中之一的烧烤店,“小美”则直接在对话框中弹出该餐厅的外卖界面,并且已经主动帮助笔者点了几道菜。在外卖界面中,笔者可以选择继续加菜,也可以选择接受“小美”的“品味”;之后填好送货地址告诉“小美”下单后,则直接弹出支付界面,付完款后完成叫外卖。不过“外卖”也不局限于餐饮,还可以要求“小美”买花、买生活用品等。逻辑也是一样,它会根据用户喜好、位置,再调用大众点评等产品提供推荐。订酒店也是类似,笔者要求“小美”帮忙订酒店。 在提示词很模糊情况下,“小美”按照笔者所处位置推荐了几家酒店。在笔者选好酒店后,“小美”也进一步咨询了笔者的入住时间、离店时间,进一步提供了酒店的房型等信息。 最终,类似用“小美”点外卖,酒店订单也是直接在“小美”App中弹出,笔者需要填写好姓名、身份证等信息后直接支付即可。笔者也进行了一些复杂提示词测试,比如旅行计划。笔者要求“小美”:“我将于9月20日到23日去广州玩,想去长隆野生动物园游玩,帮我买往返机票,最好都是早上出发。并且帮我订酒店以及购买门票。” “小美”则根据笔者要求,帮忙指定旅游计划,同时提供酒店、机票、景点门票方案。笔者只需按照提示,补充需要的信息,可直接在“小美”界面里完成酒店和景点门票支付。 不过,目前“小美”尚不支持直接订高铁票、机票,仅能够提供车次和航班安排。AI时代美团野心十足 从文字表述来看,这些功能似乎并不算多“炸裂”,毕竟现在几乎所有AI产品都能提供基础的旅行计划制定之类。但是,“小美”整合美团整个生态后,体验大不一样,直接实现了用户“一站式”服务。像这次测评中,笔者可以通过“小美”点外卖、订酒店、买景点门票、甚至购买电影票等,都可以在App上实现从预订到下单购买全流程。甚至有种用了“小美”后就能“戒掉”其他App的错觉这种体验。类似科幻电影中的AI,人类只需要告诉AI需求,AI直接帮助人类解决一切问题。当然了,目前这么形容多少有些夸张。“小美”还处于早期版本测试阶段,一些其功能上还不完善,例如无法订高铁以及飞机票;此外,如果未在美团但是已经有业务范围内的任务也无法处理。但是,“小美”已经有朝这个方向发展的雏形;经过产品迭代发展,“小美”会越来越智能方便,这是毋庸置疑的。通过这个产品,明显可以看出美团试图通过AI整合其所有产品生态,让AI产品浓缩成一个聚合性质流量入口。一旦美团“野心”成真,不仅改变人们生活方式,也会给行业内外其他玩家带来启示,客观上推动AI技术应用发展。眼下,无论在外卖业务还是本地生活业务方面,美团都面临巨大竞争挑战,这款AI产品能否成为其继续称霸行业头部的抓手,我们拭目以待。 -
微软豪掷重金自研 AI 芯片集群,谋求技术自主能力 IT之家 9 月 12 日消息,据 BusinessInsider,微软 AI 部门 CEO 穆斯塔法・苏莱曼(Mustafa Suleyman)在公司内部会议上表示,微软将进行“大规模投资”建设自有 AI 芯片集群,以实现人工智能领域的“自给自足”。微软过去在人工智能战略上主要依赖与 OpenAI 的合作,但近期双方关系趋紧。苏莱曼的讲话表明,微软希望在继续为 OpenAI 提供云计算支持的同时,开辟自有技术路线。他还提到,微软目前不仅依赖 OpenAI,还在采用开源模型、与其他开发者合作以及自主研发模型。苏莱曼表示:“对一家像我们这样规模和业务多元化的公司来说,如果我们选择这样做,那么在 AI 领域具备自给自足的能力至关重要。”微软于今年 8 月下旬发布了公司首个端到端自研基础模型 MAI-1-preview,并已在内部 Copilot 服务中进行测试。在广受关注的 LMArena 文本模型排行榜上,该模型排名第 24 位。苏莱曼坦言,微软在前沿模型研发上仍需继续努力。“我们应当具备自主开发各种规模的世界级前沿模型的能力,同时在需要时务实地使用其他模型。”他补充称,微软计划在自有 AI 芯片集群上投入大量资金,以支持模型训练。MAI-1-preview 仅使用了 1.5 万颗 Nvidia H100 GPU 进行训练,他称这一规模在行业中只是一个“小型集群”。相比之下,谷歌、Meta 和 xAI 的同类模型训练集群规模是微软的 6 至 10 倍。微软在现有合作中获得了显著收益,包括通过 Azure OpenAI 服务向客户提供技术,以及在 Copilot 等产品中集成 OpenAI 模型。对于 OpenAI,微软 CEO 萨提亚・纳德拉(Satya Nadella)在会议上强调双方关系仍然紧密: 我们与 OpenAI 有着良好的合作伙伴关系,并很高兴继续支持他们。要记住,OpenAI 向我们提供技术,我们也向他们提供服务,彼此既是客户也是合作伙伴,同时我们也是投资方。与此同时,我们也明确表示,希望建立自己的能力。 -
国家发改委:加大人工智能领域金融和财政支持力度 国家发展和改革委员会 习近平总书记强调:“人工智能作为引领新一轮科技革命和产业变革的战略性技术,深刻改变人类生产生活方式。”党的二十届三中全会明确将人工智能作为战略性产业,推动实现各行业的数智化转型,为经济高质量发展注入新动力。国务院日前印发《关于深入实施“人工智能+”行动的意见》,从国家层面对各行业各领域人工智能应用发展提出指导意见,明确时间表、路线图。我们要深入贯彻落实党中央、国务院决策部署,大力推进人工智能商业化规模化应用,加快人工智能与经济社会各领域广泛深度融合,为赋能高质量发展、更好服务社会主义现代化建设贡献力量。 深刻领会深入实施“人工智能+”行动的重大意义 当前,人工智能技术加速迭代演进,正在对经济发展、社会进步、国际政治经济格局等方面产生重大而深远的影响。深入实施“人工智能+”行动,推动人工智能与经济社会深度融合,既是我们当前面临的紧迫任务,更是关乎长远发展的战略命题。 深入实施“人工智能+”行动,是抢抓新一轮科技革命和产业变革机遇的战略选择。习近平总书记强调:“加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。”历史发展表明,每一次科技革命都带来生产力的指数级跃升,推动社会形态深刻演进。人工智能作为继蒸汽机、电力、互联网之后的又一划时代的变革性技术,正以前所未有的速度、广度和深度,驱动经济社会发展加快迈向智能化新阶段。实施“人工智能+”行动,体现了党中央、国务院对世界科技发展大势的深刻洞见和前瞻擘画,是赢得全球科技竞争主动权的重要抓手。 深入实施“人工智能+”行动,是培育发展新质生产力的内在要求。习近平总书记强调:“科技创新是发展新质生产力的核心要素。”作为新一轮科技革命的重要驱动力量,当前人工智能的快速发展与我国培育发展新质生产力、推动高质量发展形成历史性交汇。人工智能具有溢出带动性很强的“头雁”效应,通过对资本、劳动、技术、数据等要素创新性配置,显著提升全要素生产率,促进生产力革命性跃升。实施“人工智能+”行动,积极推动人工智能和实体经济深度融合,有助于推动产业向价值链高端迈进,促进增长方式从要素驱动转向创新驱动,不断催生新技术、新业态、新模式,形成新质生产力发展的核心引擎。 深入实施“人工智能+”行动,是满足人民美好生活需要的重要途径。习近平总书记强调:“要加强人工智能同保障和改善民生的结合,从保障和改善民生、为人民创造美好生活的需要出发,推动人工智能在人们日常工作、学习、生活中的深度运用,创造更加智能的工作方式和生活方式。”实施“人工智能+”行动,要抓住民生领域突出矛盾和难点,加强人工智能在医疗、教育、交通、助残养老等关系群众切身利益的重点领域深度应用,促进全体人民共享人工智能发展成果。 深入实施“人工智能+”行动,是助力全球平等参与智能化发展进程的积极举措。习近平总书记强调:“人工智能可以是造福人类的国际公共产品。”当前,人工智能发展面临全球治理机制碎片化、阵营化等挑战,各国智能化发展差距不断加大,亟需完善全球治理体系,携手共赢发展。我国深入实施“人工智能+”行动,打造具有世界影响力的人工智能生态,深化人工智能领域高水平开放,推动人工智能技术开源可及,有助于推动形成具有广泛共识的全球治理框架和标准规范,助力各国平等参与全球智能化发展进程。 全面把握深入实施“人工智能+”行动的优势条件 在党中央、国务院的坚强领导下,我国人工智能快速发展,综合实力实现整体性、系统性跃升,发展优势进一步凸显,同时数据资源丰富、产业体系完备、应用场景多、市场空间大、人才资源富集,为深入实施“人工智能+”行动创造有利条件、奠定良好基础。 丰富的数据资源提供了关键要素支撑。数据作为人工智能模型训练和迭代的关键“原料”,其规模、质量、多样性和时效性直接决定人工智能的性能上限。当前,随着大模型技术发展,对高质量语料数据的需求正从通用化向专业化、场景化、多模态纵深拓展。我国依托网络化、数字化建设基础,积累起规模超大、类型丰富、动态鲜活的数据资源。2024年,全国数据生产总量达41.06泽字节(ZB),占全球数据总量的26.67%,用于人工智能开发、训练和推理的数据量同比增长40.95%。 完备的产业体系提供了强大物质技术保障。我国作为全球唯一拥有联合国产业分类中全部工业门类的国家,具备41个大类、207个中类、666个小类的工业体系,200多种主要工业品产量全球第一。这一链条完整、配套齐全、要素完备的产业生态,为人工智能技术从研发验证、产品设计到制造交付提供了全链条支撑,将极大促进技术创新迅速转化为产品与服务,形成推动人工智能实现规模化落地应用的独特优势。 丰富的应用场景提供了广阔的发展空间。人工智能的生命力在于应用,真实场景中复杂的约束条件、多样化需求等,持续驱动人工智能技术演进和性能提升。我国具备类别齐全、层次多样的应用生态,覆盖智能制造、智慧医疗、数字金融、智能交通、智慧教育等关键领域,为人工智能尤其是复杂推理、动态决策和自适应学习等高级能力的锤炼提供了最佳“试验场”。目前,我国已发布超1500个行业模型,覆盖50个重点行业领域、700余个场景。 巨大的市场空间提供了内生发展动力。我国拥有14亿多人口、约2亿经营主体和超过4亿的中等收入群体,连续10余年稳居全球第二大商品消费市场和最大网络零售市场。庞大的人口基数、持续升级的消费能力以及强大的企业创新活力,有利于摊薄研发成本、加速技术迭代升级、促进应用标准化,为推动新一代人工智能终端、智能体等人工智能应用提供了广阔市场空间。 超大规模的人才资源提供了信心底气。人工智能的理论创新、算法突破和落地应用均依赖多层次、跨学科人才。我国已建成世界规模最大且有质量的教育体系,人才资源总量、科技人力资源总量、研发人员总量均居世界第一,软件开发者近千万人,在数学、计算机、工程等多学科领域积累了雄厚人才基础,为人工智能持续创新和规模化应用提供了强大人才保障和智力支持。 奋力开拓新时代“人工智能+”发展新局面 深入实施“人工智能+”是一项长期、复杂的系统工程。国家发展改革委将按照党中央、国务院决策部署,紧扣“人工智能+”行动总体安排,充分发挥统筹协调作用,加强部门协同、央地联动和社会参与,广泛凝聚各方力量,推动形成工作合力,扎实推进各项工作取得实效。 构建创新活跃的智能经济。加快推动人工智能驱动的新型科研范式变革,加速“从0到1”重大科学发现进程、“从1到N”技术落地和迭代突破。深入推动产业全要素智能化发展,加快工业、农业、服务业智能化转型升级,发展智能原生技术、产品和服务体系,催生智能原生新业态。加强智能消费基础设施建设,推动智能终端“万物智联”,让人工智能走进“千家万户”“千商万店”。 打造更有温度的智能社会。优先在就业、健康、养老、教育、文化等民生领域降低人工智能技术应用门槛,加快健康助手、智能学伴等人工智能产品与服务的普惠化应用。有序推进人工智能在社会治理、安全治理、生态治理等中的应用,形成高效多元的治理格局。把人工智能作为造福人类的国际公共产品,推动人工智能普惠共享,助力各国平等参与智能化进程。 强化人工智能发展的要素支撑。加快高质量语料库和行业数据集建设,完善数据产权和版权、收益分配等制度,加强数据供给创新。统筹布局智算基础设施,充分发挥“东数西算”国家枢纽作用,强化数、算、电、网等资源协同配置。大力推进原始创新与开源生态培育,支持多路径技术探索和基础架构创新,提升模型基础能力。加强人工智能人才引育,超常规构建领军人才培养新模式。 完善人工智能应用的创新发展环境。强化政府部门和国有企业示范引领作用,完善应用试错容错管理制度,推动关键重点场景有序开放。加大人工智能领域金融和财政支持力度,完善风险分担和投资退出机制,进一步激发人工智能投融资市场活力。布局建设一批国家人工智能应用中试基地,搭建行业应用共性平台,降低应用创新门槛,促进创新成果高效转化。推动大中小企业融通发展,加快人工智能产业链上下游协同发展,构建资源共享、能力互补、良性互动的人工智能产业生态。 筑牢人工智能应用的安全防线。大力支持开展人工智能技能培训,激发人工智能创新创业和再就业活力,引导创新资源向创造就业潜力大的方向倾斜,加强人工智能应用就业风险评估,减少对就业的冲击。推动模型算法、数据资源、基础设施、应用系统等安全能力建设,建立健全人工智能技术监测、风险预警、应急响应体系,加快形成动态敏捷、多元协同的人工智能治理格局,推动人工智能应用合规、透明、可信赖。 《 人民日报 》( 2025年09月12日 10 版) -
被约谈警告!小红书还是太急了…… 一纸公告把小红书推到了风口浪尖。9月11日,“网信中国”发布《网信部门依法查处小红书平台破坏网络生态案件》文章,在财经圈引起震动。文中提到:针对小红书平台未落实信息内容管理主体责任,在热搜榜单重点环节频繁呈现多条炒作明星个人动态和琐事类词条等不良信息内容,破坏网络生态问题,国家网信办指导上海市网信办,依据《网络信息内容生态治理规定》等有关规定,对小红书平台采取约谈、责令限期改正、警告、从严处理责任人等处置处罚措施。看官方的措辞,这事还挺严重:破坏网络生态,从严处理责任人。那么,小红书到底犯了啥事?从“网信中国”发布的通告看,此次处罚的直接原因是小红书在热搜榜单重点环节频繁呈现多条炒作明星个人动态和琐事类词条等不良信息内容。换句话说,明星八卦霸榜,热搜沦为生意。有报道提到,小红书在热搜重点环节频繁呈现“明星离婚内幕”等八卦词条。据网信部门披露,相关话题中超过60%为无实质信息的纯娱乐炒作。 作为一个头部内容平台,小红书理应承担起内容管理主体责任,任由纯娱乐信息霸榜,不仅挤占了公共议题的传播空间,更形成了"流量至上"的恶性循环。乱象背后是利益纠葛。据媒体报道,某MCN机构负责人透露,小红书部分热搜词条的商业报价高达每条数十万,经纪公司通过批量注册账号制造话题热度,形成"刷榜-引流-变现"的灰色产业链。说起来,小红书并非第一次面临这类质疑。据证券时报e公司梳理,近年来小红书多次遭到监管处罚,并卷入相关诉讼案件。一是约谈。最近的是2025年5月,约谈原因包括种草翻车、虚假推荐等问题。更早的时候,小红书被约谈问题还包括隐性涨价、虚标原价、货不对板、虚假宣传等问题;传播儿童软色情表情包、利用未成年人性暗示短视频引流等问题。二是行政处罚。企查查显示,小红书因发布虚假广告、未依法审核网络发布信息内容等原因,被相关部门处罚、警告、没收违法所得等,行政处罚的次数超20次。三是诉讼。企查查显示,目前小红书【其运营主体为行吟信息科技(上海)有限公司】作为被告所涉及的司法案件为2203件,案件金额约为2628万元。 往更深处看,监管风险加剧的同时,小红书正面临着巨大的商业化压力。根据金沙江创业投资管理公司披露的投资组合文件,成立于2013年的小红书,如今估值已高达310亿美元(约2208亿元人民币),在短短三个月内上涨了19%。小红书的投资者阵容豪华,涵盖阿里巴巴、淡马锡、腾讯等。然而小红书至今仍未上市,这使得早期投资者的退出压力日益增大。早在2018年,小红书创始人瞿芳就曾公开表示,公司有可能在未来2-3年内完成IPO,但至今未正式宣布具体的IPO计划。 从财务数据看,2023年小红书实现营业收入37亿美元,同比增长85%;净利润首次扭亏为盈。今年以来,小红书提速电商布局,加速商业化的意图明显。可以看到,小红书似乎很急。这份急迫,正在让这家独角兽面临更大的风险。狄更斯在《双城记》中写道:“这是一个最好的时代,也是一个最坏的时代。”对小红书来说,估值310亿美元的今天确实是最好的时代;但对平台内容生态来说,却可能正变成最坏的时代。监管的达摩克利斯剑已经悬顶,商业价值与社会责任的天平不容失衡,这值得小红书深思。 -
Adobe(ADBE.US)推出一系列AI智能体 助力企业缩短工作流程 智通财经APP获悉,Adobe(ADBE.US)推出了一系列人工智能智能体,旨在帮助客户在多种应用场景下缩短工作流程。这些智能体最初于2025年3月的Adobe Summit上首次亮相,而这家创意应用公司从今天开始正式向公众提供相关服务。投资者曾对AI工具可能威胁到Adobe、Figma(FIG.US)和Canva等设计软件公司的市场份额表示担忧。但Adobe已率先将AI驱动的工具融入自身产品,例如Firefly。Adobe Experience Cloud工程高级副总裁Anjul Bhambhri表示:“Adobe的智能体AI创新正在重新定义AI时代的客户体验编排,使企业能够通过智能体编排释放生产力,重塑长期存在的流程,并大规模交付个性化体验以推动业务增长。”这些全新开箱即用的智能体可帮助用户快速建立受众群体、编排营销活动、进行创意实验、获取数据洞察、优化网站以及改善客户支持。Adobe还计划很快推出Experience Platform Agent Composer,使客户能够自定义和配置自己的智能体。此外,Adobe还宣布与Cognizant(CTSH.US)、Google Cloud(GOOG)(GOOGL.US)、Havas(HAVSF.US)、Medallia和Omnicom(OMC.US)达成新的智能体合作关系。 -
猿辅导素养课亮相2025服贸会 全流程AI矩阵赋能家庭教育 9月10日,2025年中国国际服务贸易交易会开幕。猿辅导素养课携AI助教、AI作文通等多款AI新功能参展,展示覆盖素养教育教、学、练、评、测全流程的AI产品矩阵,为素养教育高质量发展注入新动能。 猿辅导素养课亮相2025服贸会。(受访者供图)作为深耕素养教育领域的代表,猿辅导素养课自2023年6月推出以来,以“培养孩子学习的底层能力”为核心,依托优质课程体系与AI创新应用,深度赋能小学生核心素养。2024年5月,其率先落地新课标体系在线课程,打造新人文、新思维、新双语三大系列产品,获新课标研究领域专家认可,也受学生及家长青睐。在本届服贸会上,猿辅导素养课的AI产品矩阵成为焦点。其中,AI助教基于大模型技术,在课前提醒学习准备、课中提升专注力、课后跟进学习情况,充当主讲老师与辅导老师之外的“第三位引导者”;“新思维”课程中的AI练习助手,通过“苏格拉底式问答”引导学生思考解题过程,培养逻辑思维与自主解题能力,避免直接给出答案。 参展嘉宾体验AI功能。(受访者供图)针对写作与英语学习痛点,猿辅导素养课还推出专项AI功能。AI作文通支持写前审题、素材推荐,写作中实时纠错、润色,写完后生成多维度评分与修改建议,助力学生提升写作能力;AI口语对话通过一对一情景对话,设置词汇跟读、开放式提问等题型,引导学生从“模仿说”向“思考说”“表达说”转变,对话后还会生成含发音、开口次数等维度的报告。此外,学生可通过AI个性化纠音、AI词文串烧等功能专项提升,借助AI学情分析查缺补漏,实现个性化学习。值得关注的是,猿辅导素养课依托母公司猿力科技的海量教育数据,自研AI大模型参数量级达700亿,已通过中国信通院5级评估,该评估为当前教育行业AI技术最高认证标准,彰显其技术成熟度与安全性。据介绍,与单纯工具型AI不同,猿辅导素养课的AI功能由技术与教研团队联合研发,结合小学生认知规律与学科教学逻辑,实现“场景化适配+启发式引导”,避免技术沦为“答题机器”,保障“有温度、有启发”的智学体验。“从技术研发到场景落地,我们始终坚持以孩子的素养培养为核心,让AI技术真正服务于教育本质。”猿辅导素养课相关负责人表示,此次服贸会上的展示,既是猿辅导素养课“AI+素养教育”成果的一次集中亮相,也为行业提供了技术与教育融合的参考路径。未来,猿辅导素养课将持续深耕AI大模型研发与教学场景适配,进一步完善全流程AI产品矩阵,以技术创新推动素养教育向更智能、更高效、更具温度的方向发展,助力培养具备核心素养的新时代学生。