找到
1120
篇与
互联网
相关的结果
- 第 42 页
-
“老登”应用,霸榜AI 定焦One(dingjiaoone)原创作者 | 王璐编辑 | 魏佳AI应用的争夺战,打到哪儿了?如果把整个AI行业想象成一座金矿:基础设施层(芯片、算力)相当于“卖铲子”,提供挖矿的基础工具;模型层(大模型研发)好比“卖地图”,告诉大家哪里有金子;而应用层是直接“下场淘金”,把金子变现。近两年AI应用的使用者越来越多,QuestMobile数据显示,截止到2025年8月,移动端AI应用用户规模达6.45亿,PC端达2.04亿。其中原生APP亿级应用的平均环比增速1.3%。何为“AI原生应用”?可以理解为它从设计之初就将AI作为核心驱动力,底层架构、运行逻辑、交互方式和商业模式都围绕AI能力进行创新,豆包、DeepSeek、ChatGPT、Perplexity等都属于这类,正因为其足够纯粹,也被认为是最能检验市场对AI接受度的产品类型之一。然而,我们对比多份榜单后发现,和国外创业公司不断孵化出头部AI原生应用不同,国内的榜单上靠前的产品大多来自大厂,有些还是老应用“加AI”的升级版,比如阿里的夸克、百度的文库等,真正由创业公司打造并冲进主流视野的原生AI应用并不多。看似热闹的AI应用赛道,实际上依然是大厂主导的游戏。为什么会出现这种情况?创业公司做AI应用,还有前景吗? AI应用爆发,仍是巨头游戏 近两年,全球AI应用迎来爆发式增长,虽然目前没有明确统计数据,但从业者预估,全球AI应用数量已达数十万级别,它们大体可划分为TOB(面向企业)与TOC(面向大众)两大阵营。为了更好的观察AI应用的长线发展趋势,我们选取了2025年上半年国内AI应用的热度榜单作为参照(数据来源:Xsignal)。榜单前二十名的应用可分为三类:大厂原生应用(12个)、大厂老应用+AI(1个)、创业公司原生应用(7个),仅有约三分之一出自创业公司。前三名分别为豆包、DeepSeek和夸克,而进入前十名的创业公司原生应用,除了DeepSeek之外,仅有聊天辅助应用Lovekey键盘。一位投资人甚至指出,严格来说,DeepSeek也并非真正意义上的创业公司,它依托母公司幻方量化的资源与团队支持。这意味着,榜单上厮杀出来的创业公司比例还要更低。 为了进一步验证这一趋势,我们还选取了硅谷著名VC机构a16z发布的全球Top100AI应用榜单进行对比。需要说明的是,其统计的是iOS和Google Play的数据,因缺少Android市场的部分应用,所以和国内榜单上的AI应用排名有所区别,比如国内榜单排名靠前的腾讯元宝、360旗下的纳米AI搜索均没有上榜,与此同时,一些“大厂老产品+AI”类应用出现在榜单前十中,比如美图在2008年推出的美图秀秀、字节在2020年推出的醒图。但无论是国内还是全球榜单,结果都显示:前三名没有变,大厂应用仍是主角。 澎湃发布的2025年全球百大值得关注的AI APP榜单也进一步印证了这一点。上榜的主要是硅谷科技巨头和国内互联网大厂产品,其中字节跳动、阿里巴巴、腾讯、百度四家企业的自有AI APP总数占比近四分之一,字节跳动以12款自有AI APP的数量位居榜首。综合这些榜单进一步分析,大厂在AI应用中的领先优势,一方面得益于类型优势。当前AI应用的热度分化明显,聊天机器人以绝对优势领跑,几乎所有国内大厂都在这一赛道押下重注,比如字节的豆包、腾讯的元宝、阿里的通义、百度的文小言。而大模型六小龙只有部分公司推出了聊天机器人产品。一位从业者解释,聊天机器人的通用属性让其能吸引大量用户,但也需要投入大量算力、数据标注和算法优化成本,这是部分创业公司没有做聊天机器人的重要原因之一。不过,换到其他类型,大厂AI应用的表现也整体好于创业公司。比如在虚拟角色、视频生成领域,字节的猫箱、快手的可灵的表现都领先于创业公司的同类应用,即便MiniMax的虚拟角色应用星野也表现不错,但也排在大厂之后。另一方面,一些AI新贵实则是“老将翻红”,大厂靠着AI让老牌应用再度起飞。比如阿里的夸克,百度的百度网盘、百度文库等,它们原本就拥有庞大的用户基数,如今套上AI的“新马甲”,又圈了一波热度。夸克升级为“AI超级框”后,强调AI对话、深度搜索及AI工具集成,覆盖写作、PPT生成、解题等场景,受到学生和职场人群的欢迎;百度网盘作为云存储工具,加入AI后具备一键将图片归类、生成字幕等功能,提高了使用者的效率;百度文库则是打工人最常用的工作工具之一,其2024年的营收比WPS还高,今年5月其“智能PPT”访问量一度拿下全球第一。 创业公司做AI应用,为什么后劲不足? 其实,AI应用的格局,并不是从一开始就被大厂“垄断”的。在早期,创业公司的原生应用表现并不输大厂,“AI六小虎”凭借快速迭代和灵活打法,一度气势逼人。Kimi就曾在声量上盖过文心一言、豆包、腾讯元宝等大厂同类产品。但如今,赛道已经走到分水岭。多位业内人士认为,大厂逐渐占据主导,源自三方面主要原因:技术迭代、商业模式和生态入口。从事Agent应用算法方向研究的资深人士赵江杰解释,开发一个AI应用大致涉及三方面:算法侧、前端(交互界面)和后端(集成环境)。其中最重要的是算法侧能力的搭建,也就是大模型能力。现在,大模型的能力正在经历第三次迭代。ChatGPT的诞生代表着大模型进入1.0阶段(通用对话);紧接着,通过与强化学习结合的后训练强推理模型是2.0阶段,以OpenAI的o1为起点,DeepSeek的出圈是标志性事件;今年随着Agent的爆发,大模型进入3.0阶段,以Agent能力作为模型重点突破的方向,在LLM+强化学习路线的基础上,继续扩展模型推理能力,使其具备更强的泛化性和通用性,以在现实场景的更多任务中推进Agent的落地。赵江杰表示,各家大模型在1.0阶段的能力几乎没有任何差异,在2.0阶段OpenAI和DeepSeek分别在闭源和开源领域占据先发优势,但后面各家大模型厂商也陆续赶上,而目前3.0阶段还在发展初期,面临RL大规模训练工程化挑战、长程规划以及可验证训练环境构建等问题,但像OpenAI的gpt-5,Google(deepmind)的Gemini deepthink已经开始展现出极强的推理能力,陆续在IMO、IOI等高难度数学国际竞赛上取得金牌,接近人类顶级水平。这也就意味着,在面临用户的常规任务时,各大模型都能很好的完成用户需求,只有复杂任务才会出现不同。在大模型能力差不多的前提下,场景挖掘与高质量数据,直接决定了AI应用的上限,而国内TOC场景的核心数据,集中在互联网大厂手中。随着用户复杂任务需求的增加,创业公司在此时逐渐失速。同时,未跑通的商业模式,也放大了创业公司的压力。赵江杰表示,AI应用的成本可分为前期人员开发、中期营销推广、后续运营维护,以及用户使用时消耗的算力。其中,API调用是最大的支出,虽然大模型厂商都在卷价格,但要支持海量用户请求,这仍是一笔高昂的费用。但目前TOC市场用户的付费意愿普遍低迷。“纵观国内平台型企业,从爱优腾(广告+会员)、抖音(广告)、淘宝(竞价排名)到美团(商家推广费),广告与流量变现仍是主流商业模式。让用户为AI应用直接付费,至今仍是一大难题。”一位AI行业资深投资人直言,目前国内消费者为AI TO C应用付费的路径,几乎走不通。 图源 / pexels 而OpenAI、Anthropic、Perplexity等创业公司能打造多款头部原生AI应用,与其C端用户对AI服务的付费接受度较高密切相关。OpenAI曾表示,ChatGPT今年预计能实现近100亿美元营收。相比之下,大厂可以将AI应用视为整体AI战略的一部分,短期内不必过于在意盈利。生态入口,则是大厂的另一张王牌。潞晨科技创始人尤洋表示,大厂本身具有品牌优势和庞大的流量池,比如字节的短视频、腾讯的社交和游戏、阿里的电商,天然具备海量分发渠道。短期内,它们也可以不考虑投入产出比,通过大量推流获取免费用户。更关键的是,大厂的非AI原生应用并不是“从零开始”,本来已经积累了一批用户,只需在原有产品基础上进行“AI升级”,就能在既有产品上收获用户,甚至凭借头部流量入口迅速登顶。比如,打出AI概念后,2024年12月,百度文库AI的MAU达9400万,同比增长216%,环比增长83%。而创业公司的原生应用要跑出来,全靠“冷启动”。比如Kimi曾靠投放短暂出圈,但缺乏长期留存手段,最终难以维持。去年,Kimi与豆包、文小言并称“AI原生三强”,AppGrowing数据显示,Kimi去年10月单月投放金额为2.2亿,整个Q4达到了5.3亿。但今年Q1,Kimi下载量环比下滑3.9%,月均下载量833.8万,一方面与DeepSeek的出现有关,另一方面也与投放力度下降相关,其Q1投放量仅1.5亿。尤洋直言:“可能大厂某一个产品单月的广告营销费用,比很多初创公司的融资总额还高。”在这样的现实下,创业公司的AI原生应用想要突围,难度可想而知。 AI应用市场,创业公司还有机会吗? 即便AI应用迎来爆发式增长,格局也趋于稳定,但从整体来看,它的用户规模和变现潜力仍处于早期阶段。Sensor Tower发布的《2025年AI应用市场洞察报告》显示,今年上半年,全球生成式AI应用(AI助手+AI内容生成器)下载量达到17亿次,环比增长67%;应用内购买(IAP)收入接近19亿美元,同比增长100%+;用户累计使用时长156亿小时,相当于每天8600万小时,总会话次数4260亿次,人均约50次。这些数据表明,AI应用的用户粘性和付费意愿均在显著提升,整个市场远未到天花板。同时,技术门槛的降低也给了创业公司更多机会。从业者阿明介绍,在大模型的加持下,一个小型开发团队甚至个人开发者,在短短几天内就能开发出功能完整的AI应用。赵江杰也提到,今年以Cursor、Claude Code、Codex为代表的AI Coding产品发展非常快,受益于模型Coding能力和Agent能力的提升,现在的AI Coding产品的能力基本覆盖了全栈开发,通过prompt输入实现一句话编程(vibe coding),完成中等难度复杂度以下的整体项目搭建,这可以让AI应用的开发周期大大缩短,可能一两天就能做出demo。在这样的背景之下,创业公司想要从中分一杯羹并非没有机会。赵江杰认为,创业公司决策链条短、行动迅速,能更专注地打磨单一产品,对市场变化和用户反馈的响应速度远超大厂。这种特性使创业公司更易避开与大厂的正面交锋,转而深耕垂直领域的细分场景。尤洋回溯AI浪潮前的整体应用的发展历程,觉得即便大厂占据了做AI应用的先天优势,创业公司也还有空间。“许多如今知名的大厂应用,最初也是作为初创产品厮杀出来的。比如PC时代,微软垄断操作系统,但诞生了Adobe、Autodesk等垂直软件巨头;移动时代,苹果、谷歌垄断手机系统,但诞生了无数细分领域的应用和如今的大厂:字节、腾讯、阿里、Meta等”。他认为,AI时代的生态会分层:基础层比如预训练前沿底座大模型、建设超大规模算力集群是少数厂商的游戏,应用层则由大厂和数千家创业公司瓜分。 图源 / pexels 当然,并不是所有的AI应用都有生存空间。他认为创业公司在做AI应用时,可以考虑是否同时满足以下三点:首先,场景高频刚需。比如教育学习、信息检索、内容创作都属于用户高频使用的场景,问答类的Perplexity、视频类的Sora都属于这一类。而一些泛AI类应用,可能同质化严重,用户新鲜感过后便选择离开。其次,用户的投入产出要合适。目前一些办公协作类AI应用比较有竞争力,能在短时间内显著提升用户的工作效率,甚至获得收益。比如智能生成PPT的工具AiPPT.cn排名靠前,证明了只要能真正帮用户解决问题,用户就愿意长期使用。最后,技术成熟度必须与场景容错度匹配。内容生成、编程等领域天然适配AI的创作能力,用户需求量也大,对AI幻觉也有一定的容忍度,比起医疗、自动驾驶等“强制正确性场景”更适合创业公司做出快速落地产品。总体而言,AI应用赛道目前仍处于早期探索阶段,大厂凭借体量、生态和资源占据核心阵地,但创业公司可依靠技术锐度和垂直领域的深度创新,寻找突围。*题图来源于pexels。 -
智元斩获业内首张人形机器人数据集CR认证,编号“001” 记者从智元机器人了解到,该公司成功通过CR-3-06:2025《人形机器人数据集CR产品认证实施规则》,拿下业内首张人形机器人数据集产品CR认证证书,编号“001”,成为国内首批依据T/SAIAS 024—2025、T/SAIAS 025—2025、T/SAIAS 026—2025、T/SAIAS 027—2025系列团体标准获得认证的企业。这标志着我国在人形机器人数据集标准化、质量评价与产业应用领域迈出关键步伐。 本次认证体系全面评估了人形机器人数据集建设的四大核心要素:分类与编码规范、数据标注标准、统一数据集格式要求以及全面质量评价准则。该认证不仅涵盖了数据集构建的全生命周期管理,更从源头确保了数据的规范性、一致性与可用性,是对企业数据治理能力、标准化水平及工程实践能力的综合检验。通过系统性评估,认证有效推动了人形机器人数据在采集、处理、管理及使用各环节的标准化进程,为行业数据生态的健康发展奠定了坚实基础。智元机器人AgiBot World数据集作为全球首个基于全域真实场景、全能硬件平台、全程质量把控的真机数据集,构建了具身智能领域的“数据基准库”。该数据集在规模与质量方面实现双重突破:长程数据规模较谷歌Open X-Embodiment数据集高出10倍,从抓取、推拉等基础操作,到搅拌、折叠、熨烫乃至内存条安装、餐具分拣等复杂长程任务,80%的任务时长集中在60-150秒,覆盖从基础操作到复杂长程任务的多组原子技能组合;场景覆盖面扩大100倍,数据质量从实验室级跃升至工业级标准。在场景与任务覆盖上,AgiBot World数据集实现了全维度拓展。依托智元自建的3000多平方米数据采集工厂与应用实验基地,数据集复刻了家居、餐饮、工业、商超和办公五大核心场景,包含数百种真实子场景与3000多种真实物品。通过多场景的高度还原与任务设计,AgiBot World 为机器人研发和测试构建了实现具身智能的必要条件。 -
场景驱动成绿色技术产业化“关键一跃”,多个绿色低碳应用场景接连发布 当下,场景驱动已成绿色技术产业化“关键一跃”,在昨天举行的浦江绿色低碳创新论坛上,多项创新绿色技术转移转化路径与合作计划发布,覆盖人工智能工具、国际项目、应用场景等,为上海建设全球绿色科技创新枢纽汇聚智慧和活力。世界知识产权组织(WIPO)中国办事处主任刘华表示,今年WIPO首次将日风险资本交易量纳入世界百强创新集群考核指标,上海在这一指标上名列第二,仅次于圣何塞-旧金山城市群,展现出上海活跃的创新市场和广阔的创新空间。WIPO数据显示,目前几乎每三项专利中就有一项与可持续发展目标相关。当下绿色技术与城市的科技创新息息相关。WIPO GREEN是联合国最大的绿色技术平台,现已收储来自140多个国家的逾13万项技术,拥有150个全球合作伙伴,并在十多个国家成功落地加速项目。上海科学技术交流中心绿色技术发展处处长席芙蓉介绍,上海去年应邀加入WIPO GREEN城市加速项目,切实解决了中心城区电动市政车辆移动充电、缓流河道稳态治理、近郊农业大棚土壤盐渍化修复、集装箱育苗工厂补光节能等多个现实问题,为上海绿色可持续发展提供有力技术支撑。此次论坛上,“自动驾驶移动充电机器人”“节能补光技术赋能植物工厂”“生物基材料修复盐碱化土地”三个已落地项目,作为WIPO GREEN城市加速项目上海典型案例正式发布。“自动驾驶移动充电机器人”即由纵目科技开发的“闪电宝”移动能源机器人。这款达到L4级智能驾驶水平的“会走路的充电桩”不依赖固定电源,可提供60千瓦移动快充能力,最多可服务24个停车位。它还可与FlashHub智能双模充电桩组合部署,在无需大规模布线的前提下,实现“移动+固定”的一体化充电。目前,“闪电宝”已在全国投入500余台。“节能补光技术赋能植物工厂”首创大角度旋转式LED补光灯,补光角度扩大到120°,设计多路可控电路满足不同生长周期的光照需求,补光面积增长到0.5亩/盏。团队研发的首个中草药生长数据库与中草药吸收光谱数据库,覆盖10多种高价值中草药,为其全生命生长周期提供精准指导。该技术已在云南、海南建成共3万亩示范基地,实现亩均增收万元。“生物基材料修复盐碱化土地”去年初在新疆喀什地区打造的两个示范基地展现出一片绿色生机:原本有机质含量为零、无法生长任何农作物的戈壁滩上,已经种上了玉米、苜蓿、高粱、西瓜、甜瓜和节水抗旱稻等作物。去年底,这一治沙扩田的中国方案在阿联酋阿布扎比成功复制推广。今年,这一技术还将在非洲大显身手。席芙蓉表示,2026年WIPO GREEN加速项目(上海)将进一步升级,除拓宽应用场景、深化技术对接外,更将推出“绿色技术IP加速营”,聚焦绿色低碳赛道探索高价值专利组合、协助企业制定绿色知识产权战略规划,为绿色技术创新价值实现与企业竞争力提升保驾护航。 近年来上海围绕深远海风电、新型储能等七大领域布局15个绿色低碳转型重点应用场景,启用绿色技术银行、绿色低碳概念验证中心等平台,落地全国首套兼容燃煤+燃机烟气的CCUS示范装置、首个规模化商业运行的绿色甲醇一体化示范项目等标杆项目,未来将进一步拓展应用场景推进绿色低碳技术集成创新、强化金融赋能加快成果落地、链接全球网络加强智慧共享。吉利汽车以及立讯精密也分别分享了各自的绿色低碳规划及应用场景,其中吉利汽车集团俞绍华以“携手供应商伙伴打造绿色供应链应用场景”为题,介绍了吉利汽车低碳转型的系统路径,以“2025年单车全生命周期碳排放减少25%以上、2045年实现碳中和”为核心目标,从设计、制造、供应链、使用端多维度发力,构建全链条绿色供应链生态,并发布了性价比高的能源替代、节能降碳技术、CCUS技术、固碳技术等绿色技术需求。立讯精密发布“可持续发展路线图”,围绕环境、社会和治理三大维度构建战略体系,明确“节能减排、可再生能源为主、碳抵消为辅”的碳中和策略,提出“不晚于2050年实现自身运营及价值链碳中和”目标,并发布了电气化改造、可再生燃气、碳汇方面的技术需求。论坛还集中发布了绿色技术的AI助手“小绿”、绿色伙伴计划及链主企业绿色低碳应用场景,更有来自丹麦、哈萨克斯坦等国的国际嘉宾与国内行业领军者分享城市绿色低碳转型创新经验,全方位破解绿色技术从实验室走向市场的关键难题。 -
新质观察|“人工智能思维”到底应该是什么? 前不久,国务院发布《关于深入实施“人工智能+”行动的意见》,鼓励和支持全民积极学习人工智能新知识、新技术。再一次掀起了全社会关注人工智能的热潮。越来越多的产业部门开启了新一轮推动人工智能(AI)落地的专项行动,几乎所有领域都在更加积极地探索如何运用人工智能转化为生产力。眼下又正值新学年的开学季,北京、天津、山东、西安、杭州等多地也纷纷推动将AI“从娃娃抓起”,在一年级教学中便纳入AI课程。一时间,从政府部门、到企业员工、到学生家长,社会方方面面都在以前所未有的热度聊AI、讲AI。 李晶昀 AI图对此我深有体会的。就最近两个月,我更加频繁地收到各类关于AI的问询,从怎么利用AI降本增效,到怎么将AI融入教育,问题不一而足。但几乎每一次,话题最终都会落到一个:“钱老师,那你说大模型用哪家的好,是推荐用DeepSeek,还是豆包?”我想,这里显然是存在误区的。可以类比在互联网刚普及时,很多人本能地以为发邮件就是“触网”的全部了一样。差不多要到大约十年前,互联网借由移动互联的形式,实现在我国真正普及的时候,很多人才猛然发现原来互联网可以做那么多事情,那些数十年前就被预言的定律、猜想竟然是那么地精准。惊诧之余,孕育出了一个风行一时的概念“互联网思维”。我想,既然我们已经站在了智能时代的门口,AI已经脱离了专属的科技背景和产业背景,开始走向每个人的个人生活。那我们不妨认真谈一谈:面向社会大众的人工智能思维,到底是什么,以及不是什么。一、人工智能思维应该是什么在回答这个问题前,不妨把镜头先拉远一些。让我们回想一下,今天日常生活中那些“习以为常”又“理所当然”的事情。譬如去超市,我们自然而然会算账;规划出行,会下意识估算时间与距离;工作上遇到不那么容易说清楚的事情,会仔细写一封邮件等等。细究起来,这些能力都并不是与生俱来的。而是建立在“数字思维”和“文字思维”的潜移默化之上。拥有这些能力,并不是说人人都要目标成为数学家或作家,而是人人都能将数字和文字转化为我们认知世界的基本工具。就算不从事相关专业,依然能用它们处理生活和工作的纷繁事务。同理,智能时代,“人工智能思维”也应是一种基础的、普适的思维方式——这并不是指人人都能“手搓”一个AI算法,而是要求我们具备一种如臂使指运用智能工具的意识和能力。就像我们自己不需要会装电脑、更不需要会造手机,但我们一样能知道什么时候需要电脑和手机为我们干些什么,以及不能干些什么。二、人工智能思维不应是什么现在让我们回到刚开始的问题——直接问用哪一款大模型,学习钻研和AI(其实是大模型)互动的方法(例如提示词prompt),它的误区到底在哪里。难道这不是使用智能工具的意识和能力吗?其实这并不尽然。我想这里至少有三个层面的问题。首先,是原理层面的误区。人工智能领域开天辟地的达特茅斯会议,举办距今已近70年。在这70年里AI已经成为了一个巨大的科学技术门类。就拿近10年来说,AI的发展就经历了机器视觉、语音交互、大数据、深度学习、大语言模型等热点的轮替。大语言模型真正成为公众热点,不过短短两三年时间。眼下,具身智能、脑机接口、类脑智能都还在蓄势待发。未来的奇点在哪里,下一个谁,还会以什么样的形式带来更大的惊喜,还是不是语言交互的形式,这些都很难预料。因此,如果把“AI思维”等同于“大模型思维”,那显然是“只见树木,不见森林”。好比是把浏览器等同于互联网,既过于片面,也略为短视。其次,是在工具层面的问题。我们当然需要承认,大语言模型已经成为当下最具颠覆意义的生产力工具。虽然目前它仍有幻觉、偏见、滞后等技术性局限尚待解决,但大家都见证了在这短短一两年内,大模型生成文字、图片、影片,甚至程序代码的能力越来越叹为观止,而且还在以超越想象的速度不断提升。然而,是不是我们有了计算器之后,数学可以不从识数、加减法学起,就直接从“按按钮”开始了呢?答案显然是否定的。工具再强大,也无法代替人自身的思维训练。正所谓“有道无术,术尚可求;有术无道,止于术”。我想这句话,便精妙地诠释了其中的关系。只追逐“术”,最多只能成为一个熟练的AI用户,但我们对智能时代的追求应该不仅限于此。第三个问题,在人机交互伦理层面的错位。通俗来说,就是“到底是人在用AI,还是AI在指使、规训人”。我们用AI是因为AI能够帮助我们,然而当陷于“大模型世界”中,把所有文本交给大模型,所有图像都交给大模型,所有决策都交给大模型,在失去这些表达权、审美权、决策权之后,我们自己将何去何从?还是用先前提过的例子,我们学习古诗词,是因为看到日出时,会想到“日出江花红胜火”;看到红叶时,能咏出“霜叶红于二月花”。这些内容和联想丰富了我们的人生体验。如果这些句子只是在诗词库中,那么对我们的意义又在哪里呢?但显然,对于这些深层的追问,大模型和提示词都不会给出答案,甚至反而会南辕北辙。而这,恰恰正是我们需要培育真正“人工智能思维”的根本原因。三、提升人工智能意识,我们可以做些什么?AI最为革命性的特质,在于它是人类文明诞生以来首个能够递归式自我改进的技术。在此之前,蒸汽机提升了生产力,但它不会自己变得更高效;电力驱动了工业化,但它无法自己优化能耗。而AI则可以通过学习不断优化自身。目标决定路径,特质确定思维。正是因为这种特质,为我们提供了构建面向AI思维的方法关键:不在于记忆命令、背诵提示词,或是学习编程语言,而是去积极理解AI是如何学习和工作的——有答案时如何学(监督学习),没答案时如何学(无监督学习),又如何通过试错调整着学(强化学习),并使之能够在工作、学习、生活中灵活运用这些机制,将它们像文字、数字、互联网一样融入内化成为我们应对世界的基本能力。这或许才是真正能够打开智能时代之门的关键所在。四、结语:把握时代的入口思维记得十年前“互联网思维”风靡各行各业之时。一度“互联网+”被视为万能解药,似乎任何行业只要“+互联网”就能焕发新生。十年过去,“互联网”一词甚至已然淡出了人们的日常话语。转而成为一项根植于这个网络时代社会的基础设施,让我们得以习以为常地在线办事、手机挂号、扫码支付、随时检索。然而,互联网、包括移动互联网的发明时间,远远早于十年前。可见,真正起到决定性作用的并不是“互联网”这项技术本身,而是我们如何接纳它、使用它,并将它的思维方式和基本逻辑纳入我们的工作、学习、生活之中。今天,我们又站到“人工智能”新时代的大门口。虽然技术仍在快速地演进变化,但不论它如何发展,我们都是最终的理解者、运用者、驾驭者。因此,是我们自己需要主动培养提升我们的思维,而不是寄希望于AI能够“包办”,甚至让其反向定义我们。(作者钱学胜为智能系统博士,复旦大学智慧城市研究中心高级研究员,《科学画报》编委会人工智能专委会副主任委员)来源:钱学胜 -
英伟达最大手笔投资承诺:豪掷千亿美元助OpenAI打造10GW数据中心 IT之家 9 月 23 日消息,英伟达和 OpenAI 今日发布声明,宣布将展开一项具有里程碑意义的战略合作伙伴关系。双方将在未来几周内敲定该战略合作的具体细节。 根据协议,OpenAI 将利用英伟达硬件打造和部署至少 10GW 的 AI 数据中心,使用数百万块英伟达 GPU 训练并部署 OpenAI 的下一代 AI 模型,推动通用人工智能(AGI)的发展。首阶段预计在 2026 年下半年上线,基于英伟达 Rubin 平台。 为了支持这一战略合作关系,英伟达承诺会随着每 GW 的部署逐步向 OpenAI 投资最高 1000 亿美元(IT之家注:现汇率约合 7115.72 亿元人民币)。这也是英伟达迄今为止做出的最大手笔投资承诺。英伟达创始人兼 CEO 黄仁勋表示:“在过去十年里,从第一台 DGX 超级计算机到 ChatGPT 的突破,英伟达和 OpenAI 一直相互推动。这次投资与基础设施合作标志着新的飞跃 —— 我们将部署 10 吉瓦算力,驱动下一个智能时代。” 黄仁勋解释称,10GW 的容量相当于 400 万至 500 万块 GPU。这等于英伟达今年全年的总出货量,“是去年的两倍”“这是一个巨大的项目”。 黄仁勋此前在财报电话会议上说,建设 1GW 数据中心容量的成本在 500~600 亿美元(现汇率约合 3557.86 ~ 4269.43 亿元人民币)之间,其中约 350 亿美元用于采购英伟达芯片和系统。按此计算,10GW 项目的总投资规模将达到数千亿美元。 OpenAI 联合创始人兼首席执行官萨姆・奥尔特曼(Sam Altman)强调:“一切都始于算力。算力基础设施将成为未来经济的核心。我们将借助与英伟达共建的体系,不仅推动新的 AI 突破,还将在大规模上赋能个人和企业。”OpenAI 联合创始人兼总裁格雷格・布罗克曼(Greg Brockman)补充道:“自 OpenAI 创立之初,我们就与英伟达紧密合作。我们利用其平台打造了每天被数亿人使用的 AI 系统。我们很高兴能够与英伟达部署 10 吉瓦算力,推动智能前沿并扩大这项技术的普惠价值。” 根据合作内容,OpenAI 将选择英伟达作为其战略级计算与网络合作伙伴,双方将共同优化路线图,涵盖 OpenAI 的模型与基础设施软件,以及英伟达的硬件与软件。这一战略合作也将补充 OpenAI 与微软、甲骨文、软银及 Stargate 合作伙伴等现有广泛合作,共同建设全球最先进的 AI 基础设施。值得一提的是,萨姆・奥尔特曼周日还表示,OpenAI 将在未来几周推出一些新的计算密集型产品,由于相关成本较高,部分功能初期仅向 Pro 订阅用户开放。 -
苹果图乐园将添新引擎:接入更多模型,打造 AI 生图“聚合器” IT之家 9 月 23 日消息,科技媒体 9to5Mac 今天(9 月 23 日)发布博文,报道称在 macOS Tahoe 26.1、iPadOS 26.1 和 iOS 26.1 首个 Beta 开发者测试版中,通过挖掘代码发现苹果将为图乐园(Image Playground)引入了新的框架支持,加入“估算延迟”和提供商标识等功能,为接入更多第三方模型铺路。IT之家注:图乐园(Image Playground)是苹果推出的 AI 图片生成应用,可通过文字提示生成插画。在 macOS Tahoe 26.1、iPadOS 26.1 和 iOS 26.1 首个 Beta 开发者测试版中,苹果更新了图乐园的底层框架。这款应用原本仅依托苹果自研模型生成插画,随后在今年引入 OpenAI 的 ChatGPT,提供更多图像风格和直接模型调用。而在最新测试版代码中,苹果为图乐园新增“估算延迟”(estimated latency)指标和提供商标志,用于评估不同模型的性能。目前苹果尚未公布具体的新增模型,但该媒体认为谷歌 Gemini 2.5 Flash Image(又称 Nano Banana)是热门候选。该模型因逼真还原人物特征的能力而走红,并推动谷歌 Gemini 应用在多个国家登顶 App Store。在未来版本中,用户或将体验更高质量、更丰富风格的 AI 图片生成。 -
1000亿美元!英伟达宣布投资OpenAI 9月23日消息,周一,芯片巨头英伟达与人工智能公司OpenAI联合宣布达成一项里程碑式的合作。根据协议,英伟达计划向OpenAI投资高达1000亿美元,共同建设超大规模的人工智能数据中心。这一合作旨在为OpenAI下一代模型的训练与运行提供强大的算力支持,也标志着全球AI基础设施竞赛进入了新的阶段。 千亿美元打造10吉瓦算力集群 根据双方签署的意向书,此次合作的核心目标是为OpenAI部署总容量至少为10吉瓦的英伟达计算系统。这一电力规模相当于四座胡佛水坝的发电总量,足以满足超过800万户美国家庭的用电需求。 英伟达创始人兼首席执行官黄仁勋坦言,这是一个“史无前例、庞大且复杂的工程项目”。他在接受采访时表示:“这是第一个10吉瓦项目,听起来当然像是一项巨大的工程。但毫无疑问,AI对各行各业的变革性影响毋庸置疑。” 这项合作将采用分阶段的实施策略。根据目前的安排,待双方在未来数周内敲定最终采购协议后,英伟达将先行投入100亿美元作为首期投资。硬件交付计划于2026年底启动,而第一阶段的中期目标是,在2026年下半年,利用英伟达尚未正式发布的下一代“Vera Rubin”平台,完成首批1吉瓦算力的上线部署。 据悉,Vera Rubin平台的性能预计将达到当前Grace Blackwell平台的两倍以上,后者搭载的GB300组合芯片已被业界公认为目前最强大的AI芯片。 根据黄仁勋8月在财报电话会上的披露,建设1吉瓦的数据中心需投入500亿到600亿美元,其中约350亿美元用于采购英伟达的芯片系统。以此为基准进行推算,整个10吉瓦项目的总投资规模可能将超过5000亿美元。 为了对冲此次巨额投资可能面临的风险,双方设计了渐进式的投资机制:英伟达将根据每吉瓦容量的实际部署情况分批注资,以确保OpenAI能够维持其当前的增长速度,从而保障投资回报。 在资金运作上,这笔交易采用了在AI领域颇为常见但又引发关注的“循环”安排。协议生效后,英伟达将开始认购OpenAI的无投票权股份,而OpenAI则可以使用这笔注资,反过来向英伟达采购其赖以生存的先进芯片。这种模式使得英伟达能够巧妙地将其庞大的资产负债表上的现金储备,直接转化为财报上的新收入,形成一个看似完美的商业闭环。 强强联合:战略共赢与行业重塑 对处于人工智能浪潮核心的英伟达和OpenAI而言,此次合作远超普通的商业交易,是一次深度的战略协同。这种强强联合将为双方带来多重战略价值。 对英伟达而言,此次合作具有三重意义:首先,通过股权投资全球最具影响力的AI公司,既能获得财务回报,更锁定了长期稳定的高端芯片采购需求。正如Requisite资本管理公司执行合伙人布林·托金顿(Bryn Talkington)所指出的那样,这构成了一个“完美闭环”:英伟-达向OpenAI投入巨资,而OpenAI又将这笔资金回流至英伟达购买产品。 其次,这次合作将进一步巩固英伟达在AI基础设施竞赛中的绝对领先地位。通过将最顶尖的硬件能力与最前沿的软件创新紧密结合,英伟达正在构筑一道让竞争对手难以逾越的护城河。 最后,合作消息公布后,资本市场迅速给出了积极反馈,英伟达股价应声上涨近4%,市值攀升至近4.5万亿美元,进一步巩固了其全球市值的龙头地位。 对OpenAI来说,此项合作有效解决了其发展的关键瓶颈。一方面,千亿美元级的资金支持确保了先进芯片的稳定供应,为模型迭代提供了算力保障。另一方面,作为非上市公司,与产业龙头深度绑定将显著提升其信用评级,降低融资成本。这种协同效应为其推进“星际之门”等超大规模项目创造了有利条件。 OpenAI首席执行官山姆·奥特曼(Sam Altman)在公告中指出:“万物始于算力。计算基础设施将成为未来经济的基石,我们将借助与英伟达共建的设施,既创造AI新突破,又实现技术的大规模普惠。” 行业巨震:竞争格局的深度变革 英伟达与OpenAI的“超级联盟”,或将深刻重塑整个科技行业的生态格局。 首先,这一合作向世界释放出一个明确信号:未来AI领域的竞争已不再局限于模型算法的单点突破,而是演变为覆盖数据中心、能源保障与供应链管理的系统性、资本密集型竞赛。此举势必在全球范围内掀起新一轮大规模AI数据中心建设热潮。 科技领袖如马克·扎克伯格(Mark Zuckerberg)、埃隆·马斯克(Elon Musk)等人也持相同观点,他们认为,巨额资金的投入与强大的算力支撑,将把人工智能模型推向一个全新的“超智能”时代。 其次,两家巨头的深度合作也引发了竞争对手的普遍忧虑。他们担心这种强强联合将改变行业的经济激励结构,从而削弱市场竞争。反垄断律师安德烈·巴洛(Andre Barlow)指出,该合作可能将英伟达在芯片领域的垄断优势与OpenAI在软件方面的领先地位捆绑在一起,进而显著增加AMD等芯片厂商,以及Cohere、Mistral、Perplexity、CoreWeave和Scale AI等其他AI模型开发商的竞争压力。 再次,从更深层次来看,这项合作是对人工智能持续进化、最终实现超越人类智能的一场豪赌。它预见了一个AI产品普及率急剧上升的未来,届时社会结构将因对计算能力的深度依赖而发生根本性转变。正如奥特曼所言:“这个‘超级大脑’所创造出的成果将会超乎想象,甚至可能超出我们目前的理解范围。” 然而,这一乐观愿景并非没有争议。部分持怀疑态度的人士认为,AI模型的发展可能已触及瓶颈。事实上,过去一年中,不少顶尖AI公司即便投入巨额资金,仍难以实现模型性能的显著提升。 例如,Meta在今年早些时候推迟了其旗舰AI模型的发布。面对技术挑战,扎克伯格不惜重金组建了一支价值数十亿美元的AI团队,从多家公司招募顶尖研发人才。而OpenAI发布的GPT-5模型,尽管最初被宣传为具备“博士级专家”能力,却引发了用户的广泛争议,甚至促使部分投资者重新审视他们对AI热潮的基本判断。 市场声音:狂热与观望并存 对于此次重磅合作,市场与分析师呈现出了复杂而多元的反应。 投资者用真金白银表达了对英伟达与OpenAI合作前景的看好,英伟达股价的飙升便是最直接的证明。此前,甲骨文与OpenAI达成的3000亿美元合作协议,曾推动甲骨文的市值增长约三分之一,逼近1万亿美元大关。这些案例共同表明,OpenAI已被投资者视为本轮人工智能热潮中不可或缺的核心力量。 分析师普遍认为,此举对英伟达具有积极意义,既有助于OpenAI实现其宏大的算力目标,也确保了英伟达能够深度参与这一进程。然而,他们也指出了潜在的风险与值得关注的问题。 首先便是对资金循环模式的讨论。伯恩斯坦分析师斯泰西·拉斯贡(Stacy Rasgon)等市场观察人士对此类合作安排表示关注,质疑其产生的销售额在多大程度上反映了真实的市场需求,而非仅是资本在少数巨头之间的内部循环。 其次则是对AI发展前景的审慎态度。尽管英伟达和OpenAI的高层均宣称这仅是全球AI建设的开端,但AI技术实际落地的时间表与用户采纳速度仍存在较大不确定性。奥特曼本人上月也曾公开表示,投资者对AI的热情“过度高涨”,并预测部分初创公司及投资者将“面临失败”。 尽管存在争议与不确定性,英伟-达与OpenAI的此次合作无疑已在全球AI发展史上留下了浓重的一笔。这不仅是一项商业协议,更是对未来世界形态的一次大胆构想与实践。随着合作细节在未来几周内最终敲定,全球目光将聚焦于这对“软硬结合”的超级联盟,看它们如何引领人类社会步入一个由超大规模计算驱动的新智能时代。 此外,这场豪赌的背后逻辑也值得深思。构建大规模GPU集群(常被称为“AI工厂”)的竞赛已全面拉开帷幕,英伟达在这一领域无疑占据领先地位。凭借GPU销售激增所带来的充沛现金流,这家芯片巨头正积极寻找能够持续产生回报、维持其业务良性循环的投资机会。在这种背景下,还有什么比投资于自家的大客户更好的选择呢? 与此同时,无论在用户规模还是财务表现方面,OpenAI的增长速度均远超AI领域绝大多数竞争对手。截至2025年中期,其年化收入已飙升至100亿至130亿美元,较2024年的37亿美元实现了跨越式增长。(小小) -
一切始于算力!英伟达将投资OpenAI千亿美元,两家联手建10GW数据中心 为了更大算力,奥特曼和黄仁勋再度联手。当地时间9月22日,OpenAI宣布与英伟达签署意向书并达成战略合作,OpenAI将能够使用英伟达系统(意味着数百万台GPU)构建和部署至少10GW(千兆瓦)的AI数据中心,用于训练和运行下一代模型。据介绍,OpenAI将成为英伟达AI工厂增长计划的首选算力和网络战略合作伙伴,确保英伟达系统总是能够面向OpenAI模型和基础架构软件实现最先、最好的优化效果。不仅如此,英伟达还计划逐步向OpenAI投资1000亿美元。根据分阶段投资计划,当部署第一个GW算力时,英伟达将投资10%。英伟达对OpenAI的股权投资并不赋予其控制权,OpenAI的非营利性母公司将保留多数治理控制权。OpenAI CEO山姆·奥特曼(Sam Altman)表示:“一切都始于算力,算力基础设施将成为未来经济的基础。”英伟达创始人兼CEO黄仁勋表示,从第一台DGX超级计算机到ChatGPT的突破,英伟达和OpenAI已经互相推动、共同发展了十年,此次投资和基础设施合作伙伴关系标志着下一次飞跃,推动下一个智能时代。据介绍,第一个GW算力目标将在2026年下半年使用英伟达Vera Rubin平台投入运营。英伟达和OpenAI将在未来几周确定此次战略合作新阶段的细节。 4月,黄仁勋向OpenAI交付了全球首台DGX H200。目前,每周约有7亿人在使用ChatGPT,奥特曼近期也多次表示,OpenAI需要更大规模的GPU来扩展业务,算力的短缺导致有更好的模型却没法提供。据外媒报道,得益于ChatGPT的强劲增长,OpenAI大幅上调了到2029年的预期现金消耗至1150亿美元,较先前预期的500亿美元激增了800亿美元。为控制激增的成本,OpenAI寻求开发自有数据中心服务器芯片及设施来支持其技术。7月,OpenAI深化与甲骨文公司的合作,基于“星际之门”计划新增功耗4.5GW的数据中心,结合德州阿比林市在建的首个“星际之门”基地,将使OpenAI开发中的AI数据中心总容量突破5GW,可支持超200万枚芯片运行。此处值得一提的是,在此前公布的一季度财报中,甲骨文预测其收入将在未来三年内翻一番。其剩余履约义务(RPO,已签订合同但尚未确认的收入)在三个月内增长了超过两倍,达到4550亿美元,同时还有数十亿美元的交易正在洽谈中。9月,OpenAI被曝计划与美国半导体公司博通合作,于明年生产其首款人工智能芯片,并且OpenAI计划内部使用该芯片而非向客户销售。同时,据知情人士透露,OpenAI还计划在印度建设功耗超过1GW的人工智能数据中心,并与潜在合作伙伴进行了初期洽谈,预计本月晚些时候访印的奥特曼或在行程中披露更多细节。OpenAI还同时在AI硬件领域发力。据外媒报道,“果链”公司立讯精密已获得至少一款OpenAI设备的组装合同。此外,OpenAI还与深度参与AirPods等苹果产品的歌尔股份接洽,希望为其未来产品供应扬声器模块等组件。OpenAI曾在今年1月向美国专利商标局提交了新的商标申请,涉及人形机器人、XR、智能手表、可穿戴设备等硬件设备。此前,OpenAI还宣布以65亿美元的价格收购苹果前设计总监乔尼·艾维(Jony Ive)的AI硬件公司,并为公司建立一个专注于开发AI驱动设备的部门。据知情人士透露,OpenAI计划的产品包括类似无显示屏智能音箱,以及眼镜、数字录音笔和可穿戴胸针等产品,首批设备或将在2026年末或2027年初发布。 -
花生大模型:AI识黑马 营销破圈高转化 茉莉数科集团“CES内容营销体系”+AI赋能应用系统蓝图。林敏(Monica)茉莉数科集团创始人兼CEO 在中国品牌全球化进入新阶段的当下,人工智能正成为企业营销变革的核心驱动力。茉莉数科集团(下称“茉莉数科”)创始人兼CEO林敏(Monica),作为粤港澳大湾区杰出青年企业家,正带领团队通过自研AI工具矩阵,为品牌提供从社交媒体整合营销到内容电商转化的全链路解决方案,助力宝洁、欧莱雅、安踏等国内外知名品牌实现智能升级。“在网络零售这个快速发展的市场中,AI技术正在成为决定胜负的关键因素。”Monica深刻意识到这一新趋势,并率先开启了AI技术投入和战略转型。 灵积引擎构建“内容银行”,让爆款更加科学“在营销场景下,AI到底赋予了它哪些高效的驱动和增长?我们认为,这种变革主要体现在四大核心领域:洞察与成效、组织与流程、内容与创意、媒体与传播。”基于这一判断,茉莉数科构建了覆盖三大营销场景的自研AI产品体系:面向社媒整合营销的“红数据”平台、专注于内容管理中台的“灵积引擎”,以及直播电商管理系统“豹播”。这三款产品共同形成了“以内容为原点、成交为终点"的完整营销闭环。AI如何为品牌创造真实价值,最直观的就是用数据“说话”。在直播电商领域,茉莉数科为某全球大型家电品牌打造了规模化直播管理中台。该品牌在抖音平台拥有约300个直播间,未来计划扩展至1000+。“豹播系统通过数据聚合、业务流程打通、多岗位智能排班和五大资产智能留存四大场景,帮助客户实现了管理效率与营销效果的双重提升”,Monica介绍道。在社交媒体营销方面,“红数据”平台展现出独特价值。该平台收录的达人数量超过平台官方百倍,并能通过AI识别黑马潜力达人。Monica分享了一个成功案例:“我们为某国际奶粉品牌找到了一批具有母婴属性但标签为运动健身类的达人,实现了资源与内容双破圈,显著提升了销售转化ROI。”内容创作环节同样因AI而变革。茉莉数科服务的某世界知名麦片品牌拥有超百万条内容素材,通过“灵积引擎”构建的“内容银行”,这些素材被高效复用和二次创作,最终打造出超百条爆款视频,推动该品牌短视频年度销售业绩提升7倍。 智能营销1+3+X智能营销体系升级2025年3月,茉莉数科集团自研的“花生大模型”通过国家算法备案,并于4月通过大模型备案。花生大模型作为行业垂直AI模型,比通用大模型更聚焦于内容电商整合营销领域的真实业务场景。茉莉数科打造集合多AI Agent的MIT(My intelligent Team)平台实现企业数智化运营体系升级,可以在不改变企业原有主流程的基础上,通过在业务全流程的关键节点全面接入AI工具,围绕策略制定、资源精选、执行提优、运营提效等核心业务节点,正逐步形成多AI Agent能力矩阵。“与此同时,我们针对原有成熟的大数据应用系统进行AI升级,围绕‘社媒、内容电商和内容资产’三大领域自研了三大智能中台,分别是红数据媒介运营中台、LegoMind智能内容中台和豹播直播电商运营中台,它们对应融合了媒介智能+KOX运营、内容创作与管理,以及直播电商运营的场景。”Monica介绍道。未来,茉莉数科集团将为品牌客户提供MIT AI Agent平台,三大内容电商中台、和多AI Agent的1+3+X的整合智能营销服务。 出海范式AI技术成网络零售市场胜负关键随着2023年我国网络零售市场总额达15.42万亿,社交电商与直播电商市场规模总和已超过8.3万展的市场中,AI技术正在成为决定胜负的关键因素。放眼东南亚内容电商快速的发展,茉莉数科近年来积极在新加坡、马来西亚等国家布局业务。“东南亚市场的快速增长得益于中国优秀的供应链基础”,Monica分析道,“智能科技类产品正成为出海东南亚市场的主力军。”作为广州本土企业,Monica深切体会到这座千年商都的独特优势。“广州拥有务实的文化和丰富的商贸底蕴,在东南亚市场,许多领先的电商品牌都来自广州。”相比其他城市,广州在数字创意产业方面兼具优势与挑战。“广州的优势在于扎实的产业基础和丰富的商贸经验,而在创意人才聚集方面还有提升空间。但我们相信,在这样的营商环境下,广州能够孕育出更多引领未来商业的优秀企业。”Monica说道。未来几年,茉莉数科希望打造出海渠道和模式的新范式,既帮助中国品牌走向海外,也助力国际优质品牌进入中国。“我们将继续深化AI技术在跨境营销中的应用,为全球品牌提供更智能的营销解决方案。”Monica表示,“茉莉数科将继续深化AI技术在营销领域的应用,通过智能化的工具和服务,帮助品牌在激烈的市场竞争中获得先机。我们相信,在AI的驱动下,营销行业将迎来更加高效和精准的新时代。” π谈琶洲在广州政府全方位的支持下,海珠琶洲形成了良好的产业集 群,为大湾区的优秀人才和商贸基础提供了理想的发展环境。采写:南都·琶洲π记者 钟丽婷图片:受访者提供 -
知行交通大模型:打破传统交通“数据孤岛” 佳都科技知行交通大模型全场景交通管理展示。王凯佳都科技首席AI科学家,佳都科技中央研究院院长,负责佳都知行交通大模型、交通佳鸿操作系统研发工作 近日,佳都科技首席AI科学家王凯接受南都·琶洲π专访,系统阐释了佳都在大模型时代的AI战略布局、技术突破与落地实践。在大模型技术席卷全球的浪潮中,垂直行业如何真正将其转化为生产力,成为关键命题。作为深耕“AI+交通”领域多年的领军企业,佳都科技正通过自主研发的“知行交通大模型”,推动交通系统从“智能”迈向“智慧”,并将其深度应用于广州第十五届全运会等重大场景,展现出大模型在复杂城市治理中的巨大潜力。 “专业大脑”已推出智慧交通模型大幅提升高峰期通行效率对计算机科学与技术的热爱,驱动王凯在行业前沿不断深耕。作为清华—加州理工联合培养博士,王凯以第一作者身份在A类国际期刊及顶级学术会议上发表论文十余篇。在博士毕业前,他已受邀前往十多个国家和地区进行学术报告与科研交流,活跃在科技创新的最前沿。“智慧交通不仅要知道‘正在发生什么’,更要预测‘将会发生什么’,并主动做出决策。”王凯指出,“智能交通”侧重于感知与自动响应,如信号灯调节、异常事件识别等;而“智慧交通”则强调预测、决策与自我优化能力。为实现这一目标,佳都科技推出了交通行业的“知行大模型”。它不是对通用大模型的简单增强,而是深度融合佳都20余年的交通行业数据与知识沉淀的“专业大脑”。这一大模型具备多模态理解能力,可处理文本、图像、视频等多类数据,实现对交通业务的深度理解、推理与总结,从而在智能客服、运营管控、运维管理等场景中发挥核心作用。对普通市民而言,智慧交通的提升是具体可感的。比如通过扫码、刷脸快速进出地铁站,闸机常开门模式大幅提升高峰期通行效率;智能客服:大模型驱动的客服系统可处理大部分票务咨询,减少排队等待;车驾管服务:如广州交警上线的“车管业务指南电子书”,市民可随时查询业务流程、办理要求,实现“一查便知、一站办理”。“更重要的是,大模型正在打破传统交通中数据孤岛的困境。当地铁、公交、道路交通数据、舆情数据实现联动分析,系统能基于实时客流、天气、事件等信息动态优化交通组织与运力调度,从而减少拥堵,提升整体出行体验。”王凯说道。 适配场景广州近50个试点路口信号灯全天候自适应调节面对大模型带来的技术革命,佳都科技迅速调整AI战略,提出“大模型+操作系统”双引擎发展路径。一方面,佳都持续迭代“知行交通大模型”,目前已从V1.0演进至V2.0,在车站客服、设备运维、视频分析、客流预测等场景广泛应用,并从技术验证阶段进入规模落地阶段。另一方面,2025年5月,佳都发布基于开源鸿蒙的交通行业操作系统——“交通佳鸿”,将大模型能力下沉至设备与平台底层,依托开源生态,打造更高效、更开放的3.0版本交通大模型基础设施。“行业大模型必须与行业系统深度融合,从‘用模型’走向‘做生态’。”王凯说,佳都遇到的挑战不仅来自模型本身,更来自如何将其适配到千差万别的实际场景中。如,基于预训练的视觉大模型底座,可显著降低研发新算法对数据量的依赖:“传统算法需1万个样本进行训练,而我们基于大模型底座仅需400个样本即可完成定制,算法迭代周期从1个月缩短到3天,准确率可达95%。”此外,通过对国产算力的优化和算法效率的提升,佳都提供灵活的边缘部署与云边协同方案,可根据客户实际算力与成本约束“量体裁衣”,在端侧实现大模型的高效推理与AI应用的实时响应。王凯提到信控智能体、运维智能体等已落地的大模型应用案例。信控智能体以交通信号控制平台为基础载体,借助AI技术构建“路口-路段-区域”三级智慧交通管控体系,通过全天候自适应调节,让信号灯更具“聪明”,有效提升道路通行效能。“当前,广州市五个主城区近50个试点路口已实现信控智能体24小时自适应控制,AI赋能下的交通治理成效显著:珠江新城重点区域拥堵指数高峰期平均下降约6.5%,为城市核心区域交通缓堵提供了技术范本。” 创新成果参与广州数字交通指挥系统建设备战十五运会交通管理“大考”9月8日,2025国际机场博览会暨第十届中国机场服务大会正式开幕。此次活动上,佳都科技展示了各项创新成果落地,包括IDPS城市交通大脑、数字路口解决方案等。这些成果与智慧空轨形成“互补、共通、联动”,既能为机场周边、陆侧交通疏导、数字化及智能化建设提供解决方案,也为未来赋能智慧机场整体化发展提供了可复制、通用的基础样本。面对即将到来的第十五届全运会,佳都科技承建了广州数字交通指挥系统的建设。该系统接入28类交通数据资源,融合AI大模型、大数据、三维实景、AR等技术,构建“全域感知–智能研判–精准管控–高效处置”闭环能力。该系统不仅服务于全运会,更将为广州城市交通管理提供长效助力,推动交通治理效能持续提升。王凯说,佳都科技的目标始终是让技术真正服务于人。“大模型不是炫技的工具,而是推动交通系统实现从‘感知反应’到‘预测决策’的关键跃迁。我们希望通过大模型与操作系统的结合,打造一个更高效、更开放、更智能的交通生态。” π谈琶洲做大模型是一个“扎堆”的事情,就像北京做大模型要去海淀区。如今的琶洲也逐渐形成了产业聚集的氛围,这里既有活力四射的互联网企业,也具备交流与合作的天然优势。采写:南都·琶洲π记者 钟丽婷图片:受访者提供 -
人工智能大模型在琶洲百花齐放 人工智能技术发展的成果,正以大模型的形式对外展示着魅力。在一些广为人知的通用大模型面世之后,越来越多的垂类大模型正在悄然生长,小而美。 当我们深入到大模型行业前沿观察时,会明显感受到,垂类大模型正如雨后春笋般涌现出来。在部分领域,它们已经实现了数据积累、技术落地和商业变现。这实际上在预示着我们今后的生活将向何种方向演进。 广州海珠拥有国内首个人工智能大模型应用示范区。2024年3月,广州市出台《广州市支持海珠区建设人工智能大模型应用示范区实施方案》,全力推动海珠区打造国内领先的人工智能大模型应用示范区。随后,一系列围绕着大模型发展的政务服务和产业政策相继落地,培育壮大了本地大模型企业,也吸引了不少外地企业进驻。 真金白银的产业奖补和贴近企业业务需要的备案服务,让来到海珠的大模型企业感受到实实在在的支持,也让更多的大模型企业观察到海珠发展大模型产业的信心决心。 这些努力换来了积极的发展成效,琶洲的大模型正百花齐放。最新数据显示,截至今年9月初,海珠全区已培育大模型备案项目27个,居全省首位;算法备案项148个,居全市首位;落地行业大模型项目169个。短短一年多的时间,海珠区的大模型产业已经初具规模,成为了产业高地。大模型企业用脚投票,选择了海珠琶洲,也展示着海珠琶洲的实力和潜力。 本期《琶洲π》专访了在海珠琶洲已经完成备案的人工智能大模型的相关负责人,邀请他们揭秘大模型背后的技术原理,带你走进人工智能技术的最新应用场景。我们将他们的人物故事和大模型的产品结合起来,讲给你听。 从这些文字中,你将感受到那些充满热情和勇气的创业者和研发者,在如此充满未知和希望的时刻,是如何站上时代风口,又是如何思考的。 用AI理解和制作商业视频;消化课堂内容,给出提升教学效果建议;配合视频监控,实现24小时安全巡检;引导同学进行好作文的创作……这些AI大模型,有的掌握独家数据库,有的抓住细分应用场景,先人一步地将技术转化为先进生产力。 π -
Qwen重磅发布:首个端到端全模态AI模型Qwen3-Omni登场 阿里杀疯了,Qwen团队刚刚接连发布了两款重要模型:Qwen3-Omni,业界首个原生端到端全模态AI模型;以及Qwen-Image-Edit-2509,对标谷歌nano banana 图像编辑工具,根据预告,明天还有“大的”要发布Qwen3-Omni:真正的一体化AI Qwen3-Omni的问世,旨在解决长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。它是一款真正意义上的全能选手,在同一个模型中无缝统一了文本、图像、音频和视频的处理能力 web端体验: https://chat.qwen.ai/?models=qwen3-omni-flash 抱抱脸上这个体验demo,可以直接去这里体验https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo 核心亮点:性能卓越:在36项音频及音视频基准测试中,Qwen3-Omni在其中22项上达到了业界顶尖水平(SOTA) 全球化的语言能力:模型能力覆盖广泛,支持119种语言的文本处理、19种语言的语音输入以及10种语言的语音输出极致高效:延迟仅为211毫秒,并能轻松理解长达30分钟的音频内容高度可控:支持通过系统提示词(System Prompts)进行完全自定义,满足个性化需求功能强大:内置工具调用(Tool Calling)功能,可与其他应用和服务轻松集成。开源字幕模型:同时开源了一个低幻觉的Captioner(字幕生成)模型,为音视频内容处理提供了可靠工具开源为了推动技术发展和应用创新,Qwen团队已开源了 Qwen3-Omni-30B-A3B-Instruct、 Qwen3-Omni-30B-A3B-Thinking Qwen3-Omni-30B-A3B-Captioner等多个版本,旨在赋能全球开发者,探索从指令遵循到创意任务等多样化的应用场景https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-InstructQwen-Image-Edit-2509 这是Qwen-Image升级版本,和字节前几天发布的即梦4.0图像模型一样主要是一致性上巨大提升多图编辑,无缝融合,现在,可以将“人物+产品”或“人物+场景”等多张图片拖入编辑,保持一致性同时进行推理 单图编辑,高度一致:人脸保真:无论变换姿势、滤镜还是风格,人物的面部特征始终保持一致产品保真:在广告、海报等应用中,产品能维持其核心特征,确保品牌识别度文字编辑:支持对图像中的文字进行全面修改,包括内容、字体、颜色,甚至材质纹理内置ControlNet,精准控制 深度、边缘、关键点……Qwen-Image-Edit-2509内置了强大的ControlNet功能,让用户可以即插即用,实现对图像生成的精准控制 qwen的发布博客里有详细清晰的示例,大家可以去看看: https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list -
英伟达砸1000亿美元助OpenAI建10GW数据中心 英伟达为科技企业的人工智能(AI)基础设施建设狂潮又添了一把火。美东时间9月22日周一,英伟达与OpenAI宣布,签署意向书确立达成战略合作,OpenAI将借此利用英伟达的系统打造和部署至少10千兆瓦(GW)的AI数据中心,使用数百万块英伟达的图形处理器(GPU)训练和部署OpenAI的下一代AI模型。为支持上述里程碑式的战略伙伴关系,英伟达计划对OpenAI投资最高1000亿美元。这是英伟达迄今为止做出的最大手笔投资承诺。这笔投资将随着每1GW系统的部署逐步到位,首个1GW容量的英伟达系统计划于2026年下半年上线,采用英伟达Vera Rubin平台。投资OpenAI大规模部署数据中心的消息公布后,周一盘初曾跌1.1%的英伟达股价迅速转涨并在美股午盘之初拉升,午盘涨幅曾扩大到4%以上,刷新日高时涨4.5%,收涨逾3.9%,创收盘历史新高,盘后小幅回落。 “巨大”项目 10GW相当于多达500万GPU英伟达CEO黄仁勋称与OpenAI的合作规模巨大,它凸显了英伟达与OpenAI之间的紧密联系。黄仁勋周一对媒体透露,10GW的容量相当于400万至500万块GPU。这等于英伟达今年全年的总出货量,“是去年的两倍”。他说: "这是一个巨大的项目"。 黄仁勋此前在财报电话会议上说,建设1GW数据中心容量的成本在500亿至600亿美元之间,其中约350亿美元用于采购英伟达芯片和系统。按此计算,10GW项目的总投资规模将达到数千亿美元。OpenAI目前拥有超过7亿的周活跃用户,其ChatGPT服务需要密集的计算能力支撑。OpenAI的CEO Sam Altman上周日在社交媒体表示,OpenAI将在未来几周推出一些新的计算密集型产品,由于相关成本较高,部分功能初期仅向Pro订阅用户开放。双方高管表态积极Huang在与Altman和OpenAI总裁Greg Brockman的联合采访中表示: "英伟达和OpenAI相互推动了十年,从第一台DGX超级计算机到ChatGPT的突破。这项投资和基础设施合作伙伴关系标志着下一个飞跃——部署10GW(算力)来推动下一个智能时代。" Altman在声明中强调:"计算基础设施将成为未来经济的基础,我们将利用与英伟达共同建设的基础设施来创造新的AI突破,并大规模赋能个人和企业。"他还表示,“在接下来的几个月里,各位应该对我们抱有很大的期望”。OpenAI必须在三个方面表现出色:进行出色的AI研究、制造人们想要使用的产品,以及解决前所未有的基础设施挑战。Brockman表示:"我们从OpenAI早期就与英伟达密切合作,利用他们的平台创建了数亿人每天使用的AI系统。我们很兴奋能与英伟达部署10GW的计算能力,推进智能前沿并将这项技术的好处扩展到每个人。"战略意义与市场影响这笔投资对英伟达而言具有重要战略意义。Requisite Capital Management管理合伙人Bryn Talkington向媒体表示:"英伟达向OpenAI投资1000亿美元,然后OpenAI再把钱交还给英伟达,这对黄仁勋来说将是非常良性的循环。"该合作有助于英伟达确保其设备在AI系统建设中保持核心地位,特别是在OpenAI正涉足硬件领域包括自研芯片的背景下。保持OpenAI作为主要客户,可能帮助英伟达在行业考虑竞争对手组件时巩固其市场地位。黄仁勋表示,本周一公布的投资是"对已宣布和签约的所有项目的补充",暗示这超出了公司此前向华尔街披露的财务预期范围。新泽西理工学院数据科学研究所所长David Bader评论称,此次宣布合作的时间表明,英伟达“在地理位置(供应链)和战略层面(AI价值链)进行多元化布局”,“这更像是基础设施建设,而非投机行为。” Bader还说: “此次合作表明,AI基础设施已发展成为一个成熟的资产类别。我们正目睹AI技术栈垂直整合的趋势——从芯片到训练再到部署。英伟达不再仅仅是硬件供应商,而是成为其所推动的AI经济生态系统中的重要合作伙伴。” Altman称英伟达和微软是最重要合作伙伴这项合作体现了英伟达近期积极的投资扩张策略。上周,英伟达宣布对英特尔投资50亿美元,并宣布两家公司将在AI处理器方面合作。英伟达还向英国数据中心初创公司Nscale投资近7亿美元。上周媒体报道称,英伟达还花费超过9亿美元,聘请AI初创公司Enfabrica的CEO Rochan Sankar及其他员工,并授权该公司的技术。对OpenAI而言,这项合作补充了其与微软、甲骨文、软银和Stargate项目合作伙伴的深度基础设施建设工作。在最近的二级市场交易中,投资者对OpenAI的估值达到5000亿美元,微软、软银和Thrive Capital等都是其投资者。Altman在媒体采访中将英伟达和微软都称为OpenAI的“被动”投资者和“最重要的合作伙伴”。本周一英伟达和OpenAI的公告未透露1000亿美元投资的时间表等细节。两家公司表示,期待在未来几周内敲定这一新阶段战略合作伙伴关系的细节。 -
DeepSeek发了“终极版”! 智东西 作者 陈骏达 编辑 李水青 DeepSeek又更新了!智东西9月22日报道,今天晚间,DeepSeek在其官方API平台发布了最新升级的DeepSeek-V3.1-Terminus模型(Terminus拉丁语意为终点、界限),并在不久后宣布模型开源。官方文档中称,DeepSeek-V3.1-Terminus在保持模型原有能力的情况下,改进了语言一致性、偶发异常字符等DeepSeek-V3.1上线后出现的Bug,还进一步优化了编程和搜索智能体的表现。 DeepSeek官方在微信公众号放出了新旧DeepSeek-V3.1的基准测试对比。可以看到,在非Agent类的基准测试中,DeepSeek-V3.1-Terminus比DeepSeek-V3.1实现了0.2%-36.5%不等的表现提升,不过也有些测试成绩出现小幅度下滑。DeepSeek-V3.1-Terminus在HLE(人类终极测试)上的性能提升最为明显,这一测试主要考察专家级的高难度知识和模型的多模态、深度推理等能力。 而在Agent测评中,DeepSeek-V3.1-Terminus网页浏览、简单问答和多项编程测试中的表现出现小幅提升。DeepSeek官方App、网页端、小程序与DeepSeek API模型均已同步更新为DeepSeek-V3.1-Terminus。智东西第一时间调用DeepSeek-V3.1-Terminus的API进行了体验,尝试复现此前的多个Bug,并体验模型的最新性能。开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminushttps://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus一、两大神秘Bug消失,DeepSeek-V3.1终于不犯糊涂了 今年8月,DeepSeek-V3.1上线后,有用户反馈在用API调用模型时,会偶尔出现一个严重Bug:模型会不受控地随机输出“极”、“極”、“extreme”等字样,严重影响日常使用,如果未经仔细检查就使用含有这一Bug的代码,很可能导致编译失败。 ▲DeepSeek-V3.1的“极”字Bug(图源:知乎@Fun10165)智东西调用了最新的DeepSeek-V3.1-Terminus API,尝试复现上述问题。网传能复现这一问题的“高危”提示词包括要求模型写Go语言、完成版本号相关任务、处理时间等。不过,DeepSeek-V3.1-Terminus在测试中并未因上述提示词而出现Bug,也就是说,这一问题应该已经被修复了。 ▲DeepSeek-V3-Terminus没有因“高危”提示词而产生Bug也有海外用户反映,此前的DeepSeek-V3.1存在多语言的问题,尤其是在翻译小语种时。这位Reddit网友分享,DeepSeek会把中、英、俄三种语言混用,问题文本的比例有时能达到5%。 ▲网友分享DeepSeek-V3.1多语言混用问题(图源:Reddit @Kitano_o)智东西尝试着让DeepSeek-V3-Terminus将这句话翻译为7种小语种:“人工智能正在改变我们的世界,它带来了巨大的机遇,也需要我们认真思考其挑战。”DeepSeek-V3-Terminus的回答没有出现语言混杂问题,看来这一Bug也被修复了。 二、小球弹跳效果惊艳,还能快速交叉搜索信息 除了Bug的修复之外,DeepSeek-V3.1-Terminus还有一大值得关注的地方是其编程和搜索智能体能力的提升。编程任务上,智东西让DeepSeek-V3.1-Terminus尝试了小球弹跳,结果如下。模型输出的网页采用了简约风格,不过,模拟的重力、摩擦力效果十分逼真。要打造这样的效果,模型不仅需要有很强的编程能力,也需拥有对物理学的理解能力。 这一模型打造的动画效果也不错,轨迹和碰撞都比较自然: 在搜索智能体能力方面,我们让DeepSeek-V3.1-Terminus推荐了几款适合新手阳台盆栽的植物。这一测试考察模型能否找出完全符合“阳台盆栽”、“生长快”、“可生食”、“对儿童安全”所有条件的植物。此外,模型也要交叉验证信息的可靠性,并进行整合提炼和风险提示。可以看到,DeepSeek-V3.1-Terminus给出的答案考虑十分周全,经人工核查事实无误,可读性也不错。 结语:DeepSeek-V3.1,迎来终极版? DeepSeek-V3.1-Terminus中的“Terminus”,在拉丁语里是“终点”或“界限”的意思,我们试着让DeepSeek自己对这一命名给出了解读。DeepSeek称,这一命名可能象征着DeepSeek-V3.1是这个系列架构的终极版本,代表了当前技术路径的成熟和完善。 也有网友认为,Terminus可能意味着模型在编程终端里的表现更好了。不过,正如DeepSeek所言,具体的命名寓意最好还是官方来解释更为准确。此前,外网有媒体报道称,DeepSeek今年年底即将推出Agent模型。或许,DeepSeek的下一次重大更新,已经不远了。 -
网红"蓝战非"称年入至少9位数:你们不知道顶流多赚钱 近日,博主“蓝战非”自曝收入引发热议,其称“你们是真的不知道抖音顶流有多赚钱,你说我要是全身心商业化,那我一年天文数字,九位数都小看我了。”第三方数据显示,“蓝战非”一平台粉丝数量达2478.8万,近30天涨粉超61万,商业化水平显示其1-20s、21-60s、60s以上视频广告报价均150万。此外据企查查信息显示,“蓝战非”名下关联7家企业,2家存续,其名下多家企业于今年注销,包括天津市滨海新区云账户蓝战非文化传媒工作室、长沙仓鼠文化传媒有限公司等。9月22日,话题“蓝战非自曝收入”登上微博热搜榜单。22日中午,“蓝战非”发文称:“好久没玩微博了,这句话我是很久之前讲的,现在空降热搜第一,我这都要被网暴吗?” “蓝战非”发文截图第三方数据显示,“蓝战非”某视频平台粉丝量达2478.8万,近30日涨粉超61万,商业化水平显示其1S-20S、21S-60S、60S以上视频广告报价均为150万。 “蓝战非”某视频平台粉丝量达2478.8万此外,记者从天眼查了解到,“蓝战非”名下关联7家企业,仅2家为存续状态,其余5家企业已注销。经营风险信息显示,今年7月,长沙蓝北文化传媒有限公司因未依照规定的期限公示年度报告,被长沙市雨花区市场监督管理局列入经营异常名录。 “蓝战非”名下关联企业据悉,“蓝战非”,1992年8月17日出生于广东云浮罗定,曾为熊猫直播、斗鱼直播平台游戏主播。现为游戏主播、旅游博主。“蓝战非”曾是ACE战队队长,英雄联盟S1-S3国服王者,擅长中单。2014年退役后,于斗鱼开启直播。2018年,“蓝战非”在熊猫TV《绝地求生》直播走红,订阅超200万,人气峰值达300万;7月,在抖音首发的短视频《兄弟,鼻涕擦干净再和我开黑》获37.1万点赞(截至2025年1月16日)。2019年1月1日,“蓝战非”转至斗鱼TV直播。2023年,他环游中国多地,游历湘西、张家界、拉萨等地。2024年8月2日,“蓝战非”宣布继续环球旅行,首站为纽约;11月27日,“蓝战非”发布视频记录南极之旅,获得了超过800万点赞。 “蓝战非”社媒截图记者查询发现,仅抖音平台,“蓝战非”拥有2479万粉丝,获赞超1.5亿;其近期发布的多条旅游视频,点赞均突破百万。来源:百姓关注综合九派新闻、大河报、封面新闻、当事人社交账号 -
国网泌阳县供电公司:“AI助手”应用 工作更便捷 大象新闻记者 周文德 司赵琦 通讯员 梁震9月17日,国网泌阳县供电公司数据中心人员到运维检修部输电班了解国网AI助手在工作中的实际应用情况。 在数据中心人员持续推广指导下,AI助手逐渐运用到日常工作中。9月15日,运维检修部人员对10千伏漫街线象曹分支进行线路清障工作,现场工作结束后,需要把工单及现场工作情况照片发送至内网存档。由于是手机拍照,照片在外网,以前都是回到单位后再用U盘在内、外网来回拷贝完成,很麻烦。现在大家逐渐学会了用AI助手的“拍一拍”功能,打开AI助手将照片上传,不需要借助优盘和外网电脑,即可直接发送至内网邮箱,随时随地发送,AI助手在工作中的作用是实实在在的。下一步,国网泌阳县供电公司数据中心将继续推广AI助手应用,并结合各部门的工作属性,为他们做更加细致的实操教学,让员工感受到数字化应用给工作带来的便利。 -
亚马逊开建AGI实验室,一号位也是华人 Jay 发自 凹非寺 量子位 | 公众号 QbitAI 靠电商和云计算席卷全球的亚马逊,正在借这一波Gen AI浪潮,续写新的故事——过去,它的AI战略定位是做基础平台,用户可以通过Amazon Bedrock获得全栈式服务。但大家可能不知道,去年9月,它在旧金山成立了自己的AI实验室,Amazon AGI SF Lab(以下简称亚马逊AGI实验室)。这标志着亚马逊的重大转型:从基础设施,转向更具雄心的AGI研发。而且,这个实验室的一号位还是名华人。大佬叫David Luan,已有15年的AI相关工作经验。他是OpenAI的早期员工,曾做到工程副总裁,参与过GPT-2、GPT-3、CLIP和DALL·E等多个重要项目的研发。论资历,Luan绝对算市场中的老炮。 实验室怎么来的? 亚马逊之所以决定成立一家AGI实验室,主要是受AGI时代这柄双刃剑影响。一方面,如果Agent成了新的交互形态,人们不再亲自上网购物,那亚马逊依托于电商生态的广告和佣金业务,显然岌岌可危。但硬币的另一面是机会。作为数字化的鼻祖,亚马逊掌握着海量且极具价值的用户行为数据:用户的浏览路径、他们对促销、评论和页面布局的敏感度,以及不同群体之间的相似性。如果能把这座数据金矿挖掘到位,亚马逊完全有能力打造一个真正实用的模型,摘下那颗低垂的Agent果实。正是在这样的背景下,2024年6月,亚马逊反向收购雇佣了Adept AI。 △亚马逊内部邮件 “反向收购雇佣”指大科技公司不实际收购热门AI初创公司,而是争取初创公司的技术授权,吸纳其核心团队加入,但初创公司本身仍作为独立个体存在。这桩收购无疑是个大事件。收购完成后,亚马逊当即将重任交到时任Adept AI CEO的David Luan手中,并以他为首成立了亚马逊AGI实验室。量子位一通深挖,发现这个实验室真的是高手云集——首先,实验室的一号位,华人David Luan,毕业于耶鲁大学应用数学与政治科学专业。6岁时,Luan跟随家人从中国搬到了美国。从小,他就对计算机抱有浓厚兴趣,并且行动力惊人。8岁起,Luan就开始在伍斯特州立大学修读夜校项目,5年苦读后,终于拿到了学校颁发的计算机科学证书。 而且Luan的AI职业起点相当早:2011年,Luan就创办了一家深度学习公司,专注于视频分类技术。这项成果后来被奥巴马政府用于改进执法记录仪。此后,为了追逐AI最前沿,Luan开始在多家知名AI企业之间辗转。2018年,他加入OpenAI。当时,OpenAI团队规模还不到四十人。不久,他升任工程副总裁,他的任务不是写论文,而是将GPT-2、GPT-3等研究成果变成工程产品。 △GPT-2论文 2020年,Luan转至Google Brain,担任大语言模型项目的总技术负责人,聚焦于融合研究与工程的大型项目。但1年后,他就离开了谷歌。原因是他认为谷歌很多精力都分配在了广告和搜索相关的业务上,很难从零开始开展新的研究路线。而且大公司组织架构分散,难以集中发力。 当时在谷歌,每个人有限定的资源credit,要跑一个庞大训练任务,你得说服19、20个同事把这些资源让给你。 离开谷歌后,他开始凭借自身专业的AI知识为公司提供咨询服务。直到2022年,他才再次出山,和两位Transformer作者(Ashish Vaswani和Niki Parmar)联合成立了Adept AI。再后来,就是加盟亚马逊了。从上述经历不难看出,Luan的实战经验可谓相当厚实。聊完Luan,我们再来看看亚马逊AGI实验室的其他人——亚马逊AGI实验室的二把手是加州大学伯克利分校教授Pieter Abbeel。 Abbeel是强化学习和机器人学领域的专家,带领团队在Deep Q-Learning、模仿学习、自我博弈等方向上都做出过奠基性贡献。谷歌学术显示,他的论文被引量超过了21万。 加入亚马逊之前,他是一家专注于仓储和物流场景下的机器人拣货初创公司(Covariant.ai)的联合创始人。这个场景,正好击中了亚马逊的业务核心。2024年8月,也就是Adept被收购不久后,亚马逊同样通过“反向收购雇佣”的方式,将Covariant纳入麾下,Abbeel随之以研究员身份正式加入亚马逊AGI实验室。此外,当时跟着Luan一起搬家到亚马逊的,还有四名Adept AI的联合创始人。第一位是Erich Elsen。Erich在斯坦福机械工程系拿下博士学位,是GPU计算的专家。他曾在DeepMind担任资深研究员,参与撰写了包括多篇高被引论文,代表作包括Chinchilla定律、稀疏矩阵GPU内核。加入亚马逊AGI实验室后,Erich负责多模态代理和强化学习基础设施。 负责产品的是Kelsey Szot。她拥有斯坦福数理与管科双学位背景,曾在麦肯锡做咨询顾问、在谷歌负责大型模型生产基础设施。2022年,她联合创立Adept AI,主导了ACT-1与Fuyu-8B等模型的产品化。 最后还有Maxwell Nye和Augustus Odena这对好哥们(他俩就连在简历里也不忘提对方的名字)。 △Augustus Odena(左图)和Maxwell Nye(右图) 这对黄金搭档曾在谷歌共事,参与提出了Scratchpad,这一方法如今被视为现代AI推理系统的基石。不过,他俩在加入亚马逊不久后便选择离开了。两次反向收购雇佣、大量招揽顶尖人才……可以说,为了组建这个AGI实验室,亚马逊下了不少力气。 让David Luan当一号位,凭什么? 亚马逊AGI实验室人才济济,David Luan到底有怎样的过人之处,才成为了亚马逊这支秘密队伍的领头羊?之前我们已经提到,Luan自2011年便开始创业,除了先后加入微软、OpenAI、Google外,他还是一位连续创业者。但要知道,Luan的优势不仅体现在专业能力,还在于他的战略眼光。早在2022年——ChatGPT问世之前,入局AI创业的Luan就有一套自己的想法:想办法让AI干活。 我们创办Adept AI时,就发现大模型真挺擅长说话的,但没什么行动力。 因此,他将目光投向了Agentic AI,并成立了当时的第一家Agent公司——Adept AI。2022年9月,Adept AI发布了首个Agent模型,ACT-1。这个模型能够通过自然语言指令执行屏幕任务,如在浏览器中导航、填写表格和操作软件。当然,在今天看来这些能力好像已经并不新鲜。但朋友们啊,ACT-1是三年前的产物!别说如今爆火的Agent了,就连ChatGPT都还没影子呢。 Luan认为,计算机应该去适应人类,而不是让人类去适应计算机。因此,Adept也一直采取着这种以人为中心的方法论。成立不到一年,Adept AI便完成了超4亿美元的融资,一举成为当年融资最成功的AI初创公司之一。加入亚马逊,给AI搭“健身房”说起来,Adept干得风生水起,核心团队为啥后来要接受被并?主要有两点原因:首先,亚马逊坐拥全球最顶尖的算力基础设施之一,这是小公司无论如何都难以企及的。而对于AI行业来说,算力正是决定模型进步快慢的发动机。因此,想要前往智能的前沿,必须搭乘拥有发动机够猛的“跑车”。其次,亚马逊还能提供稀缺的真实数据。经过这么多年的挖掘,互联网上的高质量数据已经快要枯竭了,大模型发展因此开始减速。事到如今,人类在日常工作中的实际操作数据成为了高质量的稀缺训练数据。AI大神Andrej Karpathy对此曾做过一个类比: 想象你要训练一个打网球的智能体,你肯定不能让它99%的时间都在看YouTube网球视频,只用1%的时间真正上场打球。 在Luan看来,亚马逊业务范围极广,“几乎每个500强企业在现实里开展的核心业务,都能在亚马逊内部找到类似的事情”。这些能产生大量真实数据的内部环境,是Agent的最佳训练场所。 还有一个最关键的原因,那就是Luan不甘心只是做一个提供AI销售服务的小公司。 在我的整个职业生涯中,我只想构建最智能、最有用的人工智能。 因此,2024年,Adept AI与亚马逊达成反向收购雇佣,Luan带着团队里最核心的技术人员一起加入了亚马逊AGI实验室。今年年初,亚马逊AGI实验室发布首个产品——Amazon Nova Act,一个基于亚马逊内部最强自研AI Amazon Nova延伸出来的Agent模型。 它继承了Adept AI的技术遗产(ACT-1、Fuyu模型等),又结合亚马逊的AWS基础设施,在多步骤复杂任务上表现出色。根据亚马逊官方披露,Nova Act在Agent的公开基准测试ScreeSpot和Ground UI上取得了不错成绩。并且在ScreeSpot界面元素定位上的表现格外优异,准确率接近94% 亚马逊AGI实验室透露,这里面的秘诀在于强化学习。 我们在亚马逊AGI实验室做的是大规模自我博弈。十几年前,DeepMind靠这种方式击败了人类。 亚马逊AGI实验室没有靠人力去给每一个操作编码,据Luan所说,他们为AI搭建了一间“健身房”。在这间健身房里,随处可见各种常用的“健身器材”,比如ERP、CAD、电子病历系统、会计软件等。AI可以利用这些工具,通过强化学习自己摸索出正确的使用方式。没想到,人工智能也需要健身了。(手动狗头)看来,加入亚马逊AGI实验室后的Luan仍然谨记实用主义的信仰,一心只为打造最有用的AGI。 One More Thing 最后,八卦时间~Adept AI最初的3名核心发起人,一位是David Luan,还有两位都是Transformer八子之一。一位是Niki Parmar,另一位是Ashish Vaswani。不过,Vaswani不到一年就离开了。 △从左到右:Niki Parmar, Ashish Vaswani, David Luan 据彭博社爆料,Vaswani离开的原因是与Adept AI的某位联合创始人意见不合。已知:Vaswani离开Adept AI时,Parmar跟着一起离开了,两人后来又联合成立了Essential AI。求:和Vaswani意见不合的,会是谁呢?参考链接: [1]https://www.theverge.com/decoder-podcast-with-nilay-patel/761830/amazon-david-luan-agi-lab-adept-ai-interview [2]https://www.youtube.com/watch?v=AU9Fdgs0ZaI [3]https://labs.amazon.science/blog/amazon-opens-new-ai-lab-in-san-francisco-focused-on-long-term-research-bets [4]https://www.wired.com/story/amazon-ai-agents-nova-web-browsing/ [5]https://www.linkedin.com/in/jluan/details/experience/ [6]https://x.com/jluan/status/1267097243204476932 [7]https://www.latent.space/p/adept [8]https://labs.amazon.science/blog/nova-act