3月底, 我们来到深圳,参加了全球首届线下具身智能基础模型真机操作黑客松。
在一群00后极客、学术圈大咖及产业核心公司代表中,我们看到了一条清晰的发展路线:机器人开源生态正集中多方力量,从机器人模型,数据集到开发者生态,快速将全行业向前推进。
在一群00后极客、学术圈大咖及产业核心公司代表中,我们看到了一条清晰的发展路线:机器人开源生态正集中多方力量,从机器人模型,数据集到开发者生态,快速将全行业向前推进。
![]()
这次由自变量机器人联合主办的开发者大会创下了三个“第一次”:
第一次全部任务在真实物理场地完成,摒弃仿真环境测评;
第一次极低延时全链条采训推平台:从数据采集、模型训练到真机部署,全部在三天内完成;
第一次全变量控制测评,参赛队伍无法依赖预设参数,必须具备真正的环境自适应能力。
这对团队的算法和系统能力来说,是一次非常硬核的极限考验,简单来说,主办方想让具身模型比赛回归真实世界。
![]()
硅谷101联合创始人陈茜也在大会的最后一天主持了一场专家论坛,就模型路线,数据和产业落地等核心问题与行业大咖们进行了一场深度分享。
以下是这场论坛的精彩观点:
01
蓬勃的开源社区
数据、模型及评测
陈茜,硅谷101联合创始人:
最近开源算法中最重要的一些新变化都有哪些?
苏治中,地平线机器人实验室负责人:
机器人相比大语言模型、视频生成模型,是一个系统工程,包含数据采集到真机部署的多个环节,复杂度和门槛更高。如果没有开源工作,工业界和学术界的发展会慢很多。工业界层出不穷的面向场景的具身企业可以基于开源工作快速做场景验证。学术界,高校学生基于开源工作,能够接触更前沿的研究并得到更好的训练,工作后上手也会更快。因此,开源对具身行业的推动比其它行业更为重要。
趋势方面,除了模型和数据,具身的训练流程和数据配方正变得越来越复杂,从预训练到后训练再到强化学习,每个环节都很重要,因此之后全链路的配方会是开源里很重要的一部分。
陈茜,硅谷101联合创始人:
目前的一些机器人领域的开源,包括数据,都是不开放的,你觉得之后的开源会越来越开放吗?
![]()
苏治中,地平线机器人实验室负责人:
过去大家在开源时一方面有所保留,另一方面很多东西不是那么成熟,没到让开发者轻松上手的程度。现在随着Vibe Coding火热,上手的门槛在下降,大家做的东西也更成熟更适合开源了。此外行业竞争也变得越来越激烈,各家都需要通过更丰富的开源来扩展生态或者建立品牌,所以开源的趋势会上升。终局怎样现在不好讲,企业要根据其商业化的进展开判断开源的程度。
甘如饴,自变量合伙人、算法负责人:
开源对不管产业还是企业界都是互利的过程。因为大语言模型(LLM)的数据一开始就是巨量的,但机器人面临的问题就是你要做真机(数据),但又非常昂贵。那怎样得到这么多的数据?所以你会看到,这一波具身开源里,数据的开源反而是最开始出现的。
第一个动力有点像ImageNet出现的时候,大家还没有收敛到非常先进的技术路线上,所以愿意把各种各样的多模态数据开源出来,让学界、产业界都能在此之上做探索。
第二个动力就是现在的模型结构,它的训练方式并不是完全确定的。当然,我觉得端到端这个路线一定是要坚持、而且是正确的路线。但具体怎么去设计模型的结构,设计什么样的函数压缩数据,这其实是大家要做的。
第三个动力就是评测,到底谁的模型好用?谁的模型不好用?拿我们自变量的这次比赛来说,大家会去尝试多种模型,也让大家更切实地感受,不是停留在某一个榜单,而是停留在线下的真机评测上。
田明,阿里巴巴达摩院具身平台产品负责人:
一个大的产业革命,一般都会分为三个典型的周期阶段,第一个就是生产力的革命,第二个就是生产关系的重塑,第三个就是制度和秩序的形成。
我们现在在第一阶段就是生产力这个革命的早期的这样一个阶段,共识非常没有收敛,这个时候开源意味着什么?我心中的答案是:开源即共识,共识即价值,在未来的这个时代形成共识本身就是价值的体现,主要是对增量市场的变化、对于竞争的变化、对于内部的变化三层。
第一,增量市场的变化,尤其是任何颠覆式创新的早期,都是一个待开拓的阶段,我们通过开源可以快速的把我们这个赛道的蛋糕做大,把声量打出去,然后吸引更多的利益相关者,大家在这个里面形成一个生态。
第二,竞争的价值,首先我们会把我的开源水平以下的中长尾这些能力全部都清场掉,然后提升了市场的集中度,就避免重复造轮子,然后同时开源对于头部的,比如说闭源的冲击也是比较大的,因为我整合了更多的利益相关者,然后有更多的开发的思路,然后我要通过更多的市占率,来挑战(巨头),就比如说现在苹果手机可能只市占率10%,但其实开源安卓手机还是更大的规模。
第三,开源对于团队内部的影响是什么?第一就是我们更快地确认迭代方向,第二是我可以聚合更多的开发者,这也是说开源一定要做生态,在这个阶段对具身智能来说是非常重要的,因为在现在数据也不收敛、数据范式也不收敛、模型也不收敛、应用场景也在探索。所以未来趋势很明确,现在做模型的厂商看上去有很多,接下来一段时间肯定包括像阿里我们自己做的具身大脑的rebrain,还有我们的 VLA 这个系列全部都开源,我会很快的把市场的集中度逐渐的收上来,从而让像自变量这样一些非常优秀的明星企业和我们大厂之间,大家快速的形成更多的共识,这个就很帮助。
吴昊天,美团高级总监、无人机硬件研发负责人:
现阶段闭源会多一些,永远闭源吗?应该不会,人类社会进步本身就是建立在开源知识积累上面的。未来的商业价值创造应该80%都基于开源的,20%是闭源的,但是从价值攫取来讲,20%攫取80%的利润。只有这样,行业才能站在巨人肩膀上爬一节, 创造增量价值。大家可以参照英伟达CUDA及其开源软件生态,解决很多应用基础构建问题,但是开放的软件生态却催生5万亿市值的芯片生意。这是从我们现在存量的商业模式和案例中,理解开源和闭源的路径怎么走及其重要性。
具身智能在商业中应用体量并没有起来,技术也没有完全收敛,现在可能还不是讨论开源闭源的时候。现在开源、闭源还是从公司投资的角度来思考的,随着行业的发展,必然会出现巨头开源,有非常少部分的增量Knowhow将会掌握在少部分公司手里。
02
VLA模型挑战
算力、数据与泛化性
陈茜,硅谷101联合创始人:
现在 VLA 模型最大的进步以及面对的挑战和瓶颈分别是什么?
苏治中,地平线机器人实验室负责人:
VLA的主要问题包括算力和带宽开销大,空间感知能力弱,单帧的state到action的映射,模态局限等。其它路线目前最流行的是WAM,WAM有更好的视觉编码器,对未来的想象可以帮助到动作生成,但也存在重建像素代价高,不能很好的理解物理规律等问题。不管是VLA还是WAM,都是在借用当下AI行业中智力和算力投资最大的两个领域,即多模态大模型和视频生成模型的产出,是一个搭便车行为。这两个领域都很受关注,有较大的收入预期因此投入也大。但作为一个具身模型的底座,像前面提到的,它们各有各的问题。我非常期待具身智能领域能够去构建更好的、真正面向具身的底座,有更好的3D空间理解能力和对物理规律的理解,这样才有潜力推动具身技术变革。
![]()
甘如饴,自变量合伙人、算法负责人:
一个新的方向出来,出现了很多卖铲子的人。大家首先瞄准的就是数据,怎么样去解决数据效率和数据成本?这是在落地的过程中比较现实的一个问题。
产业真的应用我们模型的时候,我们希望我们的机器人、模型能够做多种任务。这需要更多的数据,更好的模型结构设计,更好的loss函数的设计,这也是现在落地面临的比较大的问题。
最后在路线这一块,我们觉得可能有几个方向是可以探索。首先在输入层面,我们在想如何能把更多的模态的信息能加入到我们模型里面去。因为做很多操作的任务,跟纯粹的语言模型不太一样,比如当我们去捏一个鸡蛋的时候,它可能需要一些触觉的信息,而不是视觉的信息。这时候怎么样把这些不同的模态、不同的频率的输入,能够跟现在的动作和视觉整合在一起,这是一个比较关键的问题。
第二个就是输出层面,就不管是World Model(世界模型)还是VLA,大家都在探索一个更有效的loss函数。比如是只输出动作,还是不仅有动作,还有视觉、视频、3D、触觉力控。是以离散的方式还是以连续的方式输出动作?这也是其中非常重要的一个路线的探索。这也是为什么我们办这个比赛,我觉得所有的路线都需要一个非常好的评测,然后才能决定我们的迭代方向到底是什么,而不是我们只是论文上的一次小的视频的展示。
田明,阿里巴巴达摩院具身平台产品负责人:
我首先觉得自变量的模型我个人的评价确实非常高的,在过去6个月,我至少接触了80家行业中的各个伙伴,我个人还是非常欢迎自变量基于实证主义的很多模型的探索。
我今天思考的问题就在于,我们对于VLA模型有什么样的期待?它要解决的问题是在一个复杂、连续、高维的真实世界中的立体的操作接触类问题,不同于自动驾驶是平面移动的避障问题,也不同于数字AI是一个在线闭环做学习的问题。
我们发现供给侧它一定是个复杂系统工程问题,而绝对不会是单个模型的问题。如果收敛到用模型去解决这个问题,我认为应该是一个从System 2的慢思考到System 1的快思考,再到System 0的及时反应的大模型的流程。
具体而言,比如说System 2的核心就是要解决机器人任务中,在复杂的时空信息里面的定位、计数的问题,以及这一层跟上面的agent工程层,我们的存储系统是怎么设计的?
再往下是System 1,现在传统的范式的好处在于我们希望能够垂直地打穿一个问题,通过预训练VLA加RL(强化学习),不仅做到能准,还能做到快。在RL中,我可以把执行效率作为它的一个优化目标。
其中我们现在最关心的是视频的action model(动作模型),我当然希望视频生成能够解决泛化性。有个说法叫莫拉维克的悖论,就是今天我掉了两个手指头,我仍然知道用剩下的三个手指头怎么抓东西,但机器人今天一改它就不行。所以我们现在非常关心的是这部分如何快速规模化。
System 0的引入我认为是非常必要的,就是我们说的一千赫兹的快速的触觉,最近像Sharpa等其他的公司也在做。因为有时候机器人的摄像头可能会被遮挡一部分,而触觉其实不但能提升它的操作的效率,关键是在有遮挡的情况下,还是能够去完成这个任务,并且有一个及时反应能力,所以我认为VTLA (Vision-Tactile-Language-Action,视觉-触觉-语言-动作模型) 的这个部分一定是我们要在模态这个角度上去考虑的。今年我非常关注的就是如何把Human-centric(以人为本)的数据去做预训练的scaling(规模化),然后再去垂直的做一些优化。
吴昊天,美团高级总监、无人机硬件研发负责人:
在我们业务当中,主要是在分拣打包的场景会使用,是个具身操作的问题。我们也会用VLA,但是用完了之后会面临一个重大问题,
比如我们的小象超市,里面有很多SKU互相叠在一块,首先你看不清,二是每个SKU之间它的材质所需要的抓力也是不同的。我们这个模型,目前现在还达不到这样的对多种SKU以及多种动态环境的实用性,这是我们现在目前遇到的一些问题。
大家认为WAM(World Action Model,世界动作模型)可能是一个趋势,但是现在的问题不是没有数据,而是数据质量和数据规模。而且获取数据的方法,现在的模态也没有归一起来,现在我们的设备也都比较贵,很难在真实的应用场景当中去获取数据,这是我可能我们面临的一个重大的问题。
所以我认为模型架构收敛的前提在于,我们未来能够达到高可靠这样的一个具身智能的能力,我们到底需要多少模态的信息?这些模态的信息怎么能够低成本的获得?这可能是我们第一件事情要去解决的。
03
数据稀缺的解决方案
仿真、遥操与真实部署
陈茜,硅谷101联合创始人:
你们觉得数据接下来行业的主流解决方案是什么?有没有什么好的方式快速推动或者解决机器人的数据问题?
苏治中,地平线机器人实验室负责人:
数据方案总体是个经济账,互联网数据虽然容易获取,但是它和机器人的相关性低,需要花非常多额外的存储和训练代价才能获得相对不错的精度,本体数据虽然采集很贵,但是只要很少的训练量和迭代轮数就能得到很好的效果。因此不应该把赌注仅放在某一个路线上,而是应该根据需求去衡量最经济的方式。目前除了头部具身企业外,大家都很缺数据,同时由于很难通过消融实验把不同类型数据的价值说清楚,因此都是能用的尽量用。从我的视角,在预训练时使用低成本的人类数据,在后训练阶段使用高精度的本体数据是比较好的方式。
甘如饴,自变量合伙人、算法负责人:
我们公司从最开始尝试了各种各样的素材方式,比如说像本体的遥操,像无本体的夹爪、手套,包括灵巧手等我们都有一些尝试和布局。
随着世界模型的出来,后面的数据其实也可能会有两种处理方式,一种就是通过手部的重建,通过位置的估计,能得到一个厘米级别的轨迹,它相比无本体或者真机遥操数据,它的轨迹数据没有这么精准,但是它的好处就在于非常大量。
但是你如果通过视频生成的模型,最终就是大家也会发现现有的模型,当你做了这些操作之后,你想真正地去完成很多实际中的操作任务,还是离不开一些更高精度的,像无本体的数据或者真机的数据去微调的。
另外一个就是怎么样去控制数据质量,作为模型厂商来说,我们可能比较大的优势就在于我时时刻刻会有模型的反馈在里面,而且经济账要算得过来,这也是我们的优势。
另外就是我们针对数据本身的轨迹质量,我们其实有非常多的数据相关的模型,在我们的管线里去做一个数据的挑选。另外我们也会有一些数据增强。
第三个我们在数据标注这一侧也会投入非常多,我们也会有非常完整的一套产链,所有的这些都构成了我们整个的数据管线。
最后我觉得可能除了真机数据之外,我觉得就是真实地部署到家庭,或者说部署到真实的任务里面拿到的这种反馈,拿到的大规模的接管数据是目前为止没有任何一家公司有做到的。但是我们觉得这个数据非常的重要,所以这个数据在我们的整个系统里有非常大的比例。
![]()
田明,阿里巴巴达摩院具身平台产品负责人:
我们想从数据金字塔和数据质量的角度,和大家聊聊这个话题。整体可以分成三个阶段:泛化、精确、灵巧。
泛化是基础的第一步。走进工厂会发现,凡是需求规模化、流程标准化的环节,大多已经由先进制造设备来完成,之后才会逐步考虑由具身智能机器人来承担。所以第一步,我们是先在垂直场景里把精度做扎实,这样才能真正赋能千行百业。
再说到精确,目前硬件整体能力还在发展中,比如在桌面清洁这样的场景中,机器人会遇到位姿偏差、设计适配等实际问题,只有逐步解决这些流程性问题,让运行更稳定、更可靠,我们才能在硬件层面采集到更真实的场景数据,为后续发展打下基础。
关于灵巧性,我对灵巧手的发展方向非常看好,也认为这是更贴近第一性原理的路径。人类都在依靠双手完成各类操作,这本身就是很直观的参考。从数据和技术的演进来看,我们也正是沿着泛化、精确、灵巧这样的路径,一步步去探索和提升的。
吴昊天,美团高级总监、无人机硬件研发负责人:
仿真数据一定会占很大的比例,所以现在还是要去研究physical engine(物理引擎)这类基础问题,把我们的physical engine做得更好,让我们世界模型具有context reach(上下文覆盖)的能力,产生足够多的数据。
我认为compute(计算)本身就是数据,应该是最早的数据基座,后期它可能会出现多场景的真实世界的采集,可能跟我们现在的国内的这个阶段很相近,就是建很多的数据采集工厂。后面可能是cherry on top(锦上添花)的事情,随着我们在某些垂类应用的使用,它聚焦了之后,没有那么大量地去收集了,成本就会降下来,我们就可以用稍微精度更高的设备,投入更多的人力去收取这种高精度的和我们真实场景更吻合的一些数据,这样就形成了一个数据金字塔,最终在某一个垂类上把我们具身智能的数据集基座以及模型打造出来。
04
商业化路径
教育、工业与家庭
陈茜,硅谷101联合创始人:
今年会看到机器人大规模商业落地吗?如果是的话,它的具体场景最先在哪些产业发生?
苏治中,地平线机器人实验室负责人:
现在具身智能能够落地有三个关键词,第一个是节拍慢,第二个任务是闭集指令(close set),指令开放是家庭机器人最难的地方,普通家庭用户什么指令都有可能发出,现在具身模型的能力、算法的发展现状还很难满足用户的开集指令需求。第三个是短程,整个任务时间和位置跨度不能特别大,在家里比如说我要洗衣服,我要在洗衣机旁坐长时间的等待,或者要做饭,这个任务所需要的时间也特别长。
在满足这三个关键词的情况下,即节拍不能太高,任务是闭集(任务数量有限),以及短程的情况下,以现有的技术在工厂有落地潜力,能够得到比较高的成功率。指令泛化尽管很重要,但它也是最难的。ChatGPT大家用它来聊天,觉得很有意思,机器人每个事情都能做点,但是什么都做不成,它是完全没用的,只要有一个事情可以做成,不管账算不算得过来,它多少是一个有功能的产品,才有可能驱动落地,才有可能真的让这个量部署上来。
作为一个对照,我们看自动驾驶,自动驾驶之所以相对来说发展的更好,是因为量产的乘用车就可以采集数据,车即便没有智能,它也是有功能的,它可以开,但是机器人没有智能,它就完全没有功能了。你要在少量任务上打穿,使它有功能进入场景,能够迭代,它才有可能扩展其他能力。
刚刚主持人聊到一个悖论,即机器人如果无法规模化部署的话,无法获得数据做迭代就永远无法落地。自动驾驶领域除了特斯拉把大量的车交付到用户手里之外,国内大部分厂商仅通过自己的测试车队获取的数据也可以把方案做得很好,从这个视角来看,这个悖论并不存在。当然最终落地所需要的数据量和设备的数量,与场景和任务是相关的,因此机器人能够尽早进入场景还是很重要的,能大大加速这个过程。
甘如饴,自变量合伙人、算法负责人:
我们今年发现两种场景,一种就是工业场景,是一些单任务,但另一种是像家庭这种是一些通用任务。
就算是做单任务也跟泛化并不矛盾。
所以在我看来就是我怎么样得到一个更好的基础模型的情况下,然后我逐步地也去在一些真实的场景去落地。
可以先在单任务上面去做一些验证,比如说预训练、后训练、强化、数据闭环等,并且能在这个上面能不断地把成功率、速度提上来,这个我觉得是非常有机会的。哪怕你只是面对工厂的一些装配任务,多采了非常多的跟装配相关的抓取或者相应的任务,你也能得到一个更好的一个效果。
第二,针对多任务来说,我觉得这个就更是基座模型的优势了,但是它可能要面临的问题是,在非常多的任务上,能不能有一定的成功率?我觉得可能早期在家庭里面做这个事情的好处在于,很多时候大家对你的节拍、时间要求并不是这么高,万一出现了一些事故,还能有一些像接管这样的兜底策略。但是他也不是只是为了做这个产品,他其实也在不断地帮你迭代,然后采到更多有用的数据。
所以我们觉得这个东西你要真实地先部署出去,你才可能有进步。就跟自动驾驶一样,有了车它才能够采集更多的数据,它一定是把集群部署出去,然后它才能有更好的泛化性。
田明,阿里巴巴达摩院具身平台产品负责人:
我觉得规模化的商业化在今年压力是比较大的。原因是我们需要有一个足够合格的产品化,就是从技术孵化到商业化中间一定有个产品化。
技术我可能在某些层面上的SOTA就够了,但是产品要考虑效果、效率、成本、安全,long regression(长回归)的稳定性,包括法律法规的制定等等。
我分析这个事情当前的方法论在于先在需求侧选择两个关键的坐标轴:一个就是任务复杂度,另外一个就是这个任务的容错性。在供给侧我要关注的一个是硬件的成熟,一个是智能的成熟,所以有了需求的两轴跟供给侧的两条线之后,然后我们再匹配上来分析这个问题。
我认为在当下,在对于容错率比较高、复杂度比较低的一个市场,很明确的首先就是教育市场。这个市场又分为了校内跟校外,校内又分为了高校的、职校的、K12的。1995年个人电脑在中国开始普及的时候,很重要的一个场景是到学校里装机房,所以我认为教育是非常确定的一个市场。
沿着这个轴往容错率逐渐要求降低的方向上去发展,我个人的主张是:以硬件为先,先功能,后智能。怎么理解呢?我可以先把硬件的成熟度迭代上来,简单的应用是做远程遥操,比如在危重险急的场景,比如说无菌室,或者对人有害的环境,我都可以把硬件的成熟度先拉上来,然后逐渐去增加它智能里面的占比。
沿着另外一个轴,就是任务的复杂度逐渐变高,我们的策略是:以智能为先,先专用,后通用。就比如说酒店是个不错的场景,今天在酒店里面能够解决好住的问题,能够解决好咖啡吧里面的送餐、饮品的调制问题,我觉得这条路线是一个可以逐渐去提升渗透的。
另外一个就是我们要把智能能力逐渐往上加,这里面会涉及到VLA的导航能力,比如说原来的巡检场景、工业场景等。我个人非常看好装配这类,需要大量的人工密集型的工作,有标准的SOP的场景。
![]()
吴昊天,美团高级总监、无人机硬件研发负责人:
美团是技术的强使用方,丰富应用场景的提供者,我提供一个视角。从产品的角度和应用的两个角度来看这个问题。从产品的角度来说,一定要思考我们的超级共识是什么,要先看到通用具身智能到底会不会成为超级共识?然后,思考实现路径的问题?如果从运营企业来说,我认为是非常有可能成为超级共识,我们不希望有各种各样的专用设备,希望管理部署一群更通用的设备,因为通用智能设备易部署、一机多能。正如我们渴望综合能力强的复合型人才一样。
鉴于这个战略共识的情况下,如果是做具身智能产品的公司,那么无论是定义产品和设计架构,甚至定战略都应该思考长期,锚定通用性强的场景。 但是,从应用落地的角度来说,一个企业最终要商业闭环,要回血,我们怎么做?肯定先捡着“软柿子”去揑,这是一个理性的选择。拿美团做一个案例,我们需要具身智能技术满足高节拍、高动态、高可靠的应用要求,技术实现比较难。我们开始用具身智能技术来赋能即时零售业务的时候,我们首先思考大概什么场景比较可行。 比如说利用空间尺度划分即时物流和接驳的问题,从千米、百米、厘米、毫米到亚毫米,我们做了这样的划分,后来发现千米级的问题相对好解决,像用无人车、无人机技术。 目前,美团被评为全球第二名的无人机物流企业。但是,我们非常理性地知道,最后100米就比较难解决,比如说上楼的问题,怎么样打开各种各样的门,安全对人友好,高峰的时候能够挤上电梯。另外我们发现打包节拍很快,现在平均外卖履约时长不到27分钟,面对各种各样材质的商品例如鸡蛋、豆腐、西红柿等,怎么样快速、可靠的打包分拣,这是难点,到了毫米级和亚毫米级的抓取问题。作为一个具身智能产品的企业,还得先挑“软柿子”去捏,早日商业闭环,形成迭代飞轮最重要。
![]()
以上就是这场专家论坛的精彩观点,我们做了适当删减与编辑。总的来说,这趟论坛也让我们对机器人的发展充满期待,不但是因为这些来自顶级高校的年轻人们让人惊喜的决赛表现,更是因为蓬勃发展的开源社区,还有自变量这样愿意助力产、学、研整合的机器人企业,相信2026年,机器人赛道会加速前进。
【本期节目不构成任何投资建议】
【视频播放渠道】
国内:B站|腾讯|视频号|西瓜|头条|百家号|36kr|微博|虎嗅
海外:Youtube
联系我们:video@sv101.net