展会新闻

GEN-1:把具身基础模型推向精通

            



2026年4月2日,Generalist AI 发布了题为《GEN-1: Scaling Embodied Foundation Models to Mastery》的长文。在若干简单但高价值的物理任务上,GEN-1 已经把平均成功率推到 99%,把执行速度拉到此前 SOTA 的约 3 倍,并把每项结果所需的机器人数据压到约 1 小时。Generalist 认为,这意味着具身基础模型开始跨过从“能演示”走向“有商业可行性”的门槛。

GEN-1 本次更新的核心重点在于它跨越了机器人学习的关键性能门槛,首次在简单物理任务上达到了“精通(Mastery)”级别,从而解锁了广泛任务的商业可行性。

以下是此次更新的几个关键突破和技术重点:

重新定义物理技能的“精通”:团队将“精通”定义为三个维度的结合,打破了这个不可能三角:

极致的可靠性(Reliability): GEN-1 将以往模型仅有 64% 成功率的任务提升到了 99% 的平均成功率。它能够进行长时间的无干预自主作业,例如连续组装手机 100 次、折叠衣服 86 次、折叠纸箱 200 次、甚至包装方块 1800 次。

打破速度壁垒(Speed): GEN-1 完成灵巧任务的速度比先前的最先进水平(SOTA)快了约 3 倍。以折叠纸箱为例,先前的模型需要约 34 秒,而 GEN-1 仅需 12.1 秒。

前所未见的即兴发挥能力(Improvisational Intelligence):这是目前聊天机器人和传统工业机器人所不具备的能力。GEN-1 展现出了处理开放式问题的物理常识,能够在意外情况中创造性地随机应变。例如,当零件意外掉落或严重变形时,模型能够决定部分插入零件、或是换用另一只手辅助重新抓取,而不是死板地执行预设脚本。

惊人的数据效率与无机器人数据的预训练:GEN-1 的基础模型是基于 50 万小时的高保真现实世界数据从头开始训练的。相比于Gen-0 翻了一倍

零机器人预训练数据:UMI范式的又一次证明,GEN-1 的预训练数据完全来自佩戴低成本设备的人类日常活动。而且它还从人流畅的动作中学到了如何以更快的速度进行操作。

极低的任务适配成本: 当 GEN-1 面对一个全新的机器人硬件形态和全新任务时,仅需约 1 小时的机器人数据就能达到极高的成功率。它所需的特定任务数据和微调步骤比上一代 GEN-0 少了整整 10 倍。

跨越全栈的技术与架构创新:GEN-1 建立在几个月前发布的 GEN-0 的基础上,GEN-0 首次证明了Scaling Laws在机器人领域同样适用。GEN-1 不仅仅是一个模型,更是一个包含预训练、后训练、强化学习(从经验中学习)和多模态人类指导的系统。引入了新的推理时(inference-time)技术,如谐波推理(Harmonic Reasoning)和新的分页注意力(paged attention)机制,以支持模型在高速运动时做出实时响应。后者是Gen-1新提出的机制新的挑战:物理世界的“对齐(Alignment)”问题尽管 GEN-1 的涌现能力带来了强大的纠错和恢复行为,但团队也指出,在物理世界中采取行动会产生实际后果。机器人的“成功”是由特定工作流和用户定义的(不仅仅是它该做什么,还包括它不该做什么),因此团队正在致力于改进对齐方法,以精准引导这些强大的物理模型表现出用户真正想要的行为

正文完整翻译

我们打造了 GEN-1,这是我们在扩展机器人学习上的最新里程碑。我们相信,它是第一个跨过全新性能门槛的通用型 AI 模型:能够精通简单的物理任务。在此前模型平均成功率为 64% 的任务上,它将平均成功率提升到了 99%;完成任务的速度大约比当前最先进水平快 3 倍;而且在每一项结果上,都只需要 1 小时的机器人数据。GEN-1 让广泛应用场景中的商业可行性成为可能;尽管它今天还不能解决所有任务,但它朝着我们为物理世界创造通用智能的使命迈出了重要一步。

视频:GEN-1 主演示(YouTube)

在 Generalist,我们正在朝着 physical AGI 前进,并让它对每个人都有用。今天,我们介绍我们的最新模型 GEN-1。它是一个能够实时输出动作的大型多模态模型。与我们之前的模型相比,它展现出若干先进能力,也是我们迈向使命的重要一步。

五个月前,借助 GEN-0,我们第一次展示了机器人领域中存在 scaling laws1,这让物理 AI 模型进入了预训练时代,而这也类似地支撑了语言模型中可预测的进步。2 GEN-0 之所以成为可能,是因为一种新的多模态架构,它在我们自己的机器人预训练数据集上训练而成,而这个数据集是全球最大的。GEN-0 展现出了快速学习新任务、适应新环境3,以及表现出物理常识瞬间的能力。4

今天,我们发布 GEN-1。它建立在对 GEN-0 基础的进一步扩展之上,并在算法进步的加速下,开始在这些模型所能交付的能力上呈现出显著变化。GEN-1 开始能够精通简单任务。在若干任务上,模型现在已经超过 99% 的成功率(可靠性),能够以最高约 3 倍于此前 SOTA 的速度完成任务(速度),并展现出广泛的涌现行为,以在意外场景中进行恢复(即兴应变)。而在每一种情况下,这些结果都只需要大约 1 小时的机器人数据。

我们相信,GEN-1 是第一个跨过关键门槛的通用物理 AI 模型:它让广泛任务上的商业可行性成为现实,其通用性是传统自动化无法比拟的,性能水平也达到了此前人们认为机器人模型难以企及的程度。我们此前创造了第一波具身基础模型,5 其中包括 VLA6 和世界模型,7 而我们也清楚它们远非完美。GEN-1 的进展,来自我们对面向真实世界的具身基础模型所做的全面重新设计,并且它是在我们现已达到 50 万小时真实世界数据的数据集上从零开始训练的。

GEN-1 代表着能力上的一次跃迁,但它并不能解决所有任务。这进一步强化了我们的观点:继续用物理经验去扩展模型,将持续带来新的发现,进而解锁更广泛的物理智能、扩展可行任务的范围,并打开新的应用领域。

我们对这些结果感到兴奋,但这段旅程仍然很早期。我们相信,通用智能的真正本质在于,能够在所有物理工作中实现高水平的精通,而 GEN-1 也让我们更清楚该如何评估进展。GEN-1 展现出了迈向新层次“精通”的早期迹象,而我们将这种精通定义为可靠性、速度和即兴应变的结合。下面,我们将详细介绍 GEN-1 的这些新能力,包括机器人在多个不同灵巧任务中连续数百次、持续数小时执行操作的视频。

扩展具身智能的预训练时代

此前,借助 GEN-0,我们第一次展示了机器人领域中存在 scaling laws。重要的是,它证明了以一种通用方式扩展机器人学习是可行的,也就是说,我们追踪的每一个零样本任务都会同步提升。然而,它的性能还不足以在商业场景中使用。现在,有了 GEN-1,随着数据和计算规模的进一步扩展,并在算法进步的加速下,我们开始看到一些任务跨过了在经济上有用的部署场景中所需的性能门槛。

这与过去 8 年里大型语言模型(LLMs)规模化所支撑的进展是平行的。GPT-2 展示了一条可扩展的多任务学习路径,但在经济上有价值或真正有用的软件产品中仍难以部署。将模型扩展到 GPT-3 后,scaling laws 得到了验证,新能力开始涌现,模型也在某些任务上变得具备经济可行性,比如广告文案写作。随着 LLM 不断扩展,每一代新模型都会带来一组新的能力,这些能力满足了新一类任务的性能要求。类似地,GEN-1 开始能够精通简单任务,但 scaling 所支持的更重要概念在于,我们可以预期每一代新模型都会带来一组全新、且复杂度不断提升的可被精通的任务。

值得注意的是,这一进展也验证了这些模型背后的数据引擎。此前那些在机器人领域成功率超过 90% 的通用模型,往往依赖极其庞大的遥操作数据集,而这类数据集既昂贵又难以扩展。相比之下,对于 GEN-0 和 GEN-1,基础模型的训练完全不需要任何机器人数据,它使用的是来自低成本可穿戴设备的人类进行数百万种活动的数据,并提供了一个存在性证明:这种预训练能够在不需要大型遥操作或仿真数据集的前提下,带来高水平的精通能力。

介绍 GEN-1

GEN-1 包含了多方面的创新:预训练进展、后训练技术、从经验中学习(RL)、多模态人类引导,以及新的推理时技术。预训练方面的进步推动了预训练智能的计算效率曲线转移,而其他部分则共同促成了任何给定任务上更高性能的解锁。除这些进展外,自我们上一代模型 GEN-0 以来,GEN-1 还获得了显著扩展:这包括更多的计算、更多的数据,并在我们的数据集上训练,而该数据集现在已经包含超过 50 万小时的高保真物理交互数据。

虽然我们把 GEN-1 称作一个模型,但更准确的说法其实是把 GEN-1 看作一个系统。就像前沿 LLM 聊天机器人和 API 一样,在推理和模型调度利用的各个环节中,存在许多系统层组件,而这些组件对其性能提升至关重要,使它远不只是“一组模型权重”而已。

GEN-1 是一个数据高效的学习者:在某些测试中,GEN-1 只需比 GEN-0 少 10 倍的任务特定数据和微调步骤,就能达到与 GEN-0 相当的性能。此外,本文展示的每一个结果都只使用了大约 1 小时的机器人数据。预训练数据集中不包含任何机器人数据,因此当 GEN-1 适应一个新任务时,它其实是在第一次同时适应那种机器人 embodiment 和那个任务本身。

定义精通

具身基础模型应当具备可靠性、速度,以及从意外场景中恢复的能力。我们用“精通”这个术语来指代以下几者的结合:可靠性、速度和即兴智能。虽然可靠性和速度更容易衡量,但我们认为,即兴智能恰恰是机器人领域此前最关键的缺失项。

可靠性:可靠地完成任务,是现实世界部署的基本门槛。几十年来,传统系统都能可靠地执行重复动作,但这一点始终未能在端到端机器人模型中实现。当高性能真的被实现时,通常依赖于资源密集型的遥操作数据,针对某一特定系统,仅限于一小组狭窄任务,或者以复杂性为代价。真正的挑战不仅是某一次达到高性能,而是要在不同任务、不同系统和不同环境中交付稳健、可重复的性能。

速度:机器人领域长期受困于速度壁垒:灵巧型通用模型的演示视频往往太慢。但打破这道速度壁垒并不简单。随着速度提升,世界会变得不再近似准静态:速度项增加、摩擦动力学变化、动作变得模糊,同时对精度、反应性和推理提出了越来越高的约束。更重要的是,不是电机转得有多快,而是任务完成得有多快。

即兴应变:要在非结构化环境中生存,机器人必须具备在意外场景中创造性即兴解决问题的能力,也就是能够响应和适应,而不是依赖预定义行为。正如我们此前讨论过的,我们相信,物理常识对于实现这种自由式问题求解至关重要。没有它,机器人也许能很好地执行套路,但一旦世界偏离脚本,它们就会陷入挣扎。

自 20 世纪 60 年代初以来,可靠性和速度一直是工业机器人的核心,但那段历史建立在精确性和对机器人环境的严格控制之上,而不是建立在智能之上。相比之下,通用物理 AI 模型走的是完全不同的路线:依靠智能,而不是依靠限制。正如 William James(19 世纪末现代心理学的奠基人之一)所写,智能就是以不同手段达到同一目标的能力。即兴智能让机器人能够在非结构化环境中表现良好,同时也推动了通用模型更好的可靠性和速度。

在评估“精通”时,还必须考虑为了在某个给定任务上达到这种性能,究竟需要多少数据。

能力展示

可靠性

GEN-1 能够在长时间无人干预的情况下,以很高的可靠性完成多项任务。这里我们展示了 6 项任务:连续一个多小时进行汽车零部件分拣、连续 86 次折叠 T 恤、连续 200 多次维修扫地机器人、连续 1,800 多次装箱积木、连续 200 多次折叠纸箱,以及连续 100 多次装箱手机。

fcb0583d574b10204e5fe07cd7f7e972.png

图表说明:GEN-1 的成功率达到 99%,显著高于 GEN-0(62%)以及未经过预训练、从零开始训练的 GEN-0 版本(42%)。注:这些是与我们 2025 年 11 月版本 GEN-0 模型进行的严格对齐对比。2025 年 3 月 GTC 上,在一个相似任务中,我们展示过一个在 2025 年 11 月之后又有额外进展的 GEN-0 预训练模型。

如果没有预训练,从零开始训练的任务表现会非常差(平均成功率 19%)。在这些任务上进行微调后的 GEN-0 模型表现更好,但仍未达到可投入生产的成功率水平(平均 64%);而 GEN-1 则跨入了生产级成功率水平(平均 99%)。

在两项具有挑战性的灵巧操作任务上,GEN-1 将任务完成速度提升到了大约当前 SOTA 的 ~3 倍。重要的是,GEN-1 的任务完成速度可以快于示范数据,并且能够在这种速度下相应地应对新的物体物理特性。GEN-1 可以在 12.1 秒内完成一个纸箱的组装,这比此前的 SOTA 快 2.8 倍(GEN-0 和 π0 在相同纸箱上的耗时都大约为 ~34 秒)。GEN-1 还可以在 15.5 秒内将手机装入手机壳,速度达到 GEN-0 的 2.8 倍。

有几个组成部分共同实现了这种速度水平。首先,模型会通过经验学习来达到这些速度。此外,GEN-1 在我们进行推理的方式上引入了一种演进,即 Harmonic Reasoning。

再者,由于我们的数据采集设备,模型能够接触到大量高速完成各种其他任务的预训练数据(从而将对相关动力学的普遍接触转化为知识迁移),这与传统遥操作系统形成鲜明对比,因为后者由于缺乏力反馈、存在延迟问题以及可视性挑战,自然只能产生更慢、更不流畅的数据。

即兴智能

视频:GEN-1 即兴应对演示(YouTube)

我们看到,这些模型在面对意外情境时的创造性响应方式发生了显著变化。在一个长时程的汽车分拣案例中,如果一个垫圈被碰歪,以至于无法被正确夹持,机器人可以先把它放回去重新抓取;也可以先把它部分插入缝隙中,利用外部灵巧性来重新抓取;甚至还会决定使用另一只手来实现双手的手内重新抓取。对于大型柔性物体,如果它们最终处在非常出乎意料的构型下,模型也能想办法恢复。这些行为明显超出了训练分布,并且直接有助于从意外的长尾事件中恢复。

局限性

GEN-1 并非没有局限。举例来说,尽管我们已经展示了若干灵巧操作任务可达到 99%+ 的成功率,但并不是我们尝试过的所有任务都能达到这一水平。此外,有些任务若想在真实场景中具备实用价值,还需要更高的成功率或更快的速度。尽管如此,我们预计下一代模型将解锁更广泛、也更复杂、能够被“掌握”的任务范围;同时,随着基础模型不断改进,我们也预计单个任务所需的数据量会随时间继续下降。

重新思考具身智能的对齐问题

一个值得注意的观察是,尽管在大规模交互数据上进行预训练能够解锁涌现式的即兴应变能力(例如抖动袋子让物体就位、重新整理放错位置的物品,或伸手接住正在掉落的物体),但这些都是会带来真实后果的物理动作。机器人学中的“成功”定义并不是普适的,它是任务特定的、工作流特定的,并且归根结底是由用户定义的。13 它不仅关乎机器人必须做什么,也关乎它不应该做什么,而后者或许更为重要。因此,涌现行为可以是一种优势(例如那些并未被显式训练过的恢复行为),但在某些时候也可能成为一种负担。随着具身基础模型开箱即用地变得越来越强,我们的目标是持续改进对齐方法,并更精确地引导这些模型,使其输出用户真正想要的行为。

展望未来

构建 GEN-1 并不容易。我们重新设计了分布式训练基础设施,使 PB 级物理交互数据能够作为一等公民被支持。我们花了数月时间提升训练稳定性、构建定制 kernel、发明新的 paged attention 形式以实现实时推理、打磨后训练技术(并结合理论 RL 与多模态人类引导方面的基础工作),还进一步强化控制系统,使其更加平滑、更加精确。我们设计了新硬件,并将数千只机器人手部署到新的地理区域,以接触独特的物理活动。尽管如此,我们相信这些进展将为未来研究奠定基础,因为我们会继续把数据引擎扩展到下一阶段的能力水平。

诞生于物理世界的通用智能

对我们而言,GEN-1 不仅仅是一个模型。它捕捉到了我们认为当今聊天机器人所缺失的人工智能中一个重要部分。那就是通过在真实世界中行动而产生的直觉与开放式问题求解能力,它把扎根于真实物理规律的知识、对空间与时间重要性的深刻理解,以及“行动会带来后果”的认知结合在一起。正是这种能力,赋予了系统在意外发生时自行恢复的自主性,在情况变得更糟之前就做出反应,而不是必须由人类在每一步都不断纠偏,才能避免不可逆的失败。对机器而言,我们相信,只有通过亲身经历物理世界,Wikipedia 上的那些知识才终于会真正变得有意义。

出品:具身纪元


特别声明:文章转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。