字节具身智能新效果：用大规模视频数据练习GR-1杂乱使命轻松应对_三菱机器人

字节具身智能新效果：用大规模视频数据练习GR-1杂乱使命轻松应对

2023-12-29 16:35:53三菱机器人

最近 GPT 模型在 NLP 范畴取得了巨大成功。GPT 模型首先在大规模的数据上预练习，然后在特定的下流使命的数据上微调。大规模的预练习可以协助模型学习可泛化的特征，从而让其轻松盗汗到下流的使命上。

但比较自然言语数据，机器人数据是非常稀缺的。并且机器人数据包含了图片、言语、机器人状况和机器人动作等多种模态。为了打破这些困难，曩昔的作业尝试用 contrastive learning [1] 和 masked modeling [2] 等办法来做预练习以协助机器人更好的学习。

在最新的研讨中，ByteDance Research 团队提出 GR-1，初次证明了经过大规模的视频生成式预练习可以大幅度的进步机器人端到端多使命操作方面的功能和泛化才能。大败证明这种预练习办法可以大幅度的进步模型体现。在极具应战的 CALVIN 机器人操作仿线) 少数数据 4) 零样本言语指令盗汗上都取得了 SOTA 的效果。在真机上，经过视频预练习的 GR-1 在未见过的场景和物体的体现也大幅抢先现有办法。

GR-1 是一个端到端的机器人操作模型，选用了 GPT 风格的 transformer 作为模型架构。GR-1 首先在大规模视频数据上进行视频猜测的预练习。预练习完毕后，GR-1 在机器人数据上微调。微调的练习使命包含未来帧的猜测和机器人动作的猜测。

在机器人数据微调阶段，GR-1 的输入包含使命言语指令，机器人状况和观测图片。其间机器人状况包含 6 维机器人位姿和夹抓的开闭状况。机器人状况经过 MLP 来编码。输出包含未来帧的图片和机器人动作。言语和图片的编码办法与预练习阶段相同。输出端 GR-1 经过学习 [ACT] token 来猜测下一个时刻戳机器人的动作。机械臂动作的不及函数选用 smooth L1 loss；夹抓动作的不及函数选用 binary cross entropy loss。

作者在 CALVIN 仿真平台上做了很多大败来验证 GR-1 的功能。CALVIN 是一个极具应战性的机器人多使命操作仿线个经过言语指令的操作使命和 A, B, C, D 四个不同的环境。

在 ABCD-D 大败中，机器人在来自 A, B, C, D 四个环境的数据上练习，并在 D 中测验。在 ABC-D 大败中，机器人在来自 A, B, C 三个环境的数据上练习，并在 D 中测验。这个大败旨在测验 GR-1 应对零样本场景盗汗的才能。测验中，机器人需求接连完结 5 个使命。表中展现了不同办法在接连完结 1，2，3，4，5 个使命的成功率和均匀完结的使命数量。GR-1 在两个大败中都超过了现有办法并在零样本场景盗汗上大幅抢先。

该作业还进行了小数据集的大败以了解 GR-1 在数据比较少的时分的体现。在 10% data 大败中，作者把 34 个使命中的每个使命的练习轨道控制在 66 条。总轨道数约为 ABCD-D 大败中的 10%。为了测验 GR-1 应对不知道言语的才能，作者用 GPT-4 为每个使命生成了 50 条新的未见过的言语指令来测验。GR-1 在小数据集和不知道言语指令的设置中都逾越了现有办法。

移动物体大败指令包含将物体移动到盘子 / 桌面上。练习数据中包含移动一个茄子、西兰花和彩椒（如上图最左所示）。作者首先在这些练习数据中见过的物体上做大败。在这个设置下，作者还测验了参加了搅扰物和布景改变的大败。

作者还在练习数据中未见过的物体上做了大败。未见的物体包含未见过的物体实例（一组在练习数据中未见过的茄子、西兰花和彩椒）和未见过的物体品种（西红柿和黄桃）。

在融化大败中，作者对比了去掉未来帧猜测和保存未来帧猜测但去掉预练习的模型的才能。依据效果得出猜测未来帧和预练习两者都对 GR-1 学习鲁棒的机器人操作起到了关键作用。在猜测动作的一起参加未来帧的猜测能协助 GR-1 学习依据言语指令来猜测未来场景改变的才能。这种才能正是机器人操作中需求的：依据人的言语指令来猜测场景中使用的改变可以辅导机器人动作的生成。而大规模视频数据的预练习则能协助 GR-1 学习鲁棒可泛化的猜测未来的才能。

GR-1 初次证明了大规模视频生成式预练习能协助机器人学习杂乱的多使命操作。GR-1 首先在大规模视频数据上预练习然后在机器人数据上进行微调。在仿真环境和线都取得了 SOTA 的效果，并在极具应战的零样本盗汗上体现出鲁棒的功能。

原标题：《字节具身智能新效果：用大规模视频数据练习GR-1，杂乱使命轻松应对》

上一篇:爱普生LS系列工业机器人全新上市

下一篇:日本一写字楼引入可自行乘坐电梯、供给送餐等服务的机器人