Google DeepMind推出DemoStart自主强化学习方法

一直以来，研究人员都在试图开发出能够在现实环境中安全、高效地执行复杂任务（如多指手操作）的机器人技能。传统的机器人学习方法往往需要大量的实际数据，这不仅耗时耗力，还存在安全风险。因此，仿真环境下的学习并结合后续的仿真到现实（sim-to-real）迁移成为了一个有效的替代方案。

近日，谷歌DeepMind团队提出了一种名为DemoStart的新型自主强化学习方法，该方法能够在只有少量示范和稀疏奖励的情况下，让装备有机械手臂的机器人在仿真环境中学习复杂的操作技能，并成功实现了零样本的仿真到现实迁移。

▍Google DeepMind推出DemoStart技术

DemoStart方法是一种结合了示范引导与稀疏奖励的强化学习框架，目的是通过自动化课程设计，提高机器人在仿真环境中的操作技能学习效率，并最终实现这些技能从仿真到现实的零样本迁移。该方法的核心在于通过少量且可能不完全优化的示范来指导强化学习算法的探索过程，从而找到解决复杂操作任务的有效策略。

DemoStart从20个模拟演示开始生成了强化学习教程

研究人员表示，DemoStart方法首先利用提供的示范数据，将示范中的每个状态转换为一系列不同难度的任务参数（TP）。这些任务参数在后续强化学习过程中作为学习的起点，通过动态调整学习任务的难度，引导策略逐步逼近最优解。与传统强化学习方法相比，DemoStart不需要复杂的奖励函数设计，仅需一个简单的稀疏奖励信号即可指导学习过程，大大降低了任务设计的难度和成本。

此外，DemoStart还通过一种称为零方差过滤（ZVF）的机制来优化学习过程。ZVF通过分析策略在当前任务参数下的表现稳定性，筛选出那些既能提供有效学习信号又不会导致训练过程陷入局部最优的任务参数。这种机制有助于策略在保持一定探索性的同时，稳步提高性能。

在实现过程中，DemoStart采用了一种分布式行动者-学习者架构，其中行动者在仿真环境中执行策略并收集经验数据，而学习者则根据这些数据进行策略更新。为了实现仿真到现实的迁移，DemoStart还引入了一种策略蒸馏技术，将基于仿真特征的策略转换为基于视觉的策略，从而使得训练出的策略能够在真实环境中执行。

▍DemoStart技术集成三个关键机制

研究人员表示，DemoStart技术集成了三个关键机制，分别为示范引导的任务参数化、零方差过滤的优化选择与策略蒸馏的视觉迁移。

具体来看，DemoStart方法能够利用示范数据来生成一系列不同难度的任务参数（TP）。在仿真环境中，通过记录并保存示范过程中每个时间步的环境状态，可以生成多个起始状态作为任务参数。这些起始状态分布在示范的不同位置，从而构成了一个从易到难的任务序列。

通过将这些任务参数作为强化学习的起点，DemoStart能够逐步引导策略从简单的任务开始学习，逐渐挑战更复杂的任务，最终实现复杂操作技能的掌握。

另一个关键机制是零方差过滤（ZVF），它通过对任务参数进行筛选，优化学习过程中的经验数据选择。ZVF机制通过分析策略在当前任务参数下的表现稳定性，即策略在某些任务参数下是否有时成功有时失败，来识别出那些既不过于简单也不过于困难的任务参数。这些任务参数能够提供有效的学习信号，帮助策略在保持探索性的同时稳步提高性能。通过丢弃那些成功率始终为0或1的任务参数，ZVF避免了策略陷入局部最优或无法获得学习信号的情况，从而提高了学习效率。

为了实现从仿真到现实的零样本迁移，DemoStart引入了策略蒸馏技术。在仿真环境中，首先训练一个基于特征的策略，该策略能够高效地完成各种操作任务。然后，通过策略蒸馏过程，将这个基于特征的策略转换为一个基于视觉的策略。

蒸馏过程中，利用行为克隆方法从教师策略（基于特征的策略）生成的数据中学习一个学生策略（基于视觉的策略），使得学生策略能够仅依靠视觉输入和机器人本体感觉信息来执行操作任务。这种转换不仅保留了教师策略的高效性，还使得策略能够在真实环境中运行，因为真实环境中的机器人通常只能通过视觉和本体感觉来获取环境信息。通过策略蒸馏，DemoStart实现了从仿真到现实的平滑迁移，为机器人在现实中的应用提供了可能。

▍DemoStart方法实现细节解析

DemoStart方法采用分布式行动者-学习者架构来实现高效的数据收集和策略更新。在架构中，多个行动者并行运行在仿真环境中，每个行动者负责执行当前策略并收集经验数据。收集到的经验数据被发送到中心化的学习者，学习者根据这些数据来更新策略。

实验设置：模拟（顶部）和真实（底部）机器人环境和任务

这种架构的优势在于能够充分利用多核处理器的计算能力，加速数据收集和策略更新的速度。同时，由于行动者和学习者之间的解耦，使得系统更加灵活和可扩展，可以根据需要增加或减少行动者的数量来调整系统性能。

训练分布从演示的结束转移到演示的开始

在策略蒸馏阶段，为了训练基于视觉的策略，需要从基于特征的策略中生成大量的训练数据。这些数据通常以轨迹的形式存在，每条轨迹包含一系列状态、动作和奖励信息。

为了确保蒸馏过程的稳定性和高效性，DemoStart方法对训练数据进行了一系列预处理。首先，从基于特征的策略中筛选出成功的轨迹，这些轨迹代表了策略在不同任务参数下的有效行为。然后，对每条轨迹进行标注，标记出每个时间步的视觉输入、本体感觉信息和相应的动作。最后，将这些标注好的轨迹组合成训练数据集，用于训练基于视觉的策略。

拾取放置成功率随情节持续时间而变化

在训练基于视觉的策略时，DemoStart方法利用多个相机来捕捉环境的视觉信息。这些相机被固定在机器人周围的不同位置，以确保能够全面覆盖机器人的工作空间。为了处理来自多个相机的视觉输入，DemoStart采用了一种多模态编码方法，将每个相机的图像输入到独立的卷积神经网络中进行特征提取。然后，将提取到的特征向量进行拼接和融合，作为视觉策略的输入。

此外，为了进一步提高策略的鲁棒性和适应性，DemoStart还引入了域随机化技术来模拟不同光照条件、相机视角和物体外观的变化。通过在训练过程中不断变化这些视觉因素，使得策略能够学习到更加泛化的视觉表示，从而更好地适应真实环境中的各种不确定性。

▍实测DemoStart在三指机械手上的任务执行能力

为了验证DemoStart方法的有效性，研究人员在配备有三指机械手（DEX-EE Hand）的Kuka LBR iiwa14机器人上进行测试，真实环境中的设置被精确复制到仿真环境中，使用MuJoCo物理引擎进行模拟。机器人需要完成的任务包括插头提升、插头插入、立方体定向、螺母螺栓螺纹连接以及螺丝刀放入杯子等。

在仿真环境中，DemoStart在多个任务上均取得了超过98%的成功率，远超基于示范直接学习的策略。与标准的强化学习基线相比，DemoStart仅使用极少量的示范就达到了出色的性能，显示出其高效的学习能力。

在插头插入任务中，DemoStart方法通过少量示范和稀疏奖励，成功引导策略学习到了高效的插头插入行为。策略不仅学会了如何准确地定位和插入插头，还能够在面对不同初始状态时表现出良好的泛化能力。在实验过程中，研究人员观察到策略逐渐从依赖示范行为转变为发现更加高效和鲁棒的操作方式，充分证明了DemoStart方法在强化学习过程中的探索和优化能力。

为了进一步验证DemoStart方法的仿真到现实迁移能力，研究人员将训练好的策略通过策略蒸馏技术转换为基于视觉的策略，并在真实机器人上进行了测试。实验结果显示，经过蒸馏的策略在真实环境中依然保持了较高的成功率，特别是在插头插入和插头提升任务中，成功率分别达到了64%和97%，显著优于仅依赖示范学习的方法。

此外研究人员还对DemoStart方法进行了详细的消融实验，以分析不同机制对性能的影响。结果显示，零方差过滤机制在提升策略性能和稳定性方面发挥了关键作用，而策略蒸馏技术则是实现仿真到现实迁移的核心。通过结合这些机制，DemoStart方法成功地实现了在少量数据和稀疏奖励条件下的高效强化学习，为机器人操作技能的自动化学习提供了一种新的解决方案。

▍结语与未来：

DemoStart是一种创新的自主强化学习方法，能够在只有少量示范和稀疏奖励的情况下训练出高性能的机器人操作技能，并实现零样本的仿真到现实迁移，该方法不仅简化了任务设计过程，还有效提高了学习效率。随着未来研究的不断推进，DemoStart有望在更多复杂机器人操作任务中发挥重要作用。返回搜狐，查看更多

责任编辑：

Google DeepMind推出DemoStart自主强化学习方法

原创中国十大最美“公园”！大家都知道是哪里嘛？

中国十大最美湖泊，你去过几个？

2024中国“十大最美救护员”在沪揭晓

中国最美的乡村——江西婺源旅游攻略

十大最美乡村投票评选活动如何发起？制作教程分享

中国最美十大文化景区中国十大历史文化景区排名

凌空天行自研4马赫爆震发动机成功，高超音速飞行时代将来临？

经纬、国开投资的凌空天行，完成自研4马赫爆震发动机

“云行”系列超音速飞机验证机试飞成功武则天拔刀刺向上官婉儿：我的男人你也敢动我要宰了你

中国4倍音速客机验证机完成试飞，核心技术获突破，惊喜在后面关羽“刮骨疗毒”是真是假？《三国演义》中一句话，揭露真相