新技术结合了来自不同来源的数据,使多用途机器人更有效

时尚美容作者 / 花爷 / 2025-01-11 23:11
"
      假设你想训练一个机器人,让它知道如何使用工具,然后可以快速学会用锤子、扳手和螺丝刀在你的房子周围进行修理。要

  

  A technique for more effective multipurpose robots

  假设你想训练一个机器人,让它知道如何使用工具,然后可以快速学会用锤子、扳手和螺丝刀在你的房子周围进行修理。要做到这一点,您将需要大量的数据来演示工具的使用。

  现有的机器人数据集在模式上差异很大,例如,一些包括彩色图像,而另一些则由触觉印记组成。数据也可以从不同的领域收集,比如模拟或人类演示。每个数据集可能捕获一个独特的任务和环境。

  很难有效地将来自如此多来源的数据整合到一个机器学习模型中,因此许多方法只使用一种类型的数据来训练机器人。但以这种方式训练的机器人,只需要相对较少的特定任务数据,往往无法在不熟悉的环境中执行新任务。

  为了训练更好的多用途机器人,麻省理工学院的研究人员开发了一种技术,使用一种称为扩散模型的生成式人工智能,将跨领域、模式和任务的多个数据源结合起来。

  他们训练一个单独的扩散模型来学习策略或策略,使用一个特定的数据集来完成一个任务。然后,他们将扩散模型学习到的策略组合成一个通用策略,使机器人能够在各种设置下执行多个任务。

  在模拟和现实世界的实验中,这种训练方法使机器人能够执行多种工具使用任务,并适应它在训练中没有看到的新任务。这种方法被称为策略组合(PoCo),与基线技术相比,它使任务性能提高了20%。

  “解决机器人数据集的异质性就像一个先有鸡还是先有蛋的问题。如果我们想要使用大量的数据来训练一般的机器人策略,那么我们首先需要可部署的机器人来获取所有这些数据。我认为利用所有可用的异构数据,类似于研究人员对ChatGPT所做的,是机器人领域的重要一步,”电子工程和计算机科学(EECS)研究生王丽瑞说,他是一篇关于PoCo的论文的主要作者,该论文发表在arXiv预印本服务器上。

  王的合著者包括机械工程研究生赵家良;杜一伦,EECS研究生;Edward Adelson,脑与认知科学系John and Dorothy Wilson视觉科学教授,计算机科学与人工智能实验室(CSAIL)成员;资深作者Russ Tedrake, EECS,航空航天和机械工程的丰田教授,CSAIL的成员。

  这项研究将于7月15日至19日在荷兰代尔夫特举行的机器人:科学与系统会议上发表。

  组合不同的数据集

  机器人策略是一种机器学习模型,它接受输入并使用它们执行操作。考虑政策的一种方式是将其视为战略。在机械臂的例子中,这个策略可能是一个轨迹,或者一系列移动手臂的姿势,这样它就能拿起锤子,用它来敲钉子。

  用于学习机器人策略的数据集通常很小,并且专注于一个特定的任务和环境,比如将物品打包到仓库的盒子里。

  “每一个机器人仓库都会产生数tb的数据,但它只属于处理这些包裹的特定机器人装置。如果你想用所有这些数据来训练一台普通的机器,这是不理想的。”

  麻省理工学院的研究人员开发了一种技术,可以采用一系列较小的数据集,比如从许多机器人仓库收集的数据集,从每个数据集中学习单独的策略,并以一种使机器人能够概括许多任务的方式将策略组合起来。

  他们使用一种称为扩散模型的生成式人工智能模型来表示每个策略。通常用于图像生成的扩散模型,通过迭代地改进其输出来学习创建与训练数据集中的样本相似的新数据样本。

  但研究人员并没有教扩散模型生成图像,而是教它为机器人生成轨迹。他们通过在训练数据集中的轨迹中添加噪声来做到这一点。扩散模型逐渐去除噪声,并将其输出细化为轨迹。

  这项技术被称为扩散策略,之前由麻省理工学院、哥伦比亚大学和丰田研究所的研究人员引入。PoCo建立在扩散策略工作的基础上。

  该团队用不同类型的数据集训练每个扩散模型,比如一个是人类视频演示,另一个是从机器人手臂的远程操作中收集的。

  然后,研究人员对所有扩散模型学习到的单个策略进行加权组合,迭代地改进输出,使组合策略满足每个单个策略的目标。

  大于各部分之和的

  “这种方法的好处之一是,我们可以将政策结合起来,实现两全其美。例如,在真实世界数据上训练的策略可能能够实现更灵活,而在模拟上训练的策略可能能够实现更多的泛化,”王说。

  由于策略是单独训练的,因此可以混合和匹配扩散策略,以在特定任务中获得更好的结果。用户还可以使用该数据集训练额外的扩散策略,从而在新的模态或领域中添加数据,而不是从头开始整个过程。

  研究人员在模拟和真实的机械臂上测试了PoCo,这些机械臂执行各种工具任务,例如用锤子敲钉子和用抹刀翻转物体。与基线方法相比,PoCo使任务性能提高了20%。

  “令人惊讶的是,当我们完成调整并将其可视化时,我们可以清楚地看到组合轨迹看起来比单独的任何一个都要好得多,”王说。

  未来,研究人员希望将这项技术应用到长期任务中,即机器人可以拿起一种工具,使用它,然后切换到另一种工具。他们还想整合更大的机器人数据集来提高性能。

  “为了机器人技术的成功,我们需要这三种数据:互联网数据、模拟数据和真实机器人数据。如何有效地将它们结合起来将是一个非常重要的问题。PoCo是在正确轨道上迈出的坚实一步,”英伟达高级研究科学家、人工智能代理计划(AI Agents Initiative)负责人吉姆·范(Jim Fan)说,他没有参与这项工作。

  更多信息:王丽蕊等,PoCo:异构机器人学习的策略组合,arXiv(2024)。期刊信息:arXiv由麻省理工学院提供

  本文由麻省理工学院新闻(web.mit.edu/newsoffice/)转载,这是一个报道麻省理工学院研究、创新和教学新闻的热门网站。

  引用:新技术结合了来自不同来源的数据,以获得更有效的多用途机器人(2024年6月3日)

  作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司

  内容仅供参考之用。

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读