绮乐网

一种教机器人提前掌握控制策略的算法

荣雅网络

当人类伸手抓住一个特定的物体时,他们往往需要推开杂物以隔离它,并确保有足够的空间来捡起它。即使人类并不总是完全意识到自己在这样做,但这种被称为“预抓取操作”的策略可以让他们更有效地掌握物体。

近年来,一些研究人员试图在机器人中复制人类的操纵策略,但较少的研究集中在预抓取操作上。鉴于此,KIT的一个研究小组最近开发了一种算法,可以用来训练机器人抓取和抓取前的控制策略。这种新方法是在arXiv发表的一篇论文中提出的。

“虽然掌握是机器人领域众所周知的任务,但有针对性的前掌操作仍然非常具有挑战性,”进行这项研究的研究人员之一Lars Berscheid告诉TechXplore。“这使得机器人目前很难从杂乱或狭窄的空间抓取物体。然而,随着最近机器和机器人学习的创新,机器人可以通过与环境的交互来学习如何解决各种任务。

我们想应用我们在前期工作中提出的方法,不仅要掌握而且要掌握我们已经提前掌握的操作。

当机器人学习如何完成一项任务时,它基本上需要弄清楚如何通过最大化其奖励来解决问题。在他们的研究中,研究人员专注于从随机装满的垃圾箱中抓取物体的任务。

利用摄像头的输入和夹具的反馈,机器人已经训练了大约80个小时。当它成功地抓住机器人抓到的物体时,它会得到奖励。Berscheid和他的同事开发的算法使机器人的训练更进一步,使它也可以用来提前掌握操作策略,如移位或推动。

“我们工作的关键思想是通过引入额外的移动或推动动作来扩展抓握动作,”Berscheid解释道。“机器人可以决定在不同的情况下采取什么行动。事实上,训练机器人是非常棘手的:首先,它需要很长的时间,所以训练本身需要自动化和自我监控,其次,如果机器人探索他们的环境,会发生许多意想不到的事情。与机器学习中的其他技术类似,机器人学习总是受到数据消耗的限制。

换句话说,我们的工作与两个非常具有挑战性的研究问题有关:机器人如何像机器人一样快速地学习可能性——机器人可以用它们找到的洞察力学习哪些任务?"

正如Berscheid继续解释的那样,如果机器人在每个动作后都收到直接反馈,它就可以更有效地学习,因为它可以克服奖励稀疏的问题。换句话说,向机器人提供的反馈越多(也就是说,它成功行动获得的奖励越多),它就越快学会如何更有效地完成给定的任务。这听起来很容易,但有时很难实现:例如,如何定义预捕捉操作的质量?”伯沙伊德说道。

研究人员提出的方法是基于之前的一项研究,该研究调查了特定动作前后抓取概率差异的使用,重点关注该动作所在的小区域。在他们的新研究中,Berscheid和他的同事们还试图尽快发现机器人应该学习的动作。

这是机器人学习中众所周知的探索问题,”Berscheid解释道我们定义了一个探索策略,既能最大化自我信息,又能最小化行动的不确定性,还能非常有效地计算。"

研究人员提出的算法可以让机器人学习抓取动作(如夹紧或移位)的最佳姿势,以及如何执行这些动作,以增加抓取成功的概率。他们的方法使一个特定的动作(即移动)依赖于另一个动作(即抓取),最终消除了对稀疏奖励的需求,实现了更有效的学习。

研究人员将他们的算法应用于Franka机器人手臂,然后评估它在一项任务中的性能,该任务涉及从垃圾箱中捡起一个物体,直到它完全空了。他们使用的训练系统有25,000种不同的抓地力和2,500种换档方式。他们的研究成果很有希望。机械臂已经成功地捕获并存档了熟悉的对象和其他从未遇到过的对象。

我发现我们工作的两个结果特别令人兴奋。首先,我们认为这项工作真正展示了机器人学习的能力。我们告诉机器人做什么,而不是编程如何做某事——它需要自己想出如何做。在这方面,我们可以应用和总结我们开发的方法来掌握预抓取操作。

其次,更加实用,对于很多工业任务的自动化非常有用,尤其是机器人自己拿起箱子,彻底清空垃圾桶。"

未来,Berscheid及其同事开发的方法可以应用于其他机器人平台,以增强其抓取和抓取操作技能。研究人员现在正计划进一步研究其他研究问题。

例如,到目前为止,他们的方法只允许弗兰克的机械臂用直立的手抓住一个物体,并使用所谓的“平握”。研究人员希望通过引入更多参数和使用额外的训练数据来扩展他们的算法,以实现横向爬行。根据Berscheid的说法,试图实现这一目标时的主要挑战将是确保机器人获得横向抓取,同时在训练阶段保持抓取尝试次数不变。

“此外,抓取物体通常是高级任务的一部分,例如,我们希望将物体放在特定的位置,”Berscheid说。“我们怎样才能准确地定位一个未知物体呢?我觉得这个问题的答案对于解决服务机器人的工业和新应用非常重要。在我们的项目中,我们希望专注于现实世界中的机器人学习,而正在研究的玩具示例与复杂的现实世界应用之间存在差距。

标签:掌握操纵策略的算法