研究使机器人更善于听从语音指令

根据布朗大学计算机科学家的研究，一种新的系统可以使机器人更好地执行语音指令，无论这些指令多么抽象或具体。本周在波士顿举行的“机器人:科学与系统2017”大会上公布了这一进展，这是机器人朝着与人类协作者进行更无缝交流的方向迈出的一步。

这项研究由Dilip Arumugam和Siddharth Karamcheti领导，他们都是布朗大学的本科生(Arumugam现在是布朗大学的研究生)。他们与研究生纳库尔·戈帕兰(Nakul Gopalan)和博士后研究员劳森·l·s·王(Lawson L.S. Wong)在布朗大学计算机科学教授斯蒂芬妮·泰利克斯(Stefanie Tellex)的实验室里合作。

“我们解决的问题是语言基础，这意味着让机器人接受自然语言命令，并产生成功完成任务的行为，”Arumugam说。“问题是命令可能有不同的抽象层次，这可能导致机器人无法有效地计划其行动，或者根本无法完成任务。”

例如，想象一个人在仓库里与一台机器人叉车并肩工作。这个人可能会对机器人伙伴说，“抓住那个托盘。”这是一个高度抽象的命令，它暗示着许多小的子步骤——将电梯排成一行，把叉子放在下面，然后把它提起来。然而，其他常见的命令可能更细粒度，只涉及一个动作:例如，“将叉子向后倾斜一点”。

研究人员说，这些不同层次的抽象可能会给当前的机器人语言模型带来问题。大多数模型试图从命令中的单词和句子结构中识别线索，然后从语言中推断出期望的动作。推理结果然后触发一个计划算法，试图解决任务。但如果不考虑指令的特殊性，机器人可能会对简单指令做过多规划，或者对包含更多子步骤的更抽象指令做过少规划。这可能会导致不正确的行动，或者在机器人采取行动之前有过长的计划延迟。

但是这个新系统给现有的模型增加了额外的复杂性。除了简单地从语言推断出所需的任务外，新系统还分析语言以推断出不同的抽象级别。

Arumugam说:“这使我们能够将任务推断以及推断的特异性级别与层次规划器结合起来，这样我们就可以在任何抽象级别上进行规划。”“反过来，与现有系统相比，我们可以在执行任务时获得显著的性能提升。”

为了开发他们的新模型，研究人员使用了Mechanical Turk、亚马逊的众包市场和一个名为Cleanup World的虚拟任务域。在线域由几个用不同颜色编码的房间、一个机器人代理和一个可以操纵的对象(在本例中是一个可以从一个房间移动到另一个房间的椅子)组成。

机械土耳其志愿者观看机器人代理在清理世界领域执行一项任务——例如，将椅子从一个红色房间移到相邻的蓝色房间。然后，志愿者被要求说出他们会给机器人什么样的指令，让它完成他们刚刚看到的任务。志愿者们被给予指导，他们的方向应该有多具体。从高层的“把椅子搬到蓝屋”，到阶梯层的“往北走五步，右转，再走两步，拿到椅子，向左转，向左转，往南走五步”。第三个抽象层次使用介于两者之间的术语。

研究人员利用志愿者的语音指令来训练他们的系统，让他们理解在每个抽象层次中使用的是什么单词。从那里，系统不仅学会了推断所需的操作，而且还学会了推断命令的抽象级别。知道了这两件事，系统就可以触发它的分层规划算法，从适当的层次解决任务。

在训练了他们的系统之后，研究人员在虚拟的清洁世界和一个实际的、类似于roomba的机器人在类似于清洁世界空间的物理世界中进行了测试。他们发现，当机器人能够推断出任务和指令的特异性时，90%的情况下，它能在一秒钟内对指令做出反应。相比之下，当没有推断出特异性水平时，一半的任务需要20秒或更多的计划时间。

“我们最终希望看到机器人在我们的家庭和工作场所成为有用的合作伙伴，”专门从事人与机器人合作的泰利克斯说。“这项工作朝着使人类能够像人类与他人沟通一样与机器人沟通的目标迈进了一步。”

相关推荐：