有一天,你可能希望你的家用机器人能把一堆脏衣服搬到楼下,并把它们放在地下室最左边角落的洗衣机里。机器人需要结合你的指令和视觉观察来确定完成这项任务应该采取的步骤。
对于 AI 代理来说,这说起来容易做起来难。目前的方法通常利用多个手工制作的机器学习模型来解决任务的不同部分,这需要大量的人力和专业知识来构建。这些方法使用视觉表示直接做出导航决策,需要大量的视觉数据进行训练,而这些数据通常很难获得。
为了克服这些挑战,麻省理工学院和麻省理工学院-IBM Watson AI 实验室的研究人员设计了一种导航方法,将视觉表征转换为语言片段,然后将其输入到一个大型语言模型中,该模型可实现多步导航任务的所有部分。
他们的方法不是将机器人周围环境图像中的视觉特征编码为视觉表征(这需要大量计算),而是创建描述机器人视角的文本字幕。大型语言模型使用这些字幕来预测机器人应采取哪些动作来执行用户的语言指令。
由于他们的方法利用纯粹基于语言的表示,因此他们可以使用大型语言模型来有效地生成大量合成训练数据。
虽然这种方法并不比使用视觉特征的技术更好,但在缺乏足够视觉数据进行训练的情况下,它表现良好。研究人员发现,将基于语言的输入与视觉信号相结合可以提高导航性能。
“通过纯粹使用语言作为感知表征,我们的方法更加直接。由于所有输入都可以编码为语言,我们可以生成人类可理解的轨迹,”电气工程和计算机科学 (EECS) 研究生、该方法论文的主要作者 Bowen Pan 说道。
潘的合著者包括他的导师、麻省理工学院施瓦茨曼计算机学院战略行业参与主任、麻省理工学院-IBM 沃森人工智能实验室主任、计算机科学与人工智能实验室 (CSAIL) 高级研究员 Aude Oliva;EECS 副教授、CSAIL 成员 Philip Isola;EECS 助理教授、CSAIL 成员 Yoon Kim 资深作者;以及麻省理工学院-IBM 沃森人工智能实验室和达特茅斯学院的其他人员。这项研究将在计算语言学协会北美分会会议上发表。
用语言解决视觉问题
潘说,由于大型语言模型是现有的最强大的机器学习模型,研究人员试图将它们融入到被称为视觉和语言导航的复杂任务中。
但此类模型仅接受基于文本的输入,无法处理来自机器人摄像头的视觉数据。因此,该团队需要找到一种使用语言的方法。
他们的技术利用简单的字幕模型来获取机器人视觉观察的文本描述。这些字幕与基于语言的指令相结合,并输入到大型语言模型中,该模型决定机器人下一步应采取什么导航步骤。
大型语言模型会输出机器人完成该步骤后应该看到的场景的标题。这用于更新轨迹历史,以便机器人可以跟踪它去过的地方。
模型重复这些过程来生成一条轨迹,引导机器人一步步到达目标。
为了简化这一过程,研究人员设计了模板,以便以标准形式将观察信息呈现给模型——作为机器人根据周围环境做出的一系列选择。
例如,标题可能会说“在你的左边 30 度处有一扇门,门旁边有一盆盆栽,在你的身后是一个小办公室,里面有一张桌子和一台电脑”等等。模型会选择机器人是应该朝门还是办公室移动。
“最大的挑战之一是弄清楚如何以适当的方式将这类信息编码成语言,以便代理了解任务是什么以及他们应该如何响应,”潘说。
语言优势
当他们测试这种方法时,虽然它无法胜过基于视觉的技术,但他们发现它具有几个优点。
首先,由于合成文本所需的计算资源比复杂的图像数据要少,因此他们的方法可用于快速生成合成训练数据。在一次测试中,他们根据 10 条真实世界的视觉轨迹生成了 10,000 条合成轨迹。
该技术还可以弥补在模拟环境中训练的代理无法在现实世界中表现良好的缺陷。这种缺陷经常发生,因为计算机生成的图像可能由于光线或颜色等因素而与现实世界场景大不相同。但潘说,描述合成图像和真实图像的语言会更难区分。
此外,由于他们的模型所使用的表示是用自然语言编写的,因此更容易被人类理解。
“如果代理未能实现其目标,我们可以更轻松地确定它失败的位置和原因。也许历史信息不够清晰,或者观察忽略了一些重要细节,”潘说。
此外,他们的方法可以更容易地应用于各种任务和环境,因为它只使用一种输入类型。只要数据可以编码为语言,他们就可以使用相同的模型而无需进行任何修改。
但一个缺点是,他们的方法自然会丢失一些基于视觉的模型可以捕获的信息,例如深度信息。
然而,研究人员惊讶地发现,将基于语言的表现形式与基于视觉的方法相结合可以提高代理的导航能力。
“也许这意味着语言可以捕捉一些纯视觉特征无法捕捉的更高级的信息,”他说。
这是研究人员想要继续探索的一个领域。他们还想开发一个导航导向的字幕器,以提高该方法的性能。此外,他们还想探索大型语言模型展现空间意识的能力,看看这如何有助于基于语言的导航。