让 GPT-4 这样的大型语言模型 (LLM) 闻一闻雨水浸透的露营地,它会礼貌地拒绝。让同一个系统向你描述那种气味,它会充满诗意地描述“充满期待的空气”和“既清新又泥土的气味”,尽管它既没有雨水经验,也没有鼻子来帮助它进行这样的观察。这种现象的一个可能解释是,LLM 只是模仿其庞大训练数据中存在的文本,而不是真正理解雨水或气味。
但是,没有眼睛是否意味着语言模型永远无法“理解”狮子比家猫“大”?哲学家和科学家长期以来都认为赋予语言意义的能力是人类智慧的标志——并思考哪些基本要素使我们能够做到这一点。
麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员深入研究了这一谜题,发现了有趣的结果,表明语言模型可能会发展自己对现实的理解,从而提高其生成能力。该团队首先开发了一组小型 Karel 谜题,其中包括在模拟环境中提出控制机器人的指令。然后,他们用这些解决方案训练了 LLM,但没有展示这些解决方案的实际工作原理。最后,他们使用一种名为“探测”的机器学习技术,在模型生成新解决方案时查看了模型的“思维过程”。
在对超过 100 万个随机谜题进行训练后,他们发现该模型自发地形成了对底层模拟的概念,尽管在训练期间从未接触过这种现实。这些发现让我们对学习语言意义需要哪些类型的信息以及 LLM 将来是否能比现在更深入地理解语言的直觉产生了质疑。
“在这些实验开始时,语言模型生成的随机指令不起作用。 “当我们完成训练时,我们的语言模型生成指令的正确率达到了 92.4%,”麻省理工学院电气工程和计算机科学 (EECS) 博士生、CSAIL 成员 Charles Jin 说道,他是这项研究新论文的主要作者。“这对我们来说是一个非常激动人心的时刻,因为我们认为,如果你的语言模型能够以这种准确度完成任务,我们可能期望它也能理解语言中的含义。这为我们提供了一个起点,让我们探索 LLM 是否真的能理解文本,现在我们发现它们的能力远不止盲目地将单词拼接在一起。”
在 LLM 的脑海中
探测器帮助金亲眼见证了这一进展。它的作用是解释法学硕士认为的指令意味着什么,揭示法学硕士开发了自己的内部模拟,以模拟机器人如何响应每个指令。随着模型解决难题的能力不断提高,这些概念也变得更加准确,表明法学硕士开始理解指令。不久之后,模型就能始终正确地将各个部分组合在一起,形成工作指令。
金指出,法学硕士对语言的理解是分阶段发展的,就像孩子分多个步骤学习语言一样。一开始,就像婴儿牙牙学语:重复且大多难以理解。然后,语言模型获得语法或语言规则。这使它能够生成看起来像真正的解决方案的指令,但它们仍然不起作用。
不过,法学硕士的指令会逐渐完善。一旦模型获得意义,它就会开始大量生成正确实现所要求规范的指令,就像孩子形成连贯的句子一样。将
方法与模型分开:一个“奇异的世界”
金表示,探测器的目的只是“进入法学硕士的大脑”,但也有可能它也能为模型进行一些思考。研究人员希望确保他们的模型能够独立于探测器理解指令,而不是探测器根据法学硕士掌握的语法推断机器人的动作。
“想象一下,你有一堆数据,这些数据编码了 LM 的思维过程,”金建议道。“探测器就像法医分析师:你把这堆数据交给分析师,然后说,‘这是机器人的移动方式,现在试着在这堆数据中找到机器人的动作。’分析师随后会告诉你,他们知道数据堆中机器人的情况。但如果这堆数据实际上只是编码了原始指令,而分析师已经找到了一些巧妙的方法来提取指令并相应地执行指令,那会怎样呢?那么语言模型实际上根本没有学到指令的含义。”
为了理清他们的角色,研究人员为新探测器翻转了指令的含义。在这个金所说的“奇异世界”中,在使机器人在其网格上移动的指令中,“向上”等方向现在意味着“向下”。金说:
“如果探测器将指令翻译成机器人的位置,它应该能够同样好地根据奇异的含义翻译指令。”“但如果探测器实际上在语言模型的思维过程中找到了原始机器人动作的编码,那么它应该很难从原始思维过程中提取奇异的机器人动作。”事实
证明,新探测器经历了翻译错误,无法解释具有不同指令含义的语言模型。这意味着原始语义嵌入在语言模型中,表明 LLM 独立于原始探测分类器了解需要什么指令。
“这项研究直接针对现代人工智能的一个核心问题:大型语言模型的惊人能力仅仅是由于大规模的统计相关性,还是大型语言模型对它们被要求处理的现实产生了有意义的理解?这项研究表明,尽管 LLM 从未接受过训练,但它开发了模拟现实的内部模型,”麻省理工学院 EECS 教授、CSAIL 成员、该论文的高级作者 Martin Rinard 说。
这项实验进一步证实了团队的分析,即语言模型可以加深对语言的理解。不过,金承认他们的论文存在一些局限性:他们使用了一种非常简单的编程语言和一个相对较小的模型来收集他们的见解。在 即将开展的一项研究中,他们将考虑使用更通用的设置。虽然金的最新研究没有概述如何让语言模型更快地学习意义,但他相信未来的研究可以基于这些见解来改进语言模型的训练方式。
“一个有趣的未解问题是,法学硕士在解决机器人导航问题时是否真的在利用其内部现实模型来推理现实,”里纳德说。“虽然我们的结果与法学硕士以这种方式使用该模型一致,但我们的实验并非旨在回答下一个问题。”
“目前有很多争论,关于法学硕士是否真的‘理解’了语言,或者他们的成功是否可以归因于从大量文本中汲取的技巧和启发式方法,”布朗大学计算机科学和语言学助理教授 Ellie Pavlick 表示,她没有参与这篇论文。“这些问题是我们如何构建人工智能的核心,也是我们期望我们的技术固有的可能性或局限性。这篇论文很好,以一种可控的方式研究了这个问题——作者利用了这样一个事实:计算机代码和自然语言一样,既有语法又有语义,但与自然语言不同的是,语义可以直接观察和操纵,以用于实验目的。实验设计很优雅,他们的发现也很乐观,这表明法学硕士也许可以更深入地了解语言‘含义’。”
Jin 和 Rinard 的论文部分得到了美国国防高级研究计划局 (DARPA) 的资助。