人们使用大型语言模型来完成各种各样的任务,从翻译文章到识别金融欺诈。然而,尽管这些模型具有令人难以置信的能力和多功能性,但它们有时会产生不准确的响应。
除此之外,模型可能对错误答案过于自信,或对正确答案不够自信,这使得用户很难知道何时可以信任模型。
研究人员通常会校准机器学习模型,以确保其置信度与准确度一致。经过良好校准的模型对错误预测的置信度应该较低,反之亦然。但由于大型语言模型 (LLM) 可以应用于看似无穷无尽的各种任务,因此传统的校准方法无效。
现在,麻省理工学院和麻省理工学院-IBM Watson AI 实验室的研究人员推出了一种针对大型语言模型的校准方法。他们的方法称为“温度计”,涉及构建一个较小的辅助模型,该模型在大型语言模型上运行以对其进行校准。
温度计比其他方法更高效——需要更少的耗电计算——同时保持模型的准确性,并使其能够对以前从未见过的任务产生更好的响应。
通过对各种任务的 LLM 进行高效校准,Thermometer 可以帮助用户精确定位模型对错误预测过度自信的情况,最终防止他们在可能失败的情况下部署该模型。
“借助温度计,我们希望向用户提供清晰的信号,告诉他们模型的响应是否准确,以反映模型的不确定性的方式,让他们知道该模型是否可靠,”电气工程与计算机科学 (EECS) 研究生兼温度计论文主要作者 Maohao Shen说道。
与沈一起参与该论文的还有住友工程学教授、电子研究实验室信号、信息和算法实验室负责人、麻省理工学院-IBM 沃森人工智能实验室成员 Gregory Wornell;资深作者、麻省理工学院-IBM 沃森人工智能实验室研究员 Soumya Ghosh;以及麻省理工学院和麻省理工学院-IBM 沃森人工智能实验室的其他人员。这项研究最近在国际机器学习会议上发表。
通用校准
由于传统的机器学习模型通常设计用于执行单一任务,因此校准它们通常需要一种特定于任务的方法。另一方面,由于 LLM 具有执行多项任务的灵活性,因此使用传统方法校准该模型以完成一项任务可能会损害其在另一项任务上的表现。
校准 LLM 通常需要多次从模型中抽样以获得不同的预测,然后汇总这些预测以获得更好的校准置信度。然而,由于这些模型有数十亿个参数,因此这种方法的计算成本会迅速增加。
“从某种意义上说,大型语言模型具有通用性,因为它们可以处理各种任务。因此,我们需要一种可以处理许多不同任务的通用校准方法,”沈说。
利用温度计,研究人员开发了一种多功能技术,该技术利用一种称为温度缩放的经典校准方法来有效地校准新任务的 LLM。
在此上下文中,“温度”是一个缩放参数,用于调整模型的置信度,使其与预测准确度保持一致。传统上,人们使用特定于任务的示例的标记验证数据集来确定正确的温度。
由于 LLM 经常应用于新任务,因此几乎不可能获取标记数据集。例如,想要部署 LLM 来回答客户关于新产品的问题的用户很可能没有包含此类问题和答案的数据集。
研究人员没有使用标记数据集,而是训练了一个在 LLM 上运行的辅助模型,以自动预测执行这项新任务所需的温度。
他们使用一些代表性任务的标记数据集来训练温度计模型,但是一旦训练完成,它就可以推广到类似类别的新任务,而无需额外的标记数据。
例如,在一系列多项选择题数据集上训练的温度计模型,可能包括一个代数问题和一个医学问题,可以用来校准回答几何或生物学问题的法学硕士学位。
Ghosh 说道:“我们的理想目标是让它能够完成任何任务,但我们还没有完全实现。”
温度计模型只需要访问 LLM 内部工作原理的一小部分即可预测正确的温度,从而校准其对特定任务的数据点的预测。
一种有效的方法
重要的是,该技术不需要多次训练,并且只会稍微减慢 LLM。此外,由于温度缩放不会改变模型的预测,因此 Thermometer 可以保持其准确性。
当他们将温度计与多个任务上的几个基线进行比较时,它始终能产生更好校准的不确定性测量,同时所需的计算量要少得多。
“只要我们在足够多的任务上训练温度计模型,它就应该能够很好地推广到任何新任务,就像大型语言模型一样,它也是一个通用模型,”沈补充道。
研究人员还发现,如果他们为较小的 LLM 训练温度计模型,则可以直接应用于校准同一家族中较大的 LLM。
未来,他们希望让 Thermometer 适应更复杂的文本生成任务,并将该技术应用于更大的 LLM。研究人员还希望量化训练 Thermometer 模型所需的标记数据集的多样性和数量,以便该模型可以推广到新任务。
这项研究的部分资金来自麻省理工学院-IBM Watson AI 实验室。