麻省理工学院的研究人员提高了人工智能模型的自动可解释性

【阿里云】云服务器经济型e实例/2核2G/3M/40g,新人专享渠道特惠价只要99元!特惠热卖中。

随着人工智能模型越来越流行,并被整合到医疗保健、金融、教育、交通和娱乐等各个领域,了解它们的工作原理至关重要。解读人工智能模型背后的机制使我们能够审核它们的安全性和偏见,并有可能加深我们对智能背后的科学的理解。

麻省理工学院的研究人员提高了人工智能模型的自动可解释性

麻省理工学院的研究人员提高了人工智能模型的自动可解释性

想象一下,如果我们可以通过操纵每个神经元来直接研究人类大脑,以检查它们在感知特定物体方面的作用。虽然这样的实验对人类大脑来说过于侵入,但在另一种类型的神经网络中更可行:人工神经网络。然而,与人类大脑有些相似,包含数百万个神经元的人工模型太大太复杂,无法手工研究,因此大规模解释是一项非常具有挑战性的任务。

为了解决这个问题,麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员决定采用自动化方法来解释评估图像不同属性的人工视觉模型。他们开发了“MAIA”(多模态自动可解释性代理),该系统使用配备了在其他 AI 系统上进行实验的工具的视觉语言模型主干,自动执行各种神经网络可解释性任务。

“我们的目标是创造一个可以自主进行可解释性实验的人工智能研究员。现有的自动可解释性方法仅仅是一次性标记或可视化数据。另一方面,MAIA 可以生成假设,设计实验来测试它们,并通过迭代分析来完善其理解,”麻省理工学院电气工程与计算机科学 (EECS) 博士后、CSAIL 和这项研究新论文的共同作者 Tamar Rott Shaham 说。“通过将预先训练的视觉语言模型与可解释性工具库相结合,我们的多模态方法可以通过在特定模型上编写和运行有针对性的实验来响应用户查询,不断改进其方法,直到它能够提供全面的答案。”

事实证明,自动化代理可以解决三个关键任务:标记视觉模型中的各个组件并描述激活它们的视觉概念;通过删除不相关的特征来清理图像分类器,使其对新情况更具鲁棒性;寻找人工智能系统中的隐藏偏见,以帮助发现其输出中潜在的公平性问题。“但像 MAIA 这样的系统的一个关键优势是它的灵活性,”CSAIL 的研究科学家兼研究联合负责人 Sarah Schwettmann 博士 ’21 说。“我们在一些特定任务上展示了 MAIA 的实用性,但鉴于该系统是基于具有广泛推理能力的基础模型构建的,它可以回答用户提出的许多不同类型的可解释性查询,并动态设计实验来调查它们。”

神经元

在一个示例任务中,人类用户要求 MAIA 描述视觉模型内特定神经元负责检测的概念。为了研究这个问题,MAIA 首先使用一个工具从 ImageNet 数据集中检索“数据集样本”,从而最大限度地激活神经元。对于这个示例神经元,这些图像显示人们穿着正式服装,并特写了他们的下巴和脖子。MAIA 对驱动神经元活动的因素提出了各种假设:面部表情、下巴或领带。然后,MAIA 使用其工具设计实验,通过生成和编辑合成图像来单独测试每个假设——在一个实验中,在人脸图像上添加领结会增加神经元的反应。“这种方法让我们能够确定神经元活动的具体原因,就像一个真正的科学实验一样,”Rott Shaham 说。

MAIA 对神经元行为的解释主要通过两种方式进行评估。首先,使用具有已知真实行为的合成系统来评估 MAIA 解释的准确性。其次,对于没有真实描述的经过训练的 AI 系统内的“真实”神经元,作者设计了一种新的自动评估协议,用于测量 MAIA 的描述在多大程度上能够很好地预测未见数据的神经元行为。

CSAIL 领导的方法优于描述各种视觉模型(如 ResNet、CLIP 和视觉转换器 DINO)中单个神经元的基线方法。MAIA 在具有已知真实描述的新合成神经元数据集上也表现良好。对于真实系统和合成系统,描述通常与人类专家撰写的描述相当。

对 AI 系统组件(如单个神经元)的描述有何用处?“在部署这些系统之前,了解和定位大型 AI 系统内部的行为是审核这些系统安全性的关键部分——在我们的一些实验中,我们展示了如何使用 MAIA 来查找具有不良行为的神经元并从模型中去除这些行为,”Schwettmann 说。“我们正在构建一个更具弹性的 AI 生态系统,在这个生态系统中,用于理解和监控 AI 系统的工具可以与系统扩展保持同步,使我们能够调查并希望了解新模型带来的不可预见的挑战。” 窥视

神经网络内部

随着“黑箱”机器学习模型的兴起,新兴的可解释性领域正在逐渐成熟为一个独特的研究领域。研究人员如何破解这些模型并了解它们的工作原理?

目前窥探内部的方法往往在规模或解释精度方面受到限制。此外,现有方法往往适用于特定模型和特定任务。这导致研究人员提出疑问:我们如何构建一个通用系统来帮助用户回答有关人工智能模型的可解释性问题,同时将人工实验的灵活性与自动化技术的可扩展性相结合?

他们希望该系统解决的一个关键领域是偏见。为了确定图像分类器是否对特定的图像子类别表现出偏见,团队研究了分类流的最后一层(在设计用于对项目进行分类或标记的系统中,就像识别照片是狗、猫还是鸟的机器一样)和输入图像的概率分数(机器为其猜测分配的置信度)。为了了解图像分类中的潜在偏见,MAIA 被要求找到特定类别(例如“拉布拉多猎犬”)中可能被系统错误标记的图像子集。在这个例子中,MAIA 发现黑色拉布拉多猎犬的图像很可能被错误分类,这表明模型对黄色皮毛的猎犬存在偏见。

由于 MAIA 依赖外部工具来设计实验,因此其性能受到这些工具质量的限制。但是,随着图像合成模型等工具质量的提高,MAIA 也会随之提高。MAIA 有时也会出现确认偏差,有时会错误地确认其初始假设。为了缓解这种情况,研究人员构建了一个图像到文本的工具,它使用语言模型的不同实例来总结实验结果。另一种失败模式是对特定实验的过度拟合,其中模型有时会根据最少的证据做出过早的结论。

“我认为我们实验室的下一步自然是超越人工系统,将类似的实验应用于人类感知,”Rott Shaham 说道。“测试这一点传统上需要手动设计和测试刺激,这是一项劳动密集型工作。有了我们的代理,我们可以扩大这个过程,同时设计和测试大量刺激。这也可能让我们将人类的视觉感知与人工系统进行比较。”

“理解神经网络对人类来说很困难,因为神经网络有数十万个神经元,每个神经元都有复杂的行为模式。MAIA 通过开发能够自动分析这些神经元并以易于理解的方式向人类报告提炼结果的人工智能代理来帮助解决这一问题,”加州大学伯克利分校助理教授 Jacob Steinhardt 表示,他没有参与这项研究。“扩大这些方法的规模可能是理解和安全监督人工智能系统的最重要途径之一。”

Rott Shaham 和 Schwettmann 与 CSAIL 的五位同事一起撰写了这篇论文:本科生 Franklin Wang;即将入学的麻省理工学院学生 Achyuta Rajaram;EECS 博士生 Evan Hernandez SM ’22;以及 EECS 教授 Jacob Andreas 和 Antonio Torralba。他们的工作得到了麻省理工学院-IBM Watson AI 实验室、开放慈善组织、现代汽车公司、陆军研究实验室、英特尔、美国国家科学基金会、Zuckerman STEM 领导力计划和 Viterbi 奖学金的部分支持。研究人员的研究成果将于本周在国际机器学习会议上发表。

© 版权声明

相关文章

暂无评论

暂无评论...