Towards Explainable Artificial Intelligence

摘要

(Deep Learining) not providing any information about what exactly makes them arrive at their predictions

一、介绍

AI遇到的挑战(对抗样本不鲁棒、缺少可解释性)

  • the lack of robustness to adversarial attacks which pose a severe security risk in application such as autonomous driving
  • the lack of transparency and explainability, which reduces the trust in and the verifiability of the decisions made by an AI system

本文主要想讨论第二点:the lack of transparency and explainability

可解释性不仅能向人们解释AI做出决策的原因,更可能的是产生新的知识。

The remainder of the paper is organized as follows.

Section 1.2 discusses the need for transparency and trust in AI.

Section 1.3 comments on the different types of explanations and their respective information content and use in practice.

Recent techniques of explainable AI are briefly summarized in Sect. 1.4, including methods which rely on simple surrogate functions, frame explanation as an optimization problem, access the model’s gradient or make use of the model’s internal structure.

The question of how to objectively evaluate the quality of explanations is addressed in Sect. 1.5.

The paper concludes in Sect. 1.6 with a discussion on general challenges in the field of explainable AI.

二、Need for Transparency and Trust in AI

现实需求

Case 1:当AI发生判断错误时候,需要可解释性来告诉我们为什么AI会判断出错

Clever Hans

AI在学习中,会将一些共现信息当作识别对象;比如:看到水就识别出船只、看到铁轨就识别出火车、甚至看到水印就识别出马

The occurrence of the copyright tags in horse images is a clear artifact in the dataset, which had gone unnoticed to the organizers and participants of the challenge for many years.

这说明数据对于AI学习的影响非常大,而且我们很难在一开始去消除训练数据中所有的共现信息。

对于极端case,可解释性能帮助我们展示检测器的misbehaviour

Case 2: 可解释性帮助提升模型的可信度

如何提升模型可信度?

  1. 提供决策的原因、过程
  2. 更好的与人进行交互(explanations help to build trust in a relationship between humans)
Case3: 解释是洞察新事物的先决条件

AI systems have the potential to discover patterns in data, which are not accessible to the human expert.

以围棋为例,可以通过可解释AI发现新的决策、新的见解。

Case4: 可解释性可以为AI立法、伦理做支撑
  • Anti-discrimination and fairness aspects
  • 要求AI在做出判断时需要给出决策原因(增强AI模型的透明度)

三、解释方法

从信息内容、接收者、目的三个角度进行AI可解释性研究

1 Recipient

向不同的对象进行解释需要准备不同的内容以及详细程度,这里想讨论XAI模型向哪些对象进行解释。

  • 对于图片分类任务,给用户解释判断原因可能只需要高亮目标区域
  • 对于模型的开发人员,可能需要展示尽可能多的更有用、更细粒度的信息;因为只有这些完整的信息才能提供对模型功能的详细了解。
2 Information Content

介绍了四种不同的解释方式

  • Explaining learned representations

    比如分析训练好的网络中神经元的可解释性

    比如对于分类模型,可以通过让模型生成该类别原型图片来分析模型是否真正学到了判别此类别

  • Explaining individual predictions

    heatmaps visualizing(highlighting the most sensitive parts of an input)

    Layer-wise Relevance Propagation(LRP)

  • Explaining model behavour

    解释模型的整体表现,可以对全部个体的解释做统计,进而得出对模型表现的更普遍的分析

  • Explaining with representative examples

    从训练样本集中选择有代表性的样本,这种类型的解释对于更好地理解训练数据集以及它如何影响模型是有用的;此外,这些代表性的样本可以潜在地帮助识别数据中的偏差,使模型对训练数据集的变化更加稳健。

3 Role

在XAI中,有一个问题是解释方法与我们真正想探究的内容不一致,因此本节主要想从这两个观点进行分析:

  • 某种解释方法的意图(what specific question does the explanation answer?)
  • 我们真正想探究的问题(what do we want to use the explanation for?)

Explanations are relative and it makes a huge difference whether their intent is to explain the prediction as is, whether they aim to visualize what the model “thinks” about a specific class, or whether they explain the prediction relative to another alternative.

此外,解释的目的还可以是提升模型的性能(提升判别能力、模型压缩、修剪)

四、可解释模型方法

介绍了四种模型可解释方法

  1. 利用替代模型进行可解释性分析

    用可解释性高的模型解释黑盒模型(LIME)

  2. 可视化局部扰动

    包括三种:基于梯度信息、基于局部扰动、基于优化的方法

    基于梯度信息的可解释性分析方法(如灵敏度分析)存在的问题:gradient shattering and explanation discontinuities

    基于模型扰动的可解释性分析:很难做出进一步的解释

  3. 基于传播的方法

    代表工作:Layer-wise Relevance Propagation (LRP) 、Deconvolution、Guided Backprogagation

    LRP不受gradient shattering and explanation discontinuities影响

  4. 元解释

    元解释从个体解释发展而来

    代表工作:spectral relevance analysis(SpRAy)、network dissection

    clustering individual heatmaps

五、可解释性评价与度量

  • measure for heatmap quality(perturbation analysis)
    • 根据扰动造成置信度掉点的多少来进行分析
    • pointing game,通过解释对象的位置来评估模型的判别能力

六、Challenges and Open Questions

  • heatmaps computed with today’s explanation methods visualize “first-order” information

    意思是当前的一些工作都只是将特征和语义信息对应,但是缺少对于特征之间的关系的分析

  • the low abstraction level of explanations

    缺少对于高语义信息的解释,比如热图只是解释了某像素对于判别是重要的,缺少更高语义内容的解释

  • explanations beyond visualization

  • 人机交互

  • AI可解释性理论