Explainable AI — 可解释人工智能

可解释人工智能（Explainable AI，简称XAI）是人工智能领域的一个研究方向和方法集合，旨在使机器学习模型的决策和行为能够为人类所理解^[1]。XAI的主要目标是将复杂的、不透明的模型（通常被称为“黑箱”）转变为能够解释其决策过程的“透明”或“玻璃箱”模型。

随着复杂模型的发展，尤其是大型语言模型（LLM）的出现，对可解释性的需求急剧增加。这些模型尽管准确率很高，但其内部机制对开发者和用户来说并不直观。缺乏透明度会带来风险，因为模型可能会犯下隐藏的错误、表现出偏见或生成不可靠的信息，而如果没有适当的解释，这些问题的原因将无法被理解^[2]。

XAI的意义与必要性

可解释AI的必要性已获得科学界和监管机构的共识。XAI的发展对于理解复杂AI系统的行为、局限性和社会影响至关重要。

信任与技术采纳。用户，尤其是在医疗和金融等关键领域，更倾向于信任那些能够为其结论提供依据的系统。解释能够提高透明度，增强人们对模型正确、合乎道德地运行的信心^[3]。
识别与减轻偏见。可解释性有助于发现模型是否依赖于数据中不期望或不道德的相关性（例如，与种族、性别或年龄相关的偏见）。这使得开发者能够识别并纠正算法偏见^[1]。
可靠性与鲁棒性。可解释性有助于识别模型的漏洞，包括对抗性攻击（adversarial attacks），并提高其对输入数据微小扰动的抵御能力。
满足法规要求。诸如欧盟的GDPR等法规，确立了个人有权就自动化系统所做的决策获得解释的权利。美国国防部高级研究计划局（DARPA）于2017年启动的XAI项目，也旨在创建能够向用户提供可解释说明的AI系统^[4]。

模型可解释性方法

XAI方法大致可分为两大类：本身就透明的“原生”可解释模型，以及用于解释“黑箱”模型的“事后”方法。

可解释模型（“透明箱”）

这些算法的内部结构本身就简单易懂。它们包括：

线性回归
逻辑回归
深度较浅的决策树
基于规则的模型（Rule-based systems）

这类模型易于解释，但在处理复杂数据时，其准确性通常不如更复杂的模型（如深度神经网络）。在准确性与可解释性之间存在一种权衡^[1]。

事后解释方法（“黑箱”）

这些方法应用于已经训练好的复杂模型，而不改变其内部结构。它们通过生成额外的信息来帮助理解模型的预测逻辑。事后解释分为局部解释和全局解释。

局部解释

局部方法旨在解释模型对单个特定输入样本的预测。

LIME（Local Interpretable Model-agnostic Explanations）：作为最流行的方法之一，LIME通过在特定预测的局部邻域内构建一个简单的、可解释的代理模型（例如线性回归）来近似复杂“黑箱”模型的行为^[1]。
SHAP（SHapley Additive exPlanations）：该方法基于合作博弈论中的沙普利值。SHAP通过在特征之间公平分配“收益”（预测值与平均值之差），来计算每个特征对最终预测的贡献。这种方法提供了理论上合理且一致的解释^[5]。
反事实解释：这类解释生成“假设”场景。它们展示了输入数据的哪些最小变化会导致不同的结果（例如，“如果您的年收入再高5000美元，您的贷款申请就会获批”）^[1]。

全局解释

全局方法旨在解释模型的整体逻辑或其掌握的全部知识。这包括对整个数据集进行特征重要性分析，以及对模型的内部表示进行可视化。

针对大型语言模型（LLM）的可解释性

大型语言模型为XAI带来了特殊的挑战，同时也创造了新的机遇。其巨大的规模和复杂性使得传统方法的应用变得困难，但它们处理自然语言的能力为解释开辟了新途径。

注意力机制分析（Attention Visualization）

Transformer架构中的self-attention机制能够可视化模型在生成答案时“关注”输入文本的哪些部分（词元）。虽然这为了解模型的工作方式提供了直观的视角，但科学界仍在争论注意力是否能构成一个完整的解释，因为注意力权重高并不总意味着存在因果关系^[6]。

机械可解释性

这是最深层次的可解释性，旨在对神经网络的工作方式进行彻底的逆向工程。研究人员试图识别并理解特定的“回路”（circuits）——即实现特定算法功能（如识别语法结构或检索事实）的神经元及其连接^[7]。

通过自然语言进行解释

LLM的一个独特能力是解释其自身。通过使用诸如思维链（Chain-of-Thought）之类的提示技术，可以促使模型生成导致其结论的逐步推理过程。这使得决策过程对用户而言更加透明。然而，这类解释可能是不忠实的（unfaithful）——模型可能会生成一个有说服力但虚假的理由，而这个理由并未反映其真实的内部处理过程^[8]。

外部链接

注释

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 Arrieta, A. B. et al. «Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI». Information Fusion, 2020. [1]
↑ Zhao, H. et al. «Explainability for Large Language Models: A Survey». arXiv:2309.01512, 2023. [2]
↑ «What is Explainable AI (XAI)?». IBM. [3]
↑ «Explainable Artificial Intelligence». DARPA. [4]
↑ Linardatos, P. et al. «Explainable AI: A Review of Machine Learning Interpretability Methods». Entropy, 2021. [5]
↑ Jain, S. & Wallace, B. C. «Attention is not Explanation». arXiv:1902.10186, 2019. [6]
↑ Lan, Q. et al. «Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models». arXiv:2311.04131, 2023. [7]
↑ Singh, C. et al. «Rethinking Interpretability in the Era of Large Language Models». arXiv:2402.01761, 2024. [8]

[arrieta2020-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 Arrieta, A. B. et al. «Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI». Information Fusion, 2020. [1]

[zhao2023-2] Zhao, H. et al. «Explainability for Large Language Models: A Survey». arXiv:2309.01512, 2023. [2]

[ibm_xai-3] «What is Explainable AI (XAI)?». IBM. [3]

[darpa_xai-4] «Explainable Artificial Intelligence». DARPA. [4]

[linardatos2021-5] Linardatos, P. et al. «Explainable AI: A Review of Machine Learning Interpretability Methods». Entropy, 2021. [5]

[attention_not_explanation_arxiv-6] Jain, S. & Wallace, B. C. «Attention is not Explanation». arXiv:1902.10186, 2019. [6]

[lan2023circuits-7] Lan, Q. et al. «Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models». arXiv:2311.04131, 2023. [7]

[singh2024rethinking-8] Singh, C. et al. «Rethinking Interpretability in the Era of Large Language Models». arXiv:2402.01761, 2024. [8]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Explainable AI — 可解释人工智能

Contents

XAI的意义与必要性

模型可解释性方法

可解释模型（“透明箱”）

事后解释方法（“黑箱”）

局部解释

全局解释

针对大型语言模型（LLM）的可解释性

注意力机制分析（Attention Visualization）

机械可解释性

通过自然语言进行解释

外部链接

注释

Navigation menu

Explainable AI — 可解释人工智能

XAI的意义与必要性

模型可解释性方法

可解释模型（“透明箱”）

事后解释方法（“黑箱”）

局部解释

全局解释

针对大型语言模型（LLM）的可解释性

注意力机制分析（Attention Visualization）

机械可解释性

通过自然语言进行解释

外部链接

注释

Navigation menu

Search