文件名称:反事实解释背后的隐藏假设和主要原因-研究论文
文件大小:279KB
文件格式:PDF
更新时间:2024-06-29 20:24:10
interpretability counterfactual explanation
反事实解释作为解释机器学习模型决策的一种方式,在技术、法律和商业界越来越受到重视。 这些解释与美国信用法要求的长期确立的“主要理由”解释具有共同特征:它们都通过突出一组被认为最相关的特征来解释决策——并隐瞒其他特征。这些“突出特征的解释”有几个可取的属性:它们对模型的复杂性没有限制,不需要模型披露,详细说明实现不同决策所需的不同之处,并且似乎自动遵守法律。 但它们远比表面看起来复杂和主观。在本文中,我们证明了特征突出解释的效用依赖于一些容易被忽视的假设:特征值的推荐变化清楚地映射到现实世界的动作,可以通过仅查看训练数据的分布来使特征相称,特征仅与手头的决策相关,并且底层模型随着时间的推移是稳定的,单调的,并且仅限于二元结果。然后我们探索几个承认并试图解决这些假设的后果,包括特征突出解释旨在尊重自主性的方式的悖论,特征突出解释赋予决策者不受限制的权力,以及使这些解释有用与需要之间的紧张关系保持模型隐藏。虽然新的研究提出了几种方法来突出特征的解释可以解决一些问题我们发现的问题、模型中的特征与现实世界中的动作之间的脱节——以及补偿这一点所需的主观选择——必须在这些技术得到有效实施之前得到理解。