文件列表:
使用高影响概念解释语言模型的预测【英文版】.pdf |
下载文档 |
资源简介
>
英文标题:Explaining Language Models' Predictions with High-Impact Concepts中文摘要:本文提出了一个完整的框架,将基于概念的解释性方法扩展到 NLP 领域, 提出了一种后期解释性方法,从预训练模型的隐藏层激活中提取具有预测高水平特征(概念),优化具有高影响力的特征的存在,设立了多种评估指标。在真实和合成任务上的广泛实验表明,与基线相比,我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。英文摘要:The emergence of large-scale pretrained language models has posedunprecedented challenges in deriving explanations of why the model has madesome predictions. Stemmed from the compositional nature of languages, spuriouscorrelations have further undermined the trust
加载中...
已阅读到文档的结尾了