《Boundary Smooth for NER》

来源： ACL2022, 作者：中科院
命名实体识别(NER)模型很容易遇到over-confidence的问题，从而降低了性能。
基于边界存在的问题，参考 Label Smoothing，作者提出了 boundary smoothing 的训练方法，即使用 biaffine 模型得到 span 分数，在求出的概率矩阵上进行 boundary smoothing，重新分配 span 标注的的概率。
作者的模型在8个常用的NER benchmark上取得了SOTA的结果。并通过进一步的实证分析表明，边界平滑有效地缓解了神经模型过度自信，改善了模型的校准，带来了更平滑的模型预测。
优点：
缓解 over-confidence / 过拟合
增强模型校准能力
缓解错误标注样本带来的误导效果
缓解正负样本不均问题
在这里插入图片描述

在这里插入图片描述
在数据集中，正样本被离散的分配到这些候选span上，原始数据集中一共有378万的候选span，但是仅有3.5w的实体，也就是说正样本只有0.93%，通过标签平滑将可能性分配给标注实体周围的span，也可以缓解原始数据集中正负样本不平衡的问题。

秒客网

《Boundary Smooth for NER》

相关文章