【NLP系列】Bert词向量的空间分布

作者：京东零售彭馨

1. 背景

我们知道Bert 预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果，但在语义相似度任务上，表现相较于 Word2Vec、Glove 等并没有明显的提升。有学者研究发现，这是因为 Bert 词向量存在各向异性（不同方向表现出的特征不一致），高频词分布在狭小的区域，靠近原点，低频词训练不充分，分布相对稀疏，远离原点，词向量整体的空间分布呈现锥形，如下图，导致计算的相似度存在问题。

秒客网

【NLP系列】Bert词向量的空间分布

1. 背景

相关文章