NLP任务中常用的损失函数

时间:2024-01-21 22:09:35
  • 余弦相似度:
    L ( a , b ) = 1 − a ⋅ b ∥ a ∥ ⋅ ∥ b ∥ L(a,b)=1-\frac{a\cdot b}{\Vert a\Vert \cdot \Vert b\Vert } L(a,b)=1abab
    常见的向量空间模型下的相似度计算方法,将文本表示为向量,通过计算它们的余弦值来衡量相似度。
  • 皮尔逊相关系数
    P ( a , b ) = c o v ( a , b ) σ a ⋅ σ b P(a,b)=\frac{cov(a,b)}{\sigma_{a}\cdot\sigma_{b}} P(a,b)=σaσbcov(a,b)
    衡量两个变量之间线性相关性的指标,在语义相似度任务中可以用于评估两个文本向量之间的线性关系。
  • Jaccard相似度
    J ( a , b ) = ∣ a ∩ b ∣ ∣ a ∪ b ∣ J(a,b)=\frac{\vert a\cap b\vert}{\vert a\cup b\vert} J(a,b)=abab
    用于衡量两个集合的相似度,对于文本来说,可以将文本中的词看作是集合中的元素。
  • 欧几里得距离
    D ( a , b ) = ∑ i = 1 n ( a i − b i ) 2 D(a,b)=\sqrt{\sum_{i=1}^{n}(a_{i}-b_{i})^{2 }} D(a,b)=i=1n(aibi)2
  • 曼哈顿距离
    D ( a , b ) = ∑ i = 1 n ∣ a i − b i ∣ D(a,b)=\sum_{i=1}^{n}|a_{i}-b_{i}| D(a,b)=i=1naibi