NLP之词的重要性-TF*IDF

时间:2024-07-15 07:09:49

如何用数学刻画上面重要的词呢?有一种nlp的经典统计值:TF*IDF。TF:词频,某个词在某类别中出现的次数/该类别词总数,IDF:逆文档频率。 I D F = l o g N 包含该词的文档数 + 1 IDF=log \frac{N}{包含该词的文档数+1} IDF=log包含该词的文档数+1N
N N N为文档数量。逆文档频率高说明该词很少出现在其他文档。每个词对于每个类别都会得到一个TF·IDF值
TF·IDF高说明该词对于该领域重要程度高,低则相反。