如何用数学刻画上面重要的词呢?有一种nlp的经典统计值:TF*IDF。TF:词频,某个词在某类别中出现的次数/该类别词总数,IDF:逆文档频率。
I
D
F
=
l
o
g
N
包含该词的文档数
+
1
IDF=log \frac{N}{包含该词的文档数+1}
IDF=log包含该词的文档数+1N
N
N
N为文档数量。逆文档频率高说明该词很少出现在其他文档。每个词对于每个类别都会得到一个TF·IDF值
TF·IDF高说明该词对于该领域重要程度高,低则相反。