NLP 笔记:TF-IDF
TF(词频) TF代表的是某个词在一篇文档中出现的频率。 这个频率可以通过计算词在文档中出现的次数与该文档中总词数的比例来得到。 词频衡量了某个词在特定文档中的重要性。 w是某个单词 d是特定文档 count(w,d)——这个单词在这个文档中出现的次数 size(d)——这个文档的单词数量 IDF(逆文档频率) IDF则衡量的是某个词在整个文档集中的普遍性 IDF用来降低
复制链接