Query Language Model

1 TFIDF

在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。）对于在某一特定文件里的词语 $查询语言模型$ 来说，它的重要性可表示为：

$查询语言模型$

以上式子中 $查询语言模型$ 是该词 $查询语言模型$ 在文件 $查询语言模型$ 中的出现次数，而分母则是在文件 $查询语言模型$ 中所有字词的出现次数之和。

逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

$查询语言模型$

其中

|D|：语料库中的文件总数
$查询语言模型$ ：包含词语 $查询语言模型$ 的文件数目（即 $查询语言模型$ 的文件数目）如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用 $查询语言模型$

然后

$查询语言模型$

2 BM25

考虑的是tf, qtf，和文档长度

Given a query $Q$ , containing keywords $查询语言模型$ , the BM25 score of a document $D$ is:

{\text{score}}(D,Q)=\sum _{i=1}^{n}{\text{IDF}}(q_{i})\cdot {\frac {f(q_{i},D)\cdot (k_{1}+1)}{f(q_{i},D)+k_{1}\cdot \left(1-b+b\cdot {\frac {|D|}{\text{avgdl}}}\right)}},

查询语言模型

where $查询语言模型$ is $查询语言模型$ 's term frequency in the document $D$ , $查询语言模型$ is the length of the document $D$ in words, and $avgdl$ is the average document length in the text collection from which documents are drawn. $查询语言模型$ and $b$ are free parameters, usually chosen, in absence of an advanced optimization, as $查询语言模型$ and $查询语言模型$ .^[1] $查询语言模型$ is the IDF (inverse document frequency) weight of the query term $查询语言模型$ . It is usually computed as: