针对特征词选择法的验证实验“各种特征词选择算法对文本分类性能的影响”：纸上得来终觉浅，觉知此事要躬行

（注：博文转载请注明作者和出处作者：finallyliuyu 出处：博客园）

本博文旨在通过实践验证各种特征词选择算法对文本分类性能的影响。

根据Yi ming yang 1999年的论文《A comparision of feature selection algorithms in Text Categorization》中的论断： DF,IG,CHI-square法性能差不多，point wise MI方法性能最差。本篇论文中采用的分类器为KNN于LLSF。语料库来自Reuters-22173 collection和OHSUMED

collection Reuters-22173：测试语料库有文章9610篇，测试语料库有文章3662篇；OHSUMED 中训练语料库有文章1990篇，测试语料库有文章1991篇

在Maning的《信息检索导论》中，见第十三章也采用了Reuters 的语料库对各种特征词选择算法，以及分类器做了评估，在这里不再赘述，可以参阅书籍。

在李晓明，闫宏飞，王继民的《搜索引擎——原理、技术与系统》一书中的第十一章第四节给出了用中文新闻分类语料库验证的结果。他的实验用的语料库描述如下：人工选取了一个基于层次模型的大规模中文网页样本集，它包括12336个训练网页实例和3269个测试网页实例，分布在733个类别中，每个类别平均有17个训练实例和4.5个测试实例。

我个人的验证实验：

分类器：KNN。语料库来源： finallyliuyu上传到博客园的新闻分类语料库。由我个人本科毕设程序“网页解析器”解析新闻网页正文得到。共有文化、历史、读书、社会与法制、娱乐，军事等六个类别（其中文化，历史，读书，军事来自凤凰新闻，社会与法制来自腾讯和新浪，娱乐类新闻来自网易）。训练语料库中每个类别1000篇文章，共有6000篇文章，测试语料库中每个类别有100篇文章，共有600篇文章。

特征词选择算法的代码见《从文本分类问题中的特征词选择算法追踪如何将数学知识，数学理论迁移到实际工程中去》

KNN分类器算法代码见《菜鸟进阶： C++实现KNN文本分类算法》

声明：由于我也是个初学者，所以语料库，和程序方面还有很多不完善的地方，望读者海涵。稍后整理下会公布源代码下载版。这样可以方便读者自己做实验和测试。

针对特征词选择法的验证实验“各种特征词选择算法对文本分类性能的影响”：纸上得来终觉浅，觉知此事要躬行

选用DF特征词选择法

// DF特征词选择法
p.LoadDictionary(mymap, " F:\\finallyliuyu\\dict.dat " );
p.DFcharicteristicWordSelection(mymap, 2000 , " F:\\finallyliuyu\\keywords.dat " );

// 建立VSM模型
    p.LoadDictionary(mymap, " F:\\finallyliuyu\\dict.dat " );
    p.LoadContingencyTable(contingenyTable, " F:\\finallyliuyu\\contingency.dat " );
     // 为训练集建立VSM模型
    p.VSMConstruction(mymap,trainingSetVSM, " F:\\finallyliuyu\\keywords.dat " );
    p.SaveVSM(trainingSetVSM, " F:\\finallyliuyu\\trainingVSM.dat " );
     // 为测试集建立VSM模型
    p.GetManyVSM( 1 , 600 , " TestingCorpus " ,mymap,testingSetVSM, " F:\\finallyliuyu\\keywords.dat " );
    p.SaveVSM(testingSetVSM, " F:\\finallyliuyu\\testingVSM.dat " );

// KNN文本分类
    p.LoadVSM(trainingSetVSM, " F:\\finallyliuyu\\trainingVSM.dat " );
    p.LoadVSM(testingSetVSM, " F:\\finallyliuyu\\testingVSM.dat " );
    p.KNNclassifier( " TrainingCorpus " ,trainingSetVSM,testingSetVSM,labels, 100 ,classifyResults);
    ofstream ofile( " F:\\finallyliuyu\\evaluation.txt " );

// 准确率召回率F值的计算，评估分类器
map < string ,vector < double > > evaluation;
for (vector < string > ::iterator it = labels.begin();it != labels.end();it ++ )
{
     double precision = p.getPrecision( * it,classifyResults, " TestingCorpus " );
     double recall = p.getRecall( * it,classifyResults, " TestingCorpus " );
     double F = p.getFscore( * it,classifyResults, " TestingCorpus " );
    vector < double > temp;
    temp.push_back(precision);
    temp.push_back(recall);
    temp.push_back(F);
    evaluation[ * it] = temp;
    temp.clear();
}
for (map < string ,vector < double > > ::iterator it = evaluation.begin();it != evaluation.end();it ++ )
{
    cout << it -> first << endl;
    ofile << it -> first << endl;
    cout << " precison " << (it -> second)[ 0 ] << endl;
    ofile << " precison " << (it -> second)[ 0 ] << endl;
    cout << " recall " << (it -> second)[ 1 ] << endl;
    ofile << " recall " << (it -> second)[ 1 ] << endl;
    cout << " Fscore " << (it -> second)[ 2 ] << endl;
    ofile << " Fscore " << (it -> second)[ 2 ] << endl;
    cout << " ************************* " << endl;
}
double avaP = 0 .; // 平均准确率
double avaR = 0 .; // 平均召回率
double avaF = 0 .; // 平均F值

for (map < string ,vector < double > > ::iterator  it = evaluation.begin();it != evaluation.end();it ++ )
{
    avaP += (it -> second)[ 0 ];
    avaR += (it -> second)[ 1 ];
    avaF += (it -> second)[ 2 ];

}
cout << evaluation.size();
avaP /= evaluation.size();
avaR /= evaluation.size();
avaF /= evaluation.size();
cout << " 平均准确率为 " << avaP << endl;
ofile << " 平均准确率为 " << avaP << endl;
cout << " 平均召回率 " << avaR << endl;
ofile << " 平均召回率 " << avaR << endl;
cout << " 平均F值 " << avaF << endl;
ofile << " 平均F值 " << avaF << endl;

ofile.close();

分类效果评估：