文件名称:参考文献-js实现聊天对话框
文件大小:832KB
文件格式:PDF
更新时间:2024-07-06 18:53:34
MATLAB SPSS python
八、模型的评价 8.1 模型一的评价 优点:对于同一本书著作,一个作者的思想和思维方式都是有规律可循的, 我们找出了具有代表性的 27个人物名称和 47个虚词,大大的减少运算量。将前 80回与后 40回分开统计,计算出词频,利用写作风格的差别来判断前后作者差 异,非常具有说服力。 缺点:对于问题一、二,在选取具有代表性的人物名称或者虚词的时候,因 为整本著作的人物和词数种类太多,我们有可能会忽略掉某些关键性的或者对结 果影响比较大的信息,导致最终结果不准确。而且有很多人物的出场时间不同, 甚至会有一些在前 80回出现并死亡的情况,这些都会导致最终结果有误差。 8.2 模型二的评价 优点:词与词之间的相关性有诸多种,我们选取同义异词的好处在于,对于 不同的作者,在撰写文章的时候对某些意思的表达不同,比如会参杂自己家乡的 方言等等。我们抓住这一特点进行分析,得到的效果显著。 缺点:同义异词的种类和数量太过繁杂,因为篇幅的限制,我们选取的 7组 词可能不具有代表。 8.3 模型三的评价 优点:我们建立了两个不同的模型来处理问题,对于第一个模型,对标点符 号的频数进行分析。因为对于不同的作者,标点符号可能表达出了自己的情感, 比如问号和感叹号,所以可以根据这个差异进行比较。对于第二个模型,我们做 的是平均词长分析,因为平均词长同样可以判断出一个作者的写作用词习惯,能 够用来判断作者文风。这两个模型都非常贴切实际,抓住了作者的各种写作色彩, 具有说服力。 缺点:在做平均词长分析的时候,会将部分人物的姓名分割开来,这就会导 致在统计单个字词数量的时候引入了干扰,会对最终的结果产生影响。 九、参考文献 [1]李贤平,《红楼梦》成书新说,复旦大学学报社科版,1987,(5):3-16 [2]韦博成,红楼梦前 80回与后 40回某些文风差异的统计分析,应用概率统计, 2009,25(4):441-448 [3]施建军,基于支持向量机技术的《红楼梦》作者研究,红楼梦学刊,2011 [4]任永功,基于特征权重与词间相关性的文本特征选择算法,计算机应用与软 件,2012.9 [5]王雪飞,词间相关性对文本分类的影响,计算机应用技术,2007.7 [6]刘悦,基于语料库的红楼梦各部分的写作风格研究,华中师范大学,2014.1 [7]邓维斌,唐兴艳,SPSS19统计分析使用教程(中文版),北京:电子工业出版 社,2011.12