基于自然语言处理的作者识别-研究论文

时间:2024-06-09 08:20:51
【文件属性】:

文件名称:基于自然语言处理的作者识别-研究论文

文件大小:908KB

文件格式:PDF

更新时间:2024-06-09 08:20:51

Author NLP Identification Data Analytics

文字内容的数量呈指数增长,特别是通过文章的发布; 匿名文本数据的增加使问题变得更加复杂。 研究人员正在寻找其他方法来预测未知文本的作者,这称为作者标识。 在这项研究中,该研究是通过单词袋(BOW)和潜在语义分析(LSA)功能进行的。 Kaggle上的“所有新闻”数据集用于实验,并比较BOW和LSA在作者识别任务中的最佳性能。 支持向量机,随机森林,来自变压器的双向编码器表示(BERT)和逻辑回归分类算法用于作者预测。 对于拥有20位作者的第一个范围,对于每位作者100篇文章,使用词袋进行逻辑回归可以看到最大的准确性,其次是随机森林,也可以使用词袋进行逻辑回归。 在所有算法中,词袋得分均优于LSA。 最终,在本研究中应用了BERT模型,并获得了70.33%的准确度。 对于将每个作者的文章数增加到500并减少10的作者数的第二作用域,BOW使用Logistic回归算法达到93.86%可获得更好的性能结果。 此外,将功能合并在一起时,LR的最佳精度性能为94.9%,这证明它比应用的BOW和LSA个体更好,与仅BOW相比提高了近0.1%。 最终,BRET取得了86.56%的准确度性能和0.51 log los的结果。


网友评论