文件名称:Authorship:AcqDeCo 关于作者归属的项目
文件大小:22.36MB
文件格式:ZIP
更新时间:2024-07-04 12:56:46
Java
作者署名 AcqDeCo 关于作者归属的项目。 在这个项目中,目标是建立一个分类器,能够有效地将新文本归因于他/她的作者,依赖于文本特征(单词、词干、单词或字符的 ngram、标点符号等)。 必须比较文本数据的至少两种不同的表示。 合作者 布韦·朱利安 BHATNAGAR 普拉提克 高格瑞·蒂埃里 普雷沃斯托·加布蒂尔 拉萨塔-马南特纳连索阿 任务清单 词干(用于 2d 表示)( Liantsoa ) 生成文件列表(带作者)( Julien ) 第一个表示的数据提取 ( Thierry ) 句子长度 段落长度 标点符号的频率 第二表示的数据提取 ( Liantsoa ) ( Prateek ) 最常用的词(词干后) 冠词、形容词的出现频率... 第一分类器 ( Thierry ) ( Julien ) 第二个分类器 ( Gabriel ) ( Liantsoa ) ( Pr