文件名称:Arabic Obsolete Words:Buckwalter形态分析器中的过时单词列表-开源
文件大小:165KB
文件格式:ZIP
更新时间:2024-06-16 04:44:52
开源软件
这是Buckwalter Morphological Analyzer数据库中的过时单词列表或现代使用的过时或未使用过的单词列表。 该列表是根据网络上的频率阈值和阿拉伯语gigaword语料库制定的。 列表中包含约8400个单词,这些单词不属于当前使用范围,边距误差为1%。 阈值是这样定义的。 Buckwalter中的所有引理都在三个新闻网站(半岛电视台,阿拉伯语BBC和阿拉伯语*)中进行了查询,如果在三个搜索引擎中都未找到该引理,则认为该词条已过时。 然后,在阿拉伯语Gigaword语料库(第四版)中查询所有引理,如果引理的出现频率为10个或更少,则认为该引理已过时。 参考文献Mohammed Attia,Pavel Pecina,Lamia Tounsi,Antonio Toral,Josef van Genabith。 2011。现代标准阿拉伯语词汇库,可与有限状态形态传感器互操作。
【文件预览】:
Obsolete_words-1.1
----AUTHORS(24B)
----obsolete_words_rev.txt(408KB)
----COPYING(34KB)
----README(2KB)