Byblo:自动构建分发叙词表的工具

时间:2024-05-17 07:25:38
【文件属性】:

文件名称:Byblo:自动构建分发叙词表的工具

文件大小:2.25MB

文件格式:ZIP

更新时间:2024-05-17 07:25:38

Java

比布鲁 Byblo是用于构建大型分布式叙词表的软件包。 它提供了一个高效而灵活的框架,用于计算语料库中各个词之间的所有成对相似性。 发行叙词表概述 非正式地 天真的,可以将分布式同义词库视为传统同义词库。 它允许人们查找单词,并返回同义词列表。 但是,与传统叙词表不同,同义词不是由人类手动管理的,而是使用从文本语料库估计的统计模型来计算的。 名义上,两个术语之间的相似性可以根据从大量文本语料库中提取出来的这些术语的特征交集来计算。 例如,如果短语“圣诞节假期”和“圣诞节假期”在语料库中非常频繁地出现,则该模型可能表示圣诞节和圣诞节相似。 在这里,我们决定并发单词是特征,圣诞节和圣诞节共享特征假日,因此它们是相似的。 非正式程度较低 不幸的是,分发同义词库实际上根本不像手动策划的。 从根本上说,我们定义了与同义完全不同的相似性概念。 更糟糕的是,它会根据语料库,特征选择和相似性度量而变化。


网友评论