文件名称:Keywords-Extraction:Zhen Yang-Keywords Extraction
文件大小:55.96MB
文件格式:ZIP
更新时间:2024-05-28 13:36:29
C#
甄阳-关键词提取 通过内在与外在模式之间的熵差提取关键词 我们努力提出一种新的度量标准,以评估文本中单词的相关性并对其进行排名。 该方法利用了内在和外在模式之间的香农熵差,这是指以下事实:相关词显着反映了作者的写作意图,即,它们的出现受到作者目的的调节,而无关词在文本中随机分布。 。 通过使用Charles Darwin的《物种起源》作为代表性的文本样本,我们的探测器的性能得到了展示并与以前的建议进行了比较。 由于参考文献“语料库”是作者的所有著作,书籍,论文等,因此不需要收集他的著作。 我们的方法特别适用于没有先验信息的单个文档。 项目成员 振阳 陈伟通 李汉臣 李朝阳 张龙波 鄂友军 背景 人工文本和猴子打字之间最显着的区别之一是人类书面文本中普遍存在有意义的主题。关键字/相关单词的提取和排名是关键任务(如主题检测和跟踪书面文本)的凝视点,以及它们被广泛应用于信息的提取,选择和检索中。