文件名称:基于语义扩展模型的中文网页关键词抽取 (2012年)
文件大小:310KB
文件格式:PDF
更新时间:2024-07-04 01:33:48
工程技术 论文
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF 值等特征,通过聚类算法抽取候选关键词。根据n-gram 语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。