基于单字特征和搜索引擎的新词识别 (2010年)下载

【文件属性】：

文件名称：基于单字特征和搜索引擎的新词识别 (2010年)

文件大小：499KB

文件格式：PDF

更新时间：2024-06-09 00:03:12

自然科学论文

新词识别是影响搜索准确率以及速率的重要因素。本文提出了一种基于统计模型和词语搭配的中文新词自动识别方法。采用条件概率的方法提取单字词搭配特征和临界词特征，并采用层次结构实现新词定位以及识别。首先采用双向最大匹配相结合的方法对文本进行词法粗切分，然后根据单字词搭配得到候选新词的位置，用临界词方法确定候选新词的边界，采用改进Nagao串频统计方法对新词候选词在本文内进行重复串统计，对于只在文中出现一次的新词则借助搜索引擎进行确定。对新浪网近期的网络文章进行测试，结果表明，基于本文方法设计的系统可以识别不同领域

立即下载

秒客网

基于单字特征和搜索引擎的新词识别 (2010年)

网友评论

相关文章