文件名称:中文分词切分技术研究
文件大小:179KB
文件格式:PDF
更新时间:2015-05-08 06:23:43
分词 切分 搜索引擎
本文分析了现有的基于词典的分词算法,在比较各种算法优缺点的基础上提出了将正向匹配算法与逆向匹配 算法所得到的结果集进行叠加,生成粗分结果集的新观点,再对生成的粗分结果集构造非负权有向图,最后应用最短路径算法求解有向图。通过Nutch实验验证,该算法较Nutch原始搜索系统提高了其汉语切分的准确性以及切分速度,同时部分解决了交集型歧义切分问题。
文件名称:中文分词切分技术研究
文件大小:179KB
文件格式:PDF
更新时间:2015-05-08 06:23:43
分词 切分 搜索引擎
本文分析了现有的基于词典的分词算法,在比较各种算法优缺点的基础上提出了将正向匹配算法与逆向匹配 算法所得到的结果集进行叠加,生成粗分结果集的新观点,再对生成的粗分结果集构造非负权有向图,最后应用最短路径算法求解有向图。通过Nutch实验验证,该算法较Nutch原始搜索系统提高了其汉语切分的准确性以及切分速度,同时部分解决了交集型歧义切分问题。