文件名称:主要的分词方法-文本挖掘PPT
文件大小:406KB
文件格式:PPT
更新时间:2024-05-15 19:45:10
文本挖掘
主要的分词方法 最大匹配法(Maximum Matching method, MM法):选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。 逆向最大匹配法(Reverse Maximum method, RMM法):匹配方向与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。 双向匹配法(Bi-direction Matching method, BM法):比较MM法与RMM法的分词结果,从而决定正确的分词。 最佳匹配法(Optimum Matching method, OM法):将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。 联想-回溯法(Association-Backtracking method, AB法):采用联想和回溯的机制来进行匹配。