文件名称:基于隐马尔科夫模型的分词
文件大小:6.68MB
文件格式:ZIP
更新时间:2021-02-13 12:58:41
隐马尔可夫 HMM 分词
使用隐马尔科夫模型(Hidden Markov Model,HMM) 进行分词,并与基于词典的正向最大匹配算法和工业界使用的jieba分词进行对比。 采用最大似然估计的方法从带标记样本学习模型参数,并通过维特比算法进行解码。
【文件预览】:
HMM_Segment
----HMM_seg.py(7KB)
----msr_test.utf8(547KB)
----msr_training.utf8(16.11MB)
----result.png(9KB)
----ce(ms-word).txt(1.6MB)
----msr_test_gold.utf8(749KB)