文件名称:CSBHMM:基于HMM模型的中文分割器
文件大小:9.84MB
文件格式:ZIP
更新时间:2024-06-05 13:21:02
Python
For English readme content, please roll down. ####这是一个建立在HMM模型上的中文分词程序 ######程序说明: 本程序基于python2.7.10 windows环境 目前有些编码问题[注1] HMM目录下有两个脚本 hmm.py 用来训练模型,会生成../model/hmmmodel 文件。viterbi.py用来进行解码,会生成../res/hmmres文件 语料格式全部采用CRF++中的格式 使用方法 python hmm.py $trainingFilePath $modelPath python viterbi.py $modelPath $testFilePath $dictPath $outputPath 在formatScript下是语料格式处理脚本。用来在不同的语料格式之间做转换。 eval目录下是一个分词评价脚本,可
【文件预览】:
CSBHMM-master
----corpus()
--------dev_without_crf(1.21MB)
--------train_ans_crf(8.8MB)
--------dict(494KB)
--------toy_without_crf(3KB)
--------toy_ans_crf(5KB)
--------train_ans_raw(7.97MB)
--------dev_ans_raw(1.84MB)
--------train_without_crf(5.29MB)
--------dev_ans_crf(2.02MB)
--------dev_without_raw(830KB)
----train_crf.py(649B)
----eval()
--------eval.py(2KB)
----format_script()
--------dev_without_raw_to_crf.py(341B)
--------train_ans_crf_to_without.py(353B)
--------dev_ans_raw_to_crf.py(731B)
--------replace_tab_and_enter.py(205B)
----HMM()
--------viterbi.py(6KB)
--------hmm.py(2KB)
----README.md(989B)
----template(246B)