文件名称:miniseg, 基于贝叶斯模型的中文分词工具.zip
文件大小:7.28MB
文件格式:ZIP
更新时间:2022-10-08 04:09:41
开源
miniseg, 基于贝叶斯模型的中文分词工具 简介MiniSeg在传统的HMM分词模型上做了一点改进,修改了viterbi算法中的状态到字符的发射概率的计算方法,把它改为用Naive Bayes去估计。用NB估计的时候考虑了了当前字符周围的字符。经过试验,取得了比传统HM
【文件预览】:
miniseg-master
----train()
--------train.sh(141B)
--------train_bayes_model.py(1KB)
--------gen_prob.py(1KB)
--------train_txt()
--------train_increamental.py(2KB)
--------train.bat(133B)
--------prob_trans.py(238B)
--------gen_feature.py(1KB)
--------prob_start.py(53B)
----miniseg()
--------__init__.py(3KB)
--------prob_trans.py(238B)
--------prob_start.py(53B)
----test.py(5KB)
----.gitignore(2KB)
----README.md(3KB)
----test_file.py(356B)