sentence-boundary-detection:使用机器学习检测句子边界

时间:2024-05-29 03:16:34
【文件属性】:

文件名称:sentence-boundary-detection:使用机器学习检测句子边界

文件大小:40KB

文件格式:ZIP

更新时间:2024-05-29 03:16:34

nlp machine-learning sentence-boundary-detection sbd HTML

句子边界检测 使用机器学习检测句子边界,使用朴素贝叶斯算法,您也可以使用选项-rnn训练LSTM,但是为获得不错的结果而训练时间太长。 Python版本 该项目已使用pyenv在python 3.5.2中进行了pyenv 在您的环境变量PYTHONPATH添加$(pwd)/srcs/ ,否则某些脚本将无法运行 依存关系 运行以下命令 ./install.sh 用短绒棉签检查代码质量 ./linter.sh 用法 您可以在每个脚本上使用选项-h以获得具有可用选项的帮助指示。 获取数据集 (大约压缩一个200Mo,未压缩大约600Mo)最多可能需要10分钟才能从源中检索数据集(远程服务器速度很慢) python scripts/acquire.py 预处理数据集 python scripts/preprocess.py --samples 10000000 [--samples NB_IN


【文件预览】:
sentence-boundary-detection-master
----config()
--------configuration.ini(437B)
----.pylintrc(14KB)
----linter.sh(92B)
----install.sh(52B)
----requirements.txt(160B)
----.gitignore(1KB)
----README.md(3KB)
----scripts()
--------test.py(3KB)
--------train.py(4KB)
--------acquire.py(1KB)
--------preprocess.py(5KB)
--------segment.py(2KB)
----srcs()
--------Segmenter.py(7KB)
----datasets()
--------input.html(194KB)
--------input.txt(1KB)

网友评论