文件名称:FoolNLTK:中国自然语言工具包
文件大小:58.12MB
文件格式:ZIP
更新时间:2024-03-14 21:40:01
Python
傻瓜NLTK 中文文字处理工具包 特征 尽管不是最快的,但FoolNLTK可能是市场上最准确的开源中文分词器 根据训练 分词,词性标注,实体识别的高精度 用户定义的字典 自我训练模型的能力 允许批处理 入门 *** 2020/2/16 ***更新:使用伯特模型火车和出口模型进行部署, 要下载并构建FoolNLTK,请输入: get clone https://github.com/rockyzhengwu/FoolNLTK.git cd FoolNLTK/train 有关详细 仅在Linux Python 3环境中测试。 安装 pip install foolnltk 使用说明 对于分词: import fool text = "一个*在北京" print(fool.cut(text)) # ['一个', '*', '在', '北京'] 对于分词细分,请指定-b参数以增加每次运行
【文件预览】:
FoolNLTK-master
----.gitmodules(79B)
----train()
--------bert_predict.py(4KB)
--------train_bert.sh(268B)
--------load_model.py(280B)
--------prepare_vec.py(2KB)
--------create_map_file.py(2KB)
--------norm_train_recoard.py(9KB)
--------bi_lstm.py(6KB)
--------text_to_tfrecords.py(4KB)
--------main.sh(3KB)
--------__init__.py(41B)
--------tf_metrics.py(8KB)
--------train_bert_ner.py(24KB)
--------decode.py(1KB)
--------data_utils.py(7KB)
--------word2vec.py(1KB)
--------third_party()
--------export_model.py(4KB)
--------README.md(3KB)
--------datasets()
----data()
--------map.zip(1.19MB)
--------ner.pb(3.27MB)
--------pos.pb(54.77MB)
--------seg.pb(3.26MB)
----test()
--------test_dict.txt(103B)
--------dictonary.py(577B)
--------__init__.py(41B)
--------loadmodel.py(290B)
----bert()
----LICENSE(11KB)
----README_CH.md(2KB)
----requirements.txt(31B)
----setup.py(527B)
----.gitignore(1KB)
----fool()
--------predictor.py(3KB)
--------dictionary.py(1KB)
--------trie.py(4KB)
--------__main__.py(2KB)
--------lexical.py(4KB)
--------__init__.py(3KB)
--------model.py(3KB)
----README.md(2KB)