文件名称:word源码java-THULAC:图拉克
文件大小:58KB
文件格式:ZIP
更新时间:2024-06-25 17:09:25
系统开源
word源码java THULAC:一个高效的中文词法分析工具包 本文档只针对THULAC的java版本,其他版本的使用方式请查阅对应的README文件。 目录 项目介绍 THULAC (THU Lexical Analyzer for Chinese) 是由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。 准确率高。该工具包在标准数据集Chinese Treebank (CTB5) 上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。 速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。(该数据取自本库的c++版本,java版本可能速度略慢) 编译和安装 可执行jar包 本库正在持续开发中,请参阅下文自行编译运行。 下载源代码编译运行 下载编译本库需要计算机上已安装, 和,以及稳定可
【文件预览】:
THULAC-master
----.gitignore(45B)
----settings.gradle(27B)
----build.gradle(451B)
----src()
--------main()
--------test()
----doc()
--------申请表.docx(18KB)
----README.md(8KB)