thulac4j:Chinese Word Segmentation Tool, THULAC的Java实现

时间:2024-06-04 11:33:25
【文件属性】:

文件名称:thulac4j:Chinese Word Segmentation Tool, THULAC的Java实现

文件大小:6.03MB

文件格式:ZIP

更新时间:2024-06-04 11:33:25

thulac chinese-word-segmentation Java

thulac4j thulac4j是的高效Java 8实现,具有分词速度快、准、强的特点;支持 自定义词典 繁体转简体 停用词过滤 使用示例 在项目中使用thulac4j,添加依赖(请使用最新版本): io.github.yizhiru thulac4j 3.1.2 thulac4j支持中文分词与词性标注,使用示例如下: String sentence = "滔滔的流水,向着波士顿湾无声逝去"; List words = Segmenter.segment(sentence); // [滔滔, 的, 流水, ,, 向着, 波士顿湾, 无声, 逝去] POSTagger pos = ne


【文件预览】:
thulac4j-master
----models()
--------cws_label.txt(8B)
--------stop_dat.bin(512KB)
--------t2s.dat(22KB)
--------model_c_label.txt(306B)
--------idiom_dat.bin(1.61MB)
--------ns_dat.bin(7.21MB)
----src()
--------test()
--------main()
----LICENSE(11KB)
----README.md(1KB)
----pom.xml(6KB)
----dicts()
--------ns.dict(3.02MB)
--------stop_words.dict(5KB)
--------core_char.dict(57KB)
--------idiom.dict(536KB)
----.gitignore(114B)

网友评论