文件名称:thulac4j:Chinese Word Segmentation Tool, THULAC的Java实现
文件大小:6.03MB
文件格式:ZIP
更新时间:2024-06-04 11:33:25
thulac chinese-word-segmentation Java
thulac4j
thulac4j是的高效Java 8实现,具有分词速度快、准、强的特点;支持
自定义词典
繁体转简体
停用词过滤
使用示例
在项目中使用thulac4j,添加依赖(请使用最新版本):
【文件预览】:
thulac4j-master
----models()
--------cws_label.txt(8B)
--------stop_dat.bin(512KB)
--------t2s.dat(22KB)
--------model_c_label.txt(306B)
--------idiom_dat.bin(1.61MB)
--------ns_dat.bin(7.21MB)
----src()
--------test()
--------main()
----LICENSE(11KB)
----README.md(1KB)
----pom.xml(6KB)
----dicts()
--------ns.dict(3.02MB)
--------stop_words.dict(5KB)
--------core_char.dict(57KB)
--------idiom.dict(536KB)
----.gitignore(114B)