文件名称:CWSharp:CWSharp - .NET&.NET Core中文分词库
文件大小:630KB
文件格式:ZIP
更新时间:2024-06-02 08:25:12
C#
CWSharp .Net的跨平台的中文分词组件,支持中英文、符号或者混合词组(比如:T恤,卡拉OK,C#等)以及自定义词典。 特性 默认支持多种分词器 StandardTokenizer - 默认分词,基于词典 BigramTokenizer - 二元分词,支持英文,数字识别 StopwordTokenizer - 自定义过滤词,扩展类 UnigramTokenizer - 一元分词 可扩展的自定义分词接口 支持自定义词典 支持Lucene.Net 支持.NET以及.NET Core MIT授权协议 其它版本 Golang版 - Python版 - 安装&编译 NuGet nuget install CWSharp For .Net Core (project.json) "dependencies": { "CWSharp": "1.1.0" } Running on Lin
【文件预览】:
CWSharp-master
----CWSharp.sln(3KB)
----contrib()
--------LuceneNet()
----LICENSE.txt(1KB)
----src()
--------Yamool.CWSharp()
----README.md(3KB)
----data()
--------README.md(901B)
--------cwsharp.freq(93KB)
--------cwsharp.dawg(965KB)
--------cwsharp.dic(438KB)
----tests()
--------Yamool.CWSharp.Test()
----.gitignore(929B)