cc-analysis:CC分析

时间:2024-07-23 04:27:12
【文件属性】:

文件名称:cc-analysis:CC分析

文件大小:21KB

文件格式:ZIP

更新时间:2024-07-23 04:27:12

Java

CC 分词器 CC分词器简单地使用给定的词典进行分词。CC的底层依赖 StandardTokenizer ,故而可以很好滴对多种语言进行切分,而不仅仅是中文。 CC的词典是基于序列匹配的,故而可以支持中英文混排等情况。 定位和限制 CC分词器提供简单直观的切分方法,不提供各种高级特性。 在评价检索效果时,一般主要考虑召回率和精确率。 Paoding、IK等业界知名分词器可能提供了更高级的特性,如中文数字识别、歧义识别等特性。 而CC暂不考虑这些,因为目前暂没有很好滴歧义算法,且很难评价好坏。而有时我们希望尽量返回更多的内容,甚至于类似SQL的“LIKE”操作, 然后交由人工识别。CC目前主要考虑的就是这种场景,故而只要文档中存在词典中制定的序列,则就认为是一个词。 原理 首先使用 StandardTokenizer 对用户输入进行切分,然后使用Token序列匹配的方式对词典中的内容进行匹配


【文件预览】:
cc-analysis-master
----pom.xml(4KB)
----LICENSE(11KB)
----src()
--------test()
--------main()
----.gitignore(185B)
----README.md(1KB)

网友评论