dig-phrase-extraction:关键字

时间:2024-06-06 04:15:44
【文件属性】:

文件名称:dig-phrase-extraction:关键字

文件大小:17.06MB

文件格式:ZIP

更新时间:2024-06-06 04:15:44

Java

阿霍·科拉西克(Aho-Corasick) 相依性 在您的POM中包括此依赖项。 确保在Maven Central中检查最新版本。 < dependency> < groupId>org.ahocorasick < artifactId>ahocorasick < version>0.2.3 介绍 如今,大多数*文本搜索都是基于类似于Lucene的方法,其中,搜索文本被解析成其各个组成部分。 对于每个关键字,都会进行查找以查看其发生位置。 当寻找几个关键字时,这种方法很棒。 但是,如果您不只是寻找几个关键字,而是寻找十万个关键字,那又如何呢? 例如,检查字典? 这就是Aho-Corasick算法大放异彩的


【文件预览】:
dig-phrase-extraction-master
----.gitignore(46B)
----atf-seqfile(4.46MB)
----src()
--------main()
--------test()
----seq_null(78B)
----inputFiles()
--------seq2(19.87MB)
--------seq_null2(78B)
--------seq_null(78B)
--------seq3(19.61MB)
--------seq4(19.47MB)
--------seq1(20.01MB)
--------seq_null3(78B)
--------seq5(19.08MB)
----electronics_keywords.json(6.19MB)
----pom.xml(4KB)
----scripts()
--------Microelectronics Parts of Interest.xlsx(18KB)
--------Questionable Distributor Listing - 150331.xlsx(50KB)
--------electronic_parts.py(902B)
--------suppliers_keywords.json(182KB)
--------util.py(636B)
--------wordList_preprocess.py(3KB)
--------parts_keywords.json(28KB)
--------wordList_preprocessed.json(4.93MB)
--------questionable_dist.py(838B)
--------supplier_keywords.py(887B)
--------microel_partsofinterest.py(0B)
--------China Microelectronics Suppliers by bbuilding.xlsx(99KB)
--------distributors_keywords.json(67KB)
----README.md(6KB)
----target()
--------classes()
--------test-classes()
----ist-good-one(36.42MB)
----wordList_preprocessed.json(4.93MB)
----weapons_keywords.json(4.93MB)
----weapons_seq1(20.1MB)

网友评论