lean:Lucene文本分析工具

时间:2024-05-23 19:56:22
【文件属性】:

文件名称:lean:Lucene文本分析工具

文件大小:50.08MB

文件格式:ZIP

更新时间:2024-05-23 19:56:22

HTML

介绍 LEAN是一组Java工具,用于从文本文档中生成词频矩阵。 LEAN工具旨在与GTRI / GA Tech SmallK软件发行版兼容,该软件发行版消耗术语频率矩阵并执行分层和平面聚类。 LEAN软件发行版目前包含两个工具:DocIndexer和LuceneToMtx。 DocIndexer应用程序以各种格式和编码提取文档,使用用户可配置的Lucene分析器对其进行分析,并生成Lucene反向索引。 LuceneToMtx应用程序读取索引,对术语进行可选过滤,并生成具有匹配字典和文档文件的术语频率矩阵。 #### LEAN的主要功能 Lucene :Lucene是一个搜索引擎库,具有快速索引功能和许多易于使用的Natural Language Processing扩展。 可伸缩性:Lucene是用于为Apache Solr提供支持的搜索引擎,Apache Solr是一个高度可靠


网友评论