文件名称:基于hadoop搜索引擎 离线处理程序
文件大小:30.11MB
文件格式:ZIP
更新时间:2017-11-09 08:54:01
hadoop 搜索引擎 倒排表
本项目是基于hadoop搜索引擎的离线处理程序,主要包含三部分 1.网页信息过滤 2.生成倒排索引文件 3.生成二级索引文件;
【文件预览】:
BBS
----.project(379B)
----src()
--------mydict.dic(8B)
--------ext_stopword.dic(0B)
--------com()
--------IKAnalyzer.cfg.xml(421B)
--------logback.xml(1KB)
----classes()
----lib()
--------hbase-examples-0.98.0-hadoop2.jar(102KB)
--------hadoop-common-2.2.0.jar(2.55MB)
--------commons-configuration-1.6.jar(292KB)
--------gson-2.2.4.jar(186KB)
--------slf4j-api-1.6.4.jar(25KB)
--------IKAnalyzer2012FF_u1.jar(1.11MB)
--------slf4j-log4j12-1.6.4.jar(10KB)
--------lucene-analyzers-common-4.3.0.jar(1.49MB)
--------zookeeper-3.4.5.jar(1.25MB)
--------quartz-2.2.1.jar(645KB)
--------lucene-queryparser-4.3.0.jar(377KB)
--------commons-logging-1.1.1.jar(59KB)
--------log4j-1.2.17.jar(478KB)
--------hadoop-mapreduce-client-core-2.2.0.jar(1.39MB)
--------quartz-jobs-2.2.1.jar(33KB)
--------hadoop-hdfs-2.2.0.jar(5MB)
--------hbase-server-0.98.0-hadoop2.jar(3.17MB)
--------guava-12.0.1.jar(1.71MB)
--------hbase-hadoop2-compat-0.98.0-hadoop2.jar(71KB)
--------findbugs-annotations-1.3.9-1.jar(15KB)
--------hbase-client-0.98.0-hadoop2.jar(873KB)
--------hbase-protocol-0.98.0-hadoop2.jar(3.14MB)
--------lucene-core-4.3.0.jar(2.11MB)
--------hbase-hadoop-compat-0.98.0-hadoop2.jar(32KB)
--------mysql-connector-java-5.0.8.jar(528KB)
--------hbase-common-0.98.0-hadoop2.jar(422KB)
--------htrace-core-2.04.jar(31KB)
--------commons-lang-2.6.jar(278KB)
--------hadoop-annotations-2.2.0.jar(16KB)
----.settings()
--------org.eclipse.jdt.core.prefs(598B)
--------org.eclipse.core.resources.prefs(57B)
----dist()
--------bbac.jar(5.28MB)
----build.xml(4KB)
----.classpath(2KB)
----bin()
--------mydict.dic(8B)
--------ext_stopword.dic(0B)
--------IKAnalyzer.cfg.xml(421B)
--------logback.xml(1KB)
----logback.xml(1KB)