Heritrix lucene开发自己的搜索引擎(源码)1下载

【文件属性】：
文件名称：Heritrix lucene开发自己的搜索引擎(源码)1
文件大小：8.1MB
文件格式：RAR
更新时间：2010-10-18 03:51:51
lucene 搜索引擎 heritrix 1．光盘中所附代码的运行环境服务器Tomcat5.5版本数据库采用MySQL 5.0 版本 JDK采用1.5.0 Spring采用1.2.8版本 DWR采用1.1.3版本 Windows平台 Tomcat 插件TomcatPlugin（下载地址：http://www.sysdeo.com/eclipse/tomcatpluginfr ） 2．本书所附光盘范例 Eclipse工程/ch2：原书第二章Eclipse工程文件对文档预处理的源代码对文档建立索引的源代码对文档检索的源代码使用Lucene检索和使用java.lang.String内置方法进行检索的效率比较安装：直接在Eclipse中选取“import->Existing Project” Eclipse工程/ch7：原书第七章和第九章的Eclipse工程文件使用PDFBox解析PDF文件使用xpdf解析中文PDF文件使用POI解析WORD和Excel文件使用Jacob解析WORD文件 Google的Search API的使用安装：直接在Eclipse中选取“import->Existing Project” Eclipse工程/ch9：原书第十二章的工程文件使用正则表达式解析网页文件使用HTMLParser解析网页文件安装：直接在Eclipse中选取“import->Existing Project” Eclipse工程/heritrixProject：原书第十章的工程文件在Eclipse配置完成的Heritrix源代码自行开发的Heritrix的Extractor类：pconline 自行开发的Heritrix的FrontierScheduler类：pconline 自行开发的Heritrix的Extractor类：163mobile 自行开发的Heritrix的FrontierScheduler类：163mobile 安装：直接在Eclipse中选取“import->Existing Project” Eclipse工程/testDWR：原书第十三章的工程文件完整的DWR开发环境 DWR在页面调用后台Bean类的实例 DWR操纵页面对象的实例安装：直接在Eclipse中选取“import->Existing Project”，该工程由于是Web工程，因此需要TomcatPlugin插件。 Eclipse工程/z_mysearch：原书中的搜索引擎完整实例数据库脚本网页索引格式构建词库的源代码从网页中解析并构建产品信息文件的源代码从产品信息文件构建索引的源代码数据库操作类的源代码基于Spring的业务层管理检索的业务类源代码检索的DAO源代码检索的分页实现源代码检索的AJAX实现源代码安装：直接在Eclipse中选取“import->Existing Project”，该工程由于是Web工程，因此需要TomcatPlugin插件。注：随光盘附带的mirror.rar文件是使用Heritrix从pconline网上抓取的手机信息页面（以网站镜象格式存储），在本书最后搜索引擎完整实例中需要使用到。由于光盘容量有限，笔者删除了原始镜像目录中一部分的网页，可能执行效果和书上不能完全一致，请读者读懂原理后灵活处理。说明：因为mirror.rar文件引用了第三方网站的大量信息，这需要得到网站的授权，授权的办理需要一段时间，而本书的出版不能再被延误，故本次印刷的图书，mirror.rar文件不能放在光盘中，请读者谅解。请读者在理解书中讲述的原理与方法后灵活处理。目前已有热心读者愿意为mirror.rar文件提供下载，在此对他们表示感谢。因为该文件需要的空间较大，初期下载地址可能会不确定，请读者发邮件询问本书责编：quyanlian@ptpress.com.cn，注明“Lucene下载地址咨询”。来函必复。对于个别下载不方便的读者，我们也可以提供刻光盘并邮寄的服务，也请发邮件询问本书责编：quyanlian@ptpress.com.cn，注明“Lucene光盘邮寄”。

立即下载

【文件预览】：
ch7
----.project(379B)
----.settings()
--------org.eclipse.jdt.ui.prefs(99B)
--------org.eclipse.jdt.core.prefs(633B)
----ch7()
--------jacob()
--------googleapi()
--------pdfbox()
--------poi()
--------xpdf()
----.classpath(938B)
----lib()
--------checkstyle-all-4.2.jar(1.3MB)
--------bcmail-jdk14-132.jar(160KB)
--------bcprov-jdk14-132.jar(1.01MB)
--------FontBox-0.1.0-dev.jar(62KB)
--------googleapi.jar(610KB)
--------poi-2.5.1-final-20040804.jar(783KB)
--------jacob.jar(40KB)
--------tm-extractors-0.4.zip(226KB)
--------PDFBox-0.7.3.jar(3.17MB)
ch9
----.project(379B)
----.classpath(339B)
----lib()
--------htmllexer.jar(68KB)
--------htmlparser.jar(281KB)
----ch9()
--------htmlparser()
--------regex()
ch2
----.project(379B)
----.classpath(354B)
----lib()
--------je-analysis-1.4.0.jar(878KB)
--------lucene-core-2.0.0.jar(394KB)
----ch2()
--------lucenedemo()

秒客网

Heritrix lucene开发自己的搜索引擎(源码)1

网友评论

相关文章