文件名称:wsm:网络信息搜索与挖掘
文件大小:215.21MB
文件格式:ZIP
更新时间:2024-06-01 20:53:55
JavaScript
BookSearcher 基于Elasticsearch的爬网和搜索模块,用于从goodreads.com中搜索书籍 模块 档案文件 描述 爬行 crawler.py,scraper.py,SetQueue.py 这些文件包含多线程搜寻器的实现。 具体来说,scraper.py是从Goodreads网站抓取网页的实现。 crawler.py实现了搜寻器线程,线程安全的url队列和相关内容。 在SetQueue.py中实现了具有用于url重复数据删除的内置集的线程安全队列 索引编制 booktype.py,indexer.py,PageRank.py 已经实现了使用两个库的索引。 您可以在Elasticsearch和Lucene之间进行选择以建立索引。 为了提高文档质量,还实现了PageRank评分。 搜寻中 searcher.py 它是基于web.py的最小网络服务器,用于搜索索