文件名称:BSCrawler:一个 BlogSpot 爬虫,旨在为 blogspot 上托管的所有博客及其语言编制索引
文件大小:127KB
文件格式:ZIP
更新时间:2024-06-27 01:09:24
Java
爬虫 BlogSpot 爬虫旨在为 blogspot 上托管的所有博客及其语言编制索引。 在哥伦比亚大学语音实验室工作期间,我被要求使用低资源语言(哈萨克语、泰卢固语、Tok Pisin、立陶宛语、库尔曼吉语)收集网络博客数据。 不幸的是,这些语言的博客并不多,而且 Google/Bing 不支持所有这些语言的过滤结果。 该工具旨在抓取整个 blogspot 博客链,并使用 Google 的 Compact Language Detection 库为每个博客及其语言编制索引。 它采用多线程架构设计,可能支持在集群中运行。 这仍在进行中,因此还没有构建/安装说明。 #####依赖项: Maven 3.2.1 MySQL 5.5
【文件预览】:
BSCrawler-master
----src()
--------main()
----langDetect.py(405B)
----pom.xml(4KB)
----README.md(838B)
----lib()
--------javax.persistence.jar(127KB)
----tempFile.txt506410998146319269614275663432246744461825336026683147413528948110496255176939838696457(240B)
----tempFile.txt506410998146319269614275663432246744461825336026683147413528948110496255176939838696457518639498468163148376(12KB)
----tempFile.txt(3KB)