myCrawler:我的爬虫练习

时间:2024-05-18 02:11:25
【文件属性】:

文件名称:myCrawler:我的爬虫练习

文件大小:110KB

文件格式:ZIP

更新时间:2024-05-18 02:11:25

HTML

myCrawler 我的爬虫练习 doubanBook 爬取豆瓣读书。只爬取了每个标签类别的首页的图书信息,若稍加修改,可以爬取任意页数的信息。 bookSpiderXpath “第一只爬虫”的lxml实现。因为lxml库用C实现,效率很高,而且支持xpath。所以做了一次练习。 bookCrawler2 爬取每个热门标签下的书籍基本信息,存储到MySQL中。因为有些数据的格式不符合要求,实际爬取数量为60000+。稍作修改,可以拓展功能,或者做些其他有趣的事情。 bookCrawler3 上一个爬虫的全面升级。只爬取“编程”标签下的书籍,但这次爬取了书籍详情页面和书籍图片,并且使用了多线程,速度提高很多。 bookSearch 另外,在尝试用wxPython做一个图形化的书籍检索页面,更好地利用爬取成果。目前只做了最简单的实现。 getWebpage 保存指定URL的页面到本地。 qiu


【文件预览】:
myCrawler-master
----bdbaike()
--------spider_main.py(1KB)
--------baike_spider()
----poem()
--------utils()
--------config.py(534B)
--------models()
--------README.md(140B)
--------crawler.py(391B)
----getWebpage()
--------c1.py(396B)
--------test.html(110KB)
----tieba()
--------content.txt(82KB)
--------tiebaspider.py(2KB)
----README.md(2KB)
----srtpInfo()
--------srtpSpider.py(715B)
----jenkinsJob()
--------utils.py(2KB)
--------run.py(3KB)
----doubanBook()
--------bookCrawler2()
--------bookSpiderXPath.py(2KB)
--------bookCrawler3()
--------book_list.txt(15KB)
--------book_list_spider.py(3KB)
--------README.md(941B)
----baiduTranslate()
--------translater.py(943B)
----.gitignore(27B)
----proxyInfo()
--------proxyInfo2.py(1KB)
----qiushibaike()
--------log.txt(69KB)
--------main.py(3KB)

网友评论