baidu_spider:百度爬虫:热词,词频,音乐,poi信息

时间:2024-07-09 20:02:11
【文件属性】:

文件名称:baidu_spider:百度爬虫:热词,词频,音乐,poi信息

文件大小:86KB

文件格式:ZIP

更新时间:2024-07-09 20:02:11

Python

###爬虫: ####CrawlHotWord: 1、抓取新浪、百度热词 ####baidu_whole_music: 1、抓取百度整个网站的音乐,网易云音乐 2、远程部署到服务器,实现分布式抓取 ####baidu_words_freq: 1、抓取百度词频 ####baidu_poi: 1、百度poi信息(多线程使用Queue进行线程间通讯)


【文件预览】:
baidu_spider-master
----CrawlHotWord()
--------log()
--------mongoDB.pyc(1KB)
--------Gen_topic_url.py(4KB)
--------CrawlHotWord.py(10KB)
--------src()
--------mongoDB.py(543B)
--------README.md(57B)
----baidu_words_freq()
--------multi_thread_get_freq.py(3KB)
--------crawl_failed_words.txt(0B)
--------crawler_with_proxy.py(6KB)
--------New_Word.freq(3KB)
--------New_Word.txt(4KB)
--------README.md(486B)
--------baidu_freq_spider.py(6KB)
----baidu_whole_music()
--------exec_fab.py(619B)
--------fabfile.py(100B)
--------baidu_music.py(8KB)
--------README.md(658B)
--------total_singer_url.txt(81KB)
----baidu_poi()
--------poi.py(6KB)
--------tmp_add_city_to_packet.py(582B)
--------poi_fab.py(3KB)
--------tmp_poi_dirlist.py(454B)
--------data_clean.py(4KB)
--------cities()
--------README.md(248B)
----.gitignore(24B)
----README.md(345B)

网友评论