BangumiAnimeListSpider:bangumi.tv动画排名爬虫下载

【文件属性】：

文件名称：BangumiAnimeListSpider:bangumi.tv动画排名爬虫

文件大小：15.53MB

文件格式：ZIP

更新时间：2024-05-27 21:58:28

bangumi bangumi-animelist-spider itemloader HTML

Bangumi_AnimeList_Spider use scrapy to get the basic information. v1 使用的是Item，最原始。实现了巧妙地翻页 v2 重构了部分代码，优化了部分细节。发现会固定缺失部分数据，总结发现是并发数的问题，16线程并发，而网页一有24个元素，所以到page5以后会应为delay值小的原因，稳定缺失8个元素，通过修改setting.py改为24线程后解决该问题。 v3 又重构了代码，使用了Itemloader，增加了可读性。在item.py里实现正则化提取使用pyechart和worldcloud实现数据可视化。 Todo 数据清洗对value_counts()还存在一定问题从v2开始放弃了多级页面的Itemloader对评论爬取，存在数据串行,原理和summary部分应该没差?

立即下载

【文件预览】：
BangumiAnimeListSpider-master
----LICENSE(11KB)
----README.md(795B)
----AnimeSpider()
--------Top250剧场版动画和TV动画上映月份对比图.html(3.48MB)
--------DataClean_v2_MovieTime.py(373B)
--------mioseng.jpg(62KB)
--------BGM_jiandu_v2.csv(82KB)
--------Ranking&Popularity.py(567B)
--------BGM_week_v1.csv(50KB)
--------old_csv()
--------Top250动画 TV动画放送日期.html(3.48MB)
--------movie_time_v2.py(6KB)
--------old_script()
--------Ranking&Popularity.png(36KB)
--------DataClean_v2_week.py(410B)
--------director.py(1KB)
--------pyecharts()
--------scrapy.cfg(265B)
--------TV_Time.csv(1.97MB)
--------Top250剧场版动画和TV动画上映年份对比图.html(3.48MB)
--------Top250动画上映年代.html(3.48MB)
--------week_v2.py(888B)
--------Ex_Finalv2.csv(1.9MB)
--------__pycache__()
--------Top250动画上映月份.html(3.48MB)
--------DataClean_v2_TvTime.py(373B)
--------director.jpg(38KB)
--------AnimeSpider()
--------Movie_Time.csv(1.95MB)
--------DataClean_v2_director.py(424B)

秒客网

BangumiAnimeListSpider:bangumi.tv动画排名爬虫

网友评论

相关文章