文件名称:BangumiAnimeListSpider:bangumi.tv动画排名爬虫
文件大小:15.53MB
文件格式:ZIP
更新时间:2024-05-27 21:58:28
bangumi bangumi-animelist-spider itemloader HTML
Bangumi_AnimeList_Spider use scrapy to get the basic information. v1 使用的是Item,最原始。 实现了巧妙地翻页 v2 重构了部分代码,优化了部分细节。 发现会固定缺失部分数据,总结发现是并发数的问题,16线程并发,而网页一有24个元素,所以到page5以后会应为delay值小的原因,稳定缺失8个元素,通过修改setting.py改为24线程后解决该问题。 v3 又重构了代码,使用了Itemloader,增加了可读性。 在item.py里实现正则化提取 使用pyechart和worldcloud实现数据可视化。 Todo 数据清洗对value_counts()还存在一定问题 从v2开始放弃了多级页面的Itemloader对评论爬取,存在数据串行,原理和summary部分应该没差?
【文件预览】:
BangumiAnimeListSpider-master
----LICENSE(11KB)
----README.md(795B)
----AnimeSpider()
--------Top250剧场版动画和TV动画上映月份对比图.html(3.48MB)
--------DataClean_v2_MovieTime.py(373B)
--------mioseng.jpg(62KB)
--------BGM_jiandu_v2.csv(82KB)
--------Ranking&Popularity.py(567B)
--------BGM_week_v1.csv(50KB)
--------old_csv()
--------Top250动画 TV动画放送日期.html(3.48MB)
--------movie_time_v2.py(6KB)
--------old_script()
--------Ranking&Popularity.png(36KB)
--------DataClean_v2_week.py(410B)
--------director.py(1KB)
--------pyecharts()
--------scrapy.cfg(265B)
--------TV_Time.csv(1.97MB)
--------Top250剧场版动画和TV动画上映年份对比图.html(3.48MB)
--------Top250动画上映年代.html(3.48MB)
--------week_v2.py(888B)
--------Ex_Finalv2.csv(1.9MB)
--------__pycache__()
--------Top250动画上映月份.html(3.48MB)
--------DataClean_v2_TvTime.py(373B)
--------director.jpg(38KB)
--------AnimeSpider()
--------Movie_Time.csv(1.95MB)
--------DataClean_v2_director.py(424B)