文件名称:pycon-speakers:扬声器蜘蛛(PyCon 2014 sprint)
文件大小:37KB
文件格式:ZIP
更新时间:2024-07-17 18:30:49
Python
扬声器蜘蛛(PyCon 2014 sprint) 该项目将: 从存档的会议网站上抓取演讲者的名字, 使用推断性别,以及 随着时间的推移绘制不同会议的性别比例。 自 2011 年以来,Scrapy 团队构建了一个爬虫,用于抓取 Python 会议上演讲者的信息; 有关安装说明,请参阅。 开始冲刺: 选择一个尚未被抓取的当前活动会议,并为该会议编写一个 Scrapy Spider。 您可以通过键入scrapy list查看已被scrapy list会议。 在 pycon_speakers/spiders/ 目录中为您要抓取的会议创建一个 Scrapy Spider。 它应该尽可能多地抓取会议的年份并提取演讲者项目。 测试你的蜘蛛 提交拉取请求 其他任务: 改进 pycon_speakers/pipelines.py 中的性别识别 查看抓取的数据并在数据不正确时修复蜘蛛 图表结
【文件预览】:
pycon-speakers-master
----setup.py(278B)
----.gitignore(58B)
----requirements.txt(18B)
----pycon_speakers()
--------spiders()
--------__init__.py(0B)
--------pipelines.py(529B)
--------loaders.py(1KB)
--------settings.py(649B)
--------items.py(294B)
----gender_plot.png(23KB)
----README.md(2KB)
----run.sh(386B)
----scrapy.cfg(291B)