文件名称:docker-crawler
文件大小:8KB
文件格式:ZIP
更新时间:2024-06-02 19:09:24
Python
网络爬虫 该项目只是构建了一个Web搜寻器,以检查和查找整个网站中损坏的网页。 用户的故事 As a developer I want a tool to automatically check all the webpages in the website So that I can quickly identify if the new features or the bug fixing changes introduced to the website break any existing pages. 验收标准 该网站中所有面向公众的网页都可以轻松定位和测试。 任何错误页面都应记录下来,以进行进一步的跟踪。 入门 添加用于爬网的URL 在Spider类中(例如:./mycrawler/spiders/pageavailability.py),将example.com URL替
【文件预览】:
docker-crawler-master
----.gitignore(66B)
----Dockerfile(161B)
----requirements.txt(7B)
----docker-compose.yml(84B)
----go-spider.py(272B)
----README.md(1KB)
----scrapy.cfg(261B)
----mycrawler()
--------middlewares.py(4KB)
--------spiders()
--------__init__.py(0B)
--------pipelines.py(290B)
--------settings.py(3KB)
--------items.py(332B)
----logs()
--------tmp.txt(0B)