文件名称:newspaper-crawler:基于爬网的爬虫,爬报纸
文件大小:20KB
文件格式:ZIP
更新时间:2024-04-19 17:58:16
python crawler scraper news mongodb
报纸履带 基于爬网的抓取器,用于抓取报纸。 必需的依赖项: 码头工人 码头工人组成 从源代码运行爬虫程序: 首先克隆存储库。 因为它包含3k作为此存储库的子模块,所以请执行以下操作: $ git clone --recurse-submodules https://github.com/rafatbiin/newspaper-crawler.git 在项目文件夹中打开终端并运行docker-compose文件: $ docker-compose up -d 使用任何MongoDB客户端在localhost:9004上检查数据库 配置 日志将被保存在一个名为TMP的目录里面包。 默认爬网深度设置为2。如果需要更改,则可以在docker 文件中找到CRAWL_DEPTH环境变量。 关于Newspaper3k库 这是一个很棒的库,可帮助解析新闻文章中的数据。目前,它不支持孟加拉语。
【文件预览】:
newspaper-crawler-master
----crawler()
--------crawler()
--------requirements.txt(800B)
--------__init__.py(0B)
--------scrapy.cfg(257B)
----.gitignore(2KB)
----Dockerfile(125B)
----LICENSE(11KB)
----docker-compose.yml(593B)
----.gitmodules(136B)
----.github()
--------workflows()
----README.md(2KB)
----mongodb_data()
--------.gitkeep(0B)