newspaper-crawler:基于爬网的爬虫，爬报纸下载

【文件属性】：

文件名称：newspaper-crawler:基于爬网的爬虫，爬报纸

文件大小：20KB

文件格式：ZIP

更新时间：2024-04-19 17:58:16

python crawler scraper news mongodb

报纸履带基于爬网的抓取器，用于抓取报纸。必需的依赖项：码头工人码头工人组成从源代码运行爬虫程序：首先克隆存储库。因为它包含3k作为此存储库的子模块，所以请执行以下操作： $ git clone --recurse-submodules https://github.com/rafatbiin/newspaper-crawler.git 在项目文件夹中打开终端并运行docker-compose文件： $ docker-compose up -d 使用任何MongoDB客户端在localhost:9004上检查数据库配置日志将被保存在一个名为TMP的目录里面包。默认爬网深度设置为2。如果需要更改，则可以在docker 文件中找到CRAWL_DEPTH环境变量。关于Newspaper3k库这是一个很棒的库，可帮助解析新闻文章中的数据。目前，它不支持孟加拉语。

立即下载

【文件预览】：
newspaper-crawler-master
----crawler()
--------crawler()
--------requirements.txt(800B)
--------__init__.py(0B)
--------scrapy.cfg(257B)
----.gitignore(2KB)
----Dockerfile(125B)
----LICENSE(11KB)
----docker-compose.yml(593B)
----.gitmodules(136B)
----.github()
--------workflows()
----README.md(2KB)
----mongodb_data()
--------.gitkeep(0B)

秒客网

newspaper-crawler:基于爬网的爬虫，爬报纸

网友评论

相关文章