文件名称:newspaper-crawler-scripts:爬网报纸网站的脚本集
文件大小:76KB
文件格式:ZIP
更新时间:2024-05-22 13:32:33
Python
报纸爬虫脚本
爬行报纸网站的脚本集。 请在下面找到可用的脚本
设置
pip3 install -r requirements.txt
去做
[]将通用代码提取到装饰器中
贡献
欢迎使用更多新闻网站的脚本。 请保存以UTF-8编码抓取的文本。 请参阅然后选择其中一个进行刮擦。
最新剧本
crawler-oneindia.py下的crawler-oneindia.py具有最新代码,您可以将其用作以后的爬网程序的模板。
目录结构
【文件预览】:
newspaper-crawler-scripts-master
----newspapers.csv(5KB)
----bengali()
--------crawler-aajkal.py(5KB)
--------crawler-anandabazar.py(5KB)
----konkani()
--------crawler-konkani-kaniyo.py(7KB)
----stacktracer.py(3KB)
----reference_scripts()
--------nothreading_ex.py(545B)
--------threading_ex.py(773B)
--------googlegroupsscraper.py(8KB)
--------crawler.py(1KB)
--------crawler-base.py(2KB)
----LICENSE(34KB)
----marathi()
--------crawler-maharashtratimes.py(5KB)
--------crawler-loksatta.py(5KB)
--------crawler-lokmat.py(5KB)
--------crawler-abpmajha.py(5KB)
----tamil()
--------crawler-viduthalai3.py(4KB)
--------crawler-tawiki.py(1KB)
--------crawler-tamil-hindu.py(6KB)
--------crawler-dailythanthi.py(8KB)
--------crawler-viduthalai4.py(4KB)
--------crawler-nakkheeran.py(2KB)
--------crawler-viduthalai.py(7KB)
--------crawler-dinamani.py(7KB)
--------crawler-puthiyathalaimurai.py(7KB)
--------processing_scripts()
--------crawler-viduthalai2.py(3KB)
----malayalam()
--------crawler-asianet.py(5KB)
--------crawler-manorama.py(8KB)
--------crawler-dheshabhimani.py(5KB)
--------crawler-oneindia.py(5KB)
--------processing_scripts()
--------crawler-mathrubhumi.py(4KB)
----requirements.txt(276B)
----.gitignore(1KB)
----config.py(236B)
----aliases.py(2KB)
----README.md(4KB)
----crawler.py(21KB)