newspaper-crawler-scripts:爬网报纸网站的脚本集

时间:2024-05-22 13:32:33
【文件属性】:

文件名称:newspaper-crawler-scripts:爬网报纸网站的脚本集

文件大小:76KB

文件格式:ZIP

更新时间:2024-05-22 13:32:33

Python

报纸爬虫脚本 爬行报纸网站的脚本集。 请在下面找到可用的脚本 设置 pip3 install -r requirements.txt 去做 []将通用代码提取到装饰器中 贡献 欢迎使用更多新闻网站的脚本。 请保存以UTF-8编码抓取的文本。 请参阅然后选择其中一个进行刮擦。 最新剧本 crawler-oneindia.py下的crawler-oneindia.py具有最新代码,您可以将其用作以后的爬网程序的模板。 目录结构 title.list --> acts as a index for other directories. articles -- 2018 ---- Dec ---- May -- 2017 ---- Jun ---- Aug -- 2016 ---- Oct ---- Jan abs


【文件预览】:
newspaper-crawler-scripts-master
----newspapers.csv(5KB)
----bengali()
--------crawler-aajkal.py(5KB)
--------crawler-anandabazar.py(5KB)
----konkani()
--------crawler-konkani-kaniyo.py(7KB)
----stacktracer.py(3KB)
----reference_scripts()
--------nothreading_ex.py(545B)
--------threading_ex.py(773B)
--------googlegroupsscraper.py(8KB)
--------crawler.py(1KB)
--------crawler-base.py(2KB)
----LICENSE(34KB)
----marathi()
--------crawler-maharashtratimes.py(5KB)
--------crawler-loksatta.py(5KB)
--------crawler-lokmat.py(5KB)
--------crawler-abpmajha.py(5KB)
----tamil()
--------crawler-viduthalai3.py(4KB)
--------crawler-tawiki.py(1KB)
--------crawler-tamil-hindu.py(6KB)
--------crawler-dailythanthi.py(8KB)
--------crawler-viduthalai4.py(4KB)
--------crawler-nakkheeran.py(2KB)
--------crawler-viduthalai.py(7KB)
--------crawler-dinamani.py(7KB)
--------crawler-puthiyathalaimurai.py(7KB)
--------processing_scripts()
--------crawler-viduthalai2.py(3KB)
----malayalam()
--------crawler-asianet.py(5KB)
--------crawler-manorama.py(8KB)
--------crawler-dheshabhimani.py(5KB)
--------crawler-oneindia.py(5KB)
--------processing_scripts()
--------crawler-mathrubhumi.py(4KB)
----requirements.txt(276B)
----.gitignore(1KB)
----config.py(236B)
----aliases.py(2KB)
----README.md(4KB)
----crawler.py(21KB)

网友评论