news_crawler:来自 RSS 提要的新闻爬虫

时间:2024-08-05 19:45:26
【文件属性】:

文件名称:news_crawler:来自 RSS 提要的新闻爬虫

文件大小:7KB

文件格式:ZIP

更新时间:2024-08-05 19:45:26

Python

新闻爬虫 仅来自 RSS 提要的新闻爬虫,不考虑新闻中的 url,以后可能会更改 依赖 要运行爬虫,你可能需要安装一些包,在 pip 中可用: 还使用命令行工具 用法 在“feeds.txt”文件中是一些新闻提要,您可以添加更多提要 启动MongoDB守护进程(@IMS人:请埃德加更新服务器中的MongoDB,版本太旧了) $ mongod --dbpath [DATABASE-PATH] 运行爬虫,或使用 -h 寻求帮助 $ python crawler.py -t [NUM-OF-THREADS] -d [DATABASE-NAME] -f [FEEDS-FILE] 您可以使用任何计划工具每天仅运行一次或两次爬虫,因为 rss 更新速度不快。 #License免费使用,风险自负,如有不愉快后果作者不承担任何责任。


【文件预览】:
news_crawler-master
----.gitignore(26B)
----writer.py(717B)
----crawler.py(10KB)
----tokenizer.py(2KB)
----README.md(1KB)
----run.sh(25B)
----feeds.txt(3KB)

网友评论