retina-crawler:Retina 项目的新闻爬虫

时间:2024-07-01 19:04:19
【文件属性】:

文件名称:retina-crawler:Retina 项目的新闻爬虫

文件大小:110KB

文件格式:ZIP

更新时间:2024-07-01 19:04:19

Python

此存储库位于 Python 2.7.8 中。 你需要 并将 Python 添加到您的路径中(如果在 linux 和 mac 系统上使用apt-get或brew或等效的包管理器安装,这应该会自动发生 python 包管理器。 可选运行pip install virtualenv 安装 要解析 xml 文章,您需要两个系统包,libxml2 和 libxsl。 在 ubuntu 上,使用sudo apt-get install libxml2 libxslt1-dev 然后,使用以下命令安装所需的 python 库: pip install -r requirements.txt Windows 注意:运行上述命令只会部分工作,并且会在 libxml 上出错。 您必须手动。 使用 Mongo 安装与gem install genghisapp ,这是像phpMyAdmin Mongo


【文件预览】:
retina-crawler-master
----Vagrantfile(276B)
----update_version.py(676B)
----configs()
--------local-file-cnn-conf.json(220B)
--------local-conf.json(535B)
--------test-file-generator.json(1KB)
--------local-mongo-cnn-conf.json(252B)
--------prod-conf.json(540B)
----vagrant_bootstrap(195B)
----style_guide.md(497B)
----test-main.py(4KB)
----main.py(4KB)
----crawlers.py(6KB)
----article.py(2KB)
----README.md(2KB)
----rss_feed_parser.py(4KB)
----downloaders.py(3KB)
----visited.py(995B)
----writers.py(5KB)
----.gitignore(216B)
----deploy()
--------run.sh(60B)
--------requirements.txt(145B)
--------crawler(5KB)
--------fresh-install.sh(522B)
----parsers.py(8KB)
----test_multiprocessing.py(748B)
----test_files()
--------basic-fox.json(63KB)
--------basic-nbc.json(99KB)
--------basic-nyt.json(206KB)
--------basic-cnn.json(86KB)

网友评论