文件名称:brozzler:brozzler-基于浏览器的分布式Web搜寻器
文件大小:2.4MB
文件格式:ZIP
更新时间:2024-05-24 04:27:55
Python
吹毛求疵者 “浏览器” | “ crawler” =“ brozzler” Brozzler是一种分布式网络爬虫(爬虫),它使用真实的浏览器(Chrome或Chromium)来获取页面和嵌入式URL并提取链接。 它使用来增强媒体捕获功能,并使用来管理爬态。 Brozzler旨在与warcprox结合使用以进行Web归档。 要求 Python 3.5或更高版本 RethinkDB部署 Chromium或Google Chrome> =版本64 注意:浏览器需要运行图形环境。 当在服务器上运行brozzler时,这可能需要部署一些其他基础结构,通常是X11。 Xvnc4和Xvfb是适合在服务器上使用的X11变体,因为它们不会在物理屏幕上显示任何内容。 brozzler存储库中的使用Xvnc4进行示例设置。 (上次测试时,Xvfb上的Chrome不支持屏幕截图,因此目前首选Xvnc4。)