时间:2024-03-16 03:10:39
【文件属性】:

文件名称:葛

文件大小:67KB

文件格式:ZIP

更新时间:2024-03-16 03:10:39

Ruby

葛 一个简单的Ruby网络爬虫。 特征 运行单线程或多线程。 池HTTP连接。 通过基于url的模式限制链接。 尊重robots.txt。 通过适配器存储页面内容。 依存关系 Ruby2.3+ 利比库 安装 添加到您的应用程序的Gemfile中: gem 'kudzu' 然后运行: $ bundle install 用法 在example.com抓取html文件: crawler = Kudzu :: Crawler . new do user_agent 'YOUR_AWESOME_APP' add_filter do focus_host true allow_mime_type %w( text/html ) end end crawler . run ( 'http://example.com/' ) do on_success d


网友评论