文件名称:纯Python HTML屏幕抓取库-Python开发
文件大小:315KB
文件格式:ZIP
更新时间:2024-06-14 07:38:56
Python Web Crawling
Scrapely Scrapely是一个用于从HTML页面提取结构化数据的库。 给定一些示例网页和要提取的数据,就为所有相似的页面构建一个解析器。 概述Scrapinghub wr Scrapely Scrapely是一个用于从HTML页面提取结构化数据的库。 给定一些示例网页和要提取的数据,就为所有相似的页面构建一个解析器。 概述Scrapinghub撰写了一篇不错的博客文章,解释了刮擦的工作原理以及在Portia中的用法。 安装Scrapely可在Python 2.7或3.3+中运行。 它需要numpy和w3lib Python软件包。 要在任何平台上进行抓取安装,请使用:pip install scrapely如果您使用的是Ubuntu(9.10或更高版本),
【文件预览】:
scrapely-master
----MANIFEST.in(110B)
----README.rst(8KB)
----scrapely()
--------_htmlpage.pyx(11KB)
--------descriptor.py(2KB)
--------__init__.py(2KB)
--------extraction()
--------template.py(5KB)
--------htmlpage.py(12KB)
--------version.py(23B)
--------extractors.py(15KB)
--------_htmlpage.c(486KB)
--------tool.py(7KB)
----AUTHORS(493B)
----.bumpversion.cfg(243B)
----requirements.txt(15B)
----.travis.yml(748B)
----tox.ini(712B)
----setup.py(2KB)
----NEWS(1KB)
----tests()
--------test_htmlpage.py(8KB)
--------test_template.py(3KB)
--------test_extraction.py(42KB)
--------__init__.py(920B)
--------samples()
--------test_pageparsing.py(18KB)
--------test_htmlpage_data.py(17KB)
--------test_scraper.py(1KB)
----.gitignore(87B)