【文件属性】:
文件名称:pageone:用于从首页轮询网址和统计信息的模块
文件大小:8KB
文件格式:ZIP
更新时间:2021-05-04 08:28:27
Python
分页器
用于从首页轮询网址和统计信息的模块
安装
$ pip install pageone
测验
需要nose
$ nosetests
用法
pageone做两件事:从网站的主页提取文章URL,还使用selenium和phantomjs查找这些URL的相对位置。
pageone提供了一个界面:
import pageone
for link in pageone . get ( 'http://www.propublica.org/' , pattern = '.*article.*' ):
print link
在此, pattern代表用于识别哪些网址是artirces的regex 。 如果已安装newslynx且未提供pattern ,则默认使用 ,该新闻使用一系列试探法确定url是否为文章。
所有方法都将返回一个字典列表,如下所示:
{
'bucket' :
【文件预览】:
pageone-master
----.gitignore(47B)
----README.md(2KB)
----pageone()
--------exc.py(41B)
--------__init__.py(149B)
--------core.py(11KB)
----tests()
--------README.md(22B)
--------tests.py(599B)
--------__init__.py(0B)
----requirements.txt(32B)
----setup.py(830B)
----.travis.yml(224B)