pageone:用于从首页轮询网址和统计信息的模块

时间:2024-05-24 02:15:07
【文件属性】:

文件名称:pageone:用于从首页轮询网址和统计信息的模块

文件大小:8KB

文件格式:ZIP

更新时间:2024-05-24 02:15:07

Python

分页器 用于从首页轮询网址和统计信息的模块 安装 $ pip install pageone 测验 需要nose $ nosetests 用法 pageone做两件事:从网站的主页提取文章URL,还使用selenium和phantomjs查找这些URL的相对位置。 pageone提供了一个界面: import pageone for link in pageone . get ( 'http://www.propublica.org/' , pattern = '.*article.*' ): print link 在此, pattern代表用于识别哪些网址是artirces的regex 。 如果已安装newslynx且未提供pattern ,则默认使用 ,该新闻使用一系列试探法确定url是否为文章。 所有方法都将返回一个字典列表,如下所示: { 'bucket' :


【文件预览】:
pageone-master
----.gitignore(47B)
----README.md(2KB)
----pageone()
--------exc.py(41B)
--------__init__.py(149B)
--------core.py(11KB)
----tests()
--------README.md(22B)
--------tests.py(599B)
--------__init__.py(0B)
----requirements.txt(32B)
----setup.py(830B)
----.travis.yml(224B)

网友评论