pageone:用于从首页轮询网址和统计信息的模块下载

【文件属性】：

文件名称：pageone:用于从首页轮询网址和统计信息的模块

文件大小：8KB

文件格式：ZIP

更新时间：2024-05-24 02:15:07

Python

分页器用于从首页轮询网址和统计信息的模块安装 $ pip install pageone 测验需要nose $ nosetests 用法 pageone做两件事：从网站的主页提取文章URL，还使用selenium和phantomjs查找这些URL的相对位置。 pageone提供了一个界面： import pageone for link in pageone . get ( 'http://www.propublica.org/' , pattern = '.*article.*' ): print link 在此， pattern代表用于识别哪些网址是artirces的regex 。如果已安装newslynx且未提供pattern ，则默认使用，该新闻使用一系列试探法确定url是否为文章。所有方法都将返回一个字典列表，如下所示： { 'bucket' :

立即下载

【文件预览】：
pageone-master
----.gitignore(47B)
----README.md(2KB)
----pageone()
--------exc.py(41B)
--------__init__.py(149B)
--------core.py(11KB)
----tests()
--------README.md(22B)
--------tests.py(599B)
--------__init__.py(0B)
----requirements.txt(32B)
----setup.py(830B)
----.travis.yml(224B)

秒客网

pageone:用于从首页轮询网址和统计信息的模块

网友评论

相关文章