readability:html主体提取器

时间:2024-06-10 07:14:35
【文件属性】:

文件名称:readability:html主体提取器

文件大小:142KB

文件格式:ZIP

更新时间:2024-06-10 07:14:35

HTML

可读性 广为人知的可读性概念的另一种算法和实现。 用法: import requests from readability import Readability html = requests . get ( 'http://blog.hucheng.com/articles/482.html' ). content parser = Readability ( html . decode ( 'utf8' )) parser . title parser . article parser . article . get_text ()


【文件预览】:
readability-master
----README.rst(387B)
----test()
--------cases()
--------demo_simple.py(862B)
--------test_cases.py(988B)
----LICENSE(1KB)
----dev-requirements.txt(14B)
----unsolved.txt(39B)
----requirements.txt(27B)
----setup.py(733B)
----.gitignore(25B)
----Makefile(126B)
----readability.py(18KB)

网友评论