dragnet:事实-网页内容提取

时间:2024-05-11 05:44:51
【文件属性】:

文件名称:dragnet:事实-网页内容提取

文件大小:6.8MB

文件格式:ZIP

更新时间:2024-05-11 05:44:51

Python

德拉网 Dragnet对网页的光泽镀Chrome或样板装饰不感兴趣。 它对...“只是事实”感兴趣。 Dragnet中的机器学习模型提取主要文章内容,并从网页中提取用户生成的注释(可选)。 它们可在各种测试基准上提供最先进的性能。 有关我们的方法的更多信息,请查看: 我们于2013年在WWW上发表的论文《概述了机器学习方法。 天罗地网和替代内容提取包。 解释了算法背后的直觉。 该项目最初受到Kohlschütter等人的启发,和Weninger等人的最近又受到了启发。 入门 根据您的用例,我们提供两个单独的功能,以仅提取主要文章内容或任何用户生成的评论内容。 每个函数接受一个HTML字符串并返回内容字符串。 import requests from dragnet import extract_content , extract_content_and_comments #


【文件预览】:
dragnet-master
----setup.py(4KB)
----.gitignore(390B)
----requirements.txt(128B)
----Makefile(839B)
----.travis.yml(790B)
----Vagrantfile(563B)
----LICENSE(1KB)
----provision.sh(697B)
----env()
--------env_dragnet.yml(132B)
----scripts()
--------train_and_test_models.py(2KB)
----README.md(9KB)
----dragnet()
--------lcs.pyx(3KB)
--------blocks.pyx(31KB)
--------compat.py(9KB)
--------model_training.py(10KB)
--------data_processing.py(16KB)
--------__init__.py(1KB)
--------extractor.py(9KB)
--------util.py(6KB)
--------features()
--------pickled_models()
----CHANGES.md(541B)
----dragnet_www2013.pdf(65KB)
----test()
--------test_readability.py(733B)
--------test_blocks.py(5KB)
--------test_extractor.py(2KB)
--------test_models.py(3KB)
--------test_lcs.py(262B)
--------test_util.py(2KB)
--------datafiles()
--------test_weninger.py(605B)
--------test_kohlschuetter.py(11KB)
--------test_data_processing.py(4KB)
----MANIFEST.IN(72B)

网友评论