文件名称:GerapyAutoExtractor:自动提取器模块
文件大小:1.31MB
文件格式:ZIP
更新时间:2024-04-08 10:47:48
Python
Gerapy自动提取器 这是的自动提取器模块,也可以单独使用。 您可以使用此包来区分列表页面和详细信息页面,我们可以使用它从列表页面提取url ,还可以从详细信息页面提取title , datetime , content ,而无需任何XPath或Selector。 与其他方案相比,它对于中文新闻网站更有效。 简介: 安装 您可以使用以下命令来安装此软件包: pip3 install gerapy-auto-extractor 用法 下面是此程序包实现的方法: 提取列表页 对于列表页面,可以使用extract_list方法提取主列表URL及其标题。 提取详细页面 对于详细信息页面,可以使用extract_title方法提取标题,使用extract_content方法提取内容,使用extract_datetime方法提取日期时间。 您也可以使用extract_detail方法提取上述所有a
【文件预览】:
GerapyAutoExtractor-master
----MANIFEST.in(54B)
----.github()
--------ISSUE_TEMPLATE()
--------workflows()
----main.py(646B)
----requirements.txt(126B)
----CONTRIBUTING.md(345B)
----LICENSE(11KB)
----samples()
--------list()
--------detail()
----setup.py(3KB)
----README.md(9KB)
----gerapy_auto_extractor()
--------settings.py(95B)
--------utils()
--------helpers.py(64B)
--------__init__.py(499B)
--------schemas()
--------patterns()
--------classifiers()
--------extractors()
--------__version__.py(75B)
----tests()
--------test_classify_list.py(751B)
--------settings.py(206B)
--------test_prod_case.py(612B)
--------__init__.py(0B)
--------test_base.py(611B)
--------test_extract_title.py(719B)
--------test_extract_list.py(2KB)
--------test_classify_detail.py(907B)
----CODE_OF_CONDUCT.md(3KB)
----.gitignore(2KB)
----CHANGELOG.md(962B)