extruct:从HTML标记中提取嵌入式元数据

时间:2024-05-25 01:47:54
【文件属性】:

文件名称:extruct:从HTML标记中提取嵌入式元数据

文件大小:540KB

文件格式:ZIP

更新时间:2024-05-25 01:47:54

microformats semantic-web rdfa json-ld microdata

挤压 extruct是一个用于从HTML标记中提取嵌入式元数据的库。 目前,挤出机支持: 通过 (实验性)通过 微数据算法是的重访, 显示了如何使用EXSLT扩展。 安装 pip install extruct 用法 多合一提取 最简单的示例使用extruct是使用一些HTML字符串和可选的基本URL调用extruct.extract(htmlstring, base_url=base_url) 。 让我们在使用所有受支持语法(RDFa和ogp )的网页上进行尝试。 首先使用python-requests提取HTML,然后将响应主体extruct : >>> import extruct >>> import requests >>> import pprint >>> from w3lib.html import get_base_url >>> >>> pp = pp


网友评论