文件名称:hext:特定于域的语言,用于从HTML文档中提取结构化数据
文件大小:381KB
文件格式:ZIP
更新时间:2024-06-06 23:26:42
ruby python html php node
Hext-从HTML提取数据 Hext是一种特定于域的语言,用于从HTML文档中提取结构化数据。 有关,和实时演示,请参见 。 可以在上找到Hext网站的镜像。 Hext项目是根据Apache License v2.0的条款发布的。 例子 假设您要从网页中提取所有超链接。 超链接具有锚标记,名为href的属性和访问者可以单击的文本。 以下Hext代码段将为每个匹配的元素生成一个字典。 每个字典将包含键link和title ,这些键和link引用href属性和匹配的的文本内容。 # Extract links and their text 访问以了解有关Hext的更多信息。 有关使用libhext C ++库的示例,请查看/libhext/examples和。 通过Pip快速安装 您可以通过pip安装htmlext