文件名称:drill-html-tools:Apache Drill UDF用于检索和使用HTML文本
文件大小:38KB
文件格式:ZIP
更新时间:2024-05-18 04:01:35
dom jsoup web-scraping html-parsing css-selectors
rill-html-tools Apache Drill UDF用于检索和使用HTML文本 基于库。 注意:这绝对是一个在制品。 UDFs soup_read_html(url-string, timeout-ms) :此UDF要求网络可到达预期的URL目标。 给定一个URL和一个连接超时(以毫秒为单位),此UDF将获取内容。 较旧的Java安装可能没有可用的现代证书存储,这可能导致资源检索错误。 soup_html_to_plaintext(html-string) :给定一个HTML字符串,返回它的“文本”版本(即,没有标签,并且所有文本节点中的所有文本内容)。 soup_select_text(html-string, css-selector-string [, include-child-node-text-boolean]) :第一个参数是HTML文本。 第二个参数是
【文件预览】:
drill-html-tools-master
----pom.xml(2KB)
----target()
--------drill-html-tools-1.0-sources.jar(5KB)
--------drill-html-tools-1.0.jar(16KB)
----COPYRIGHTS(247B)
----LICENSE(10KB)
----.settings()
--------org.eclipse.m2e.core.prefs(86B)
--------org.eclipse.jdt.apt.core.prefs(67B)
--------org.eclipse.jdt.core.prefs(343B)
----src()
--------main()
----.project(545B)
----.classpath(2KB)
----.gitignore(96B)
----Makefile(335B)
----README.md(16KB)
----.vscode()
--------settings.json(66B)