hextractor:工作台模块,用于数据的后续提取

时间:2024-05-21 04:09:30
【文件属性】:

文件名称:hextractor:工作台模块,用于数据的后续提取

文件大小:442KB

文件格式:ZIP

更新时间:2024-05-21 04:09:30

HTML

用于工作台的AutoScrape提取器 该模块提供了一个基于Web的用户界面,用于构建以从源HTML文档中提取结构化数据。 它可以在两种模式下运行: 作为独立的静态HTML脚本(只需在浏览器中打开) 作为工作台模块 通过“导入模块...”选项将此模块添加到工作台。 粘贴此GitHub存储库的URL。 何时使用提取 十六进制提取最适合从高度重复HTML块中提取数据。 如果代码中没有很多标识符(例如CSS类或ID),则可以成功。 当HTML页面上的某些数据似乎是由程序(通过模板)生成的时,那么Hext就是一个很好的用例。 另一方面,在HTML不规则或手工制作的情况下,Hext提取是不合适的。 建造 该模块的前端组件使用webpack。 要构建用于开发的模块,请运行: npm run build 这将把静态HTML文件构建到dist/index.html 。 要为生产/工作台构建,请


【文件预览】:
hextractor-master
----.gitignore(1KB)
----package.json(1KB)
----package-lock.json(171KB)
----src()
--------html()
--------js()
--------css()
----hextractor.py(3KB)
----webpack.config.js(869B)
----.nvmrc(9B)
----hextractor.html(267KB)
----LICENSE(34KB)
----.gitmodules(111B)
----README.md(6KB)
----hextractor.json(705B)
----hext-emscripten.js(131KB)
----hext-emscripten.wasm(720KB)

网友评论