文件名称:StepPy:从结构化文档中快速提取数据的方法-开源
文件大小:38KB
文件格式:ZIP
更新时间:2024-07-18 12:41:41
开源软件
使用短语序列搜索技术从 HTML 和 XML 等结构化文档中快速提取数据。 通过搜索所需数据文本之前的一个或多个签名短语以及数据之后的终止短语来找到所需的数据。 不需要解析,这导致非常高速的数据提取。
【文件预览】:
EDGAR Report Data Extraction Example.py
Edgar Report.txt
HTML Finance Page Data Extraction Example.py
HTML Sample Page.html