DFT的matlab源代码-table_extractor:从HTML/XML文件中将表提取为json格式

时间:2024-06-14 21:17:06
【文件属性】:

文件名称:DFT的matlab源代码-table_extractor:从HTML/XML文件中将表提取为json格式

文件大小:905KB

文件格式:ZIP

更新时间:2024-06-14 21:17:06

系统开源

DFT的matlab源代码table_extractor 论文中使用的代码和数据,一种通过自动文献数据提取实现的沸石合成的机器学习方法 此存储库有两个主要组件: table_extractor代码 沸石合成数据 1.表提取代码 此代码从HTML / XML文件中将表提取为json格式。 这些HTML / XML文件需要由研究人员提供。 该代码是用Python3编写的。 要运行代码: 分叉此存储库 下载Olivetti组材料科学FastText词嵌入 在这里可用: 下载所有4个文件并将其放在tableextractor / bin文件夹中 安装所有依赖项json,pandas,spacy,bs4,gensim,numpy,unidecode,sklearn,scipy,traceback 将所有文件放在tableextractor / data中 使用Jupyter(表提取器教程)运行代码 该代码接收文件列表和相应的DOI,并返回从文件中提取的所有表的列表作为JSON对象。 当前,该代码支持ACS,APS,Elsevier,Wiley,Springer和RSC中的文件。 2.沸石合成数据


【文件预览】:
table_extractor-master
----zeolite_data()
--------ge_synthesis_data.xlsx(183KB)
--------ge_synthesis_data.csv(317KB)
--------readme.txt(225B)
----LICENSE(1KB)
----tableextractor()
--------Table Extractor Tutorial.ipynb(1KB)
--------table.py(2KB)
--------table_extractor.py(61KB)
--------data()
--------bin()
----README.md(3KB)
----.gitignore(1KB)

网友评论