文件名称:paperetl:医学和科学论文的ETL流程
文件大小:78KB
文件格式:ZIP
更新时间:2024-02-21 06:33:35
python parse etl medical scientific-papers
医学和科学论文的ETL流程 paperetl是用于处理医学和科学论文的ETL库。 它支持以下来源: PDF文章 paperetl支持以下数据库来存储文章: SQLite的 弹性搜索 JSON文件 YAML文件 安装 最简单的安装方法是通过pip和PyPI pip install paperetl 您也可以直接从GitHub安装paperetl。 建议使用Python虚拟环境。 pip install git+https://github.com/neuml/paperetl 支持Python 3.6+ 其他依赖 研究设计检测使用Scispacy,可以通过以下方式安装: pip install https://s3-us-west-2.amazonaws.com/ai2-s2-scispacy/releases/v0.2.5/en_core_sci_md-0.2.5.tar.gz PDF解析依赖于现有的GROBID实例来启动和运行。 假定它在ETL服务器上本地运行。 对于CORD-19数据集,这不是必需的。 码头工人 该存储库中提供了一个Dockerfile,其中包含用于安装
【文件预览】:
paperetl-master
----docker()
--------Dockerfile(2KB)
----.github()
--------workflows()
----src()
--------python()
----scripts()
--------getstudy.sh(249B)
--------getcord19.sh(440B)
----.pylintrc(430B)
----LICENSE(11KB)
----test()
--------python()
----setup.py(2KB)
----README.md(7KB)
----Makefile(811B)
----logo.png(27KB)
----.gitignore(62B)
----.coveragerc(141B)