文件名称:HealthcareLakeETL:在AWS Glue上使用PySpark将FHIR转换为OMOP
文件大小:1.2MB
文件格式:ZIP
更新时间:2024-05-09 14:44:42
spark fhir omop aws-glue etl-jobs
保健湖ETL 该存储库包含适用于我们的AWS Glue管道的Spark ETL作业。 由项目使用。 跳频→OMOP 我们正在将一个数据帧(FHIR)转换为与OMOP通用数据模型(CDM)相对应的几个数据帧。 确切的映射可以在找到。 一旦将患者级别的数据模型(FHIR)转换为人群级别的数据模型(OMOP CDM),我们就可以访问观察健康数据科学和信息学(OHDSI)资源,这些资源可以执行数据汇总和数据包以创建队列和各种人口级别的数据分析。 每个都有未解决的问题。 您的任务是弄清楚如何进行映射并为实验提交Jupyter Notebook。 最后,我们将笔记本实验结合到一个Python脚本中,并将其作为AWS Glue上的一项自动化作业运行。 测验 pytest 当地发展 这些说明用于脱机处理数据,而不是连接到AWS EMR。 建议您这样做,因为它涉及的设置较少。 要设置Jupyter
【文件预览】:
HealthcareLakeETL-main
----main.py(96B)
----data()
--------catalog.parquet(1.96MB)
----.github()
--------workflows()
----tests()
--------conftest.py(334B)
--------__init__.py(0B)
--------test_patient.py(3KB)
----mappings()
--------patient.py(231B)
--------__init__.py(33B)
----requirements.txt(611B)
----.gitignore(63B)
----README.md(2KB)
----notebooks()
--------DEVICE_EXPOSURE.ipynb(7KB)
--------LOCATION.ipynb(19KB)
--------Patient.ipynb(8KB)
--------Provider.ipynb(2KB)
--------VISIT_OCCURRENCE.ipynb(5KB)
--------PROCEDURE_OCCURRENCE.ipynb(5KB)
--------Observation.ipynb(5KB)
--------Measurement.ipynb(8KB)