文件名称:转换:用于对从DC提取的数据实施转换的Python代码
文件大小:158KB
文件格式:ZIP
更新时间:2024-03-03 20:14:48
Python
该存储库的目标是提供独立的代码,使任何人都可以执行端到端ETL,从DC开始到最终可以上传到BQ的.jsonl文件结束。 转换和合并代码还会生成有关数据问题的日志,然后可以将这些日志传送到DC。 转换流 带有注释的示例患者数据,解释数据的协调,记录和合并 原始案例文件: , , , 安装 克隆存储库并安装 git clone git@github.com:CancerDataAggregator/transform.git pip install -e . 要么 git clone https://github.com/CancerDataAggregator/transform.git pip install -e 从DC提取原始JSONL extract-*程序用于从DC提取数据。 例如, extract-gdc用于从GDC提取数据。 使用extract-gdc -h获取使用信
【文件预览】:
transform-main
----flow.puml(2KB)
----.gitattributes(93B)
----.github()
--------workflows()
----overallflow.png(104KB)
----cdatransform()
--------transform()
--------schema2transform.py(800B)
--------__init__.py(0B)
--------extract()
--------lib.py(312B)
--------version.py(26B)
----setup.py(1KB)
----README.md(4KB)
----docs()
--------pdc_example.yml(3KB)
----tests()
--------integration()
--------__init__.py(0B)
--------small()
--------steps()
--------test_validate.py(2KB)
----gdc-transform.yml(76B)
----.gitignore(100B)