文件名称:aws-analytical-dataset-generation:此存储库包含用于处理提取的UCFS数据的内容
文件大小:233KB
文件格式:ZIP
更新时间:2024-02-29 10:11:29
infrastructure aws terraform infrastructure-as-code govuk
AWS分析数据集生成 分析数据集生成(ADG)集群将指定HBase表中所有记录的最新版本转换为S3上存储的Parquet文件。 然后,它会生成Hive表,以为下游数据处理和分析任务提供对这些数据的便捷SQL访问。 总览 在定义的时间,CloudWatch事件将触发EMR Launcher Lambda函数 EMR Launcher从Config S3存储桶中读取EMR群集配置文件,然后调用EMR服务的RunJobFlow API,这将导致启动Analytical Dataset Generator ( ADG )EMR群集 ADG Cluster配置为Ingest HBase EMR群集的只读副本; 在集群上运行的PySpark步骤从Input S3存储桶读取HBase Storefile,并在Output S3存储桶中生成Parquet文件。 然后,PySpark步骤在这些S3对象上
【文件预览】:
aws-analytical-dataset-generation-master
----.githooks()
--------pre-commit(1KB)
----adg_completion_status_sns.tf(290B)
----.gitignore(242B)
----steps.tf(3KB)
----aviator.yml(664B)
----.snyk(333B)
----requirements.txt(133B)
----Makefile(1KB)
----emr_jobflow_role.tf(9KB)
----cluster_config.tf(6KB)
----published_bucket.tf(7KB)
----variables.tf(5KB)
----local.tf(6KB)
----acm.tf(856B)
----security_groups.tf(17KB)
----ebs.tf(4KB)
----get_lambda_release.sh(532B)
----emr-launcher.tf(6KB)
----terraform.tfvars.j2(31B)
----README.md(8KB)
----steps()
--------flush-pushgateway.sh(828B)
--------__init__.py(0B)
--------send_notification.py(1KB)
--------hive-setup.sh(501B)
--------generate_dataset_from_htme.py(22KB)
--------generate_analytical_dataset.py(14KB)
--------logger.py(818B)
----tests()
--------conftest.py(2KB)
--------__init__.py(0B)
--------test_message.json(2KB)
--------test_generate_dataset_from_htme.py(14KB)
--------test_send_notification.py(1013B)
--------test_generate_analytical_dataset.py(27KB)
----bootstrap_actions.tf(8KB)
----lambda_manage_mysql_user.tf(4KB)
----terraform.tf.j2(7KB)
----metrics_filters.tf(462B)
----ci()
--------resource_types.yml(467B)
--------meta.yml(17KB)
--------jobs()
--------groups.yml(3KB)
--------resources.yml(3KB)
----secrets.tf(580B)
----slack-alerts.tf(3KB)
----emr_service_role.tf(815B)
----metastore.tf(9KB)
----bootstrap_terraform.py(1KB)
----docs()
--------overview.png(123KB)
--------exporter.drawio(2KB)
--------metrics.MD(2KB)
--------exporter.png(30KB)
----bootstrap_actions()
--------metadata.sh(566B)
--------start_ssm.sh(269B)
--------cloudwatch.sh(5KB)
--------emr-setup.sh(4KB)
--------metrics-setup.sh(2KB)
--------logging.sh(690B)
--------metrics_config()
--------installer.sh(1KB)
----glue.tf(2KB)
----cluster_config()
--------instances.yaml.tpl(1KB)
--------configurations.yaml.tpl(7KB)
--------steps.yaml.tpl(2KB)
--------cluster.yaml.tpl(802B)