文件名称:amazon-eks-machine-learning-with-terraform-and-kubeflow:在Amazon EKS上使用Kubeflow进行分布式TensorFlow培训
文件大小:73KB
文件格式:ZIP
更新时间:2024-05-27 07:12:22
JupyterNotebook
在Amazon EKS上使用Kubeflow进行分布式TensorFlow培训 先决条件 从AWS Marketplace订阅经 。 以便您可以至少启动4个EKS优化的,启用GPU的实例。 创建并添加此IAM角色。 我们需要一个安装了和的构建环境。 使用包含步骤4中创建的角色的,从 (Ubuntu) 。必须在此构建环境实例上执行下面“逐步”部分所述的所有步骤。 一步步 尽管此处描述的所有概念都很笼统,但我们将通过专注于针对TensorPack Mask / Faster-RCNN模型的分布式TensorFlow训练来使这些概念具体化。 步骤的概要如下: 创建启用GPU的Amazon EKS集群 为Amazon EFS或Amazon FSx文件系统创建永久卷和永久卷声明 暂存COCO 2017数据以在Amazon EFS或FSx文件系统上进行培训 使用Helm图表来管理EKS集群中
【文件预览】:
amazon-eks-machine-learning-with-terraform-and-kubeflow-master
----container()
--------Dockerfile(714B)
--------build_tools()
----eks-cluster()
--------fsx-sc.yaml(103B)
--------prepare-data.sh(485B)
--------aws-auth-cm.yaml(438B)
--------pvc-kubeflow-efs-gp-bursting.yaml(201B)
--------stage-data.yaml(1KB)
--------attach-pvc.yaml(509B)
--------update-kubeconfig.sh(167B)
--------pvc-kubeflow-fsx.yaml(219B)
--------replicate-data.yaml(1KB)
--------install-kubectl-linux.sh(448B)
--------prepare-s3-bucket.sh(1KB)
--------apply-aws-auth-cm.sh(47B)
--------apply-nvidia-plugin.sh(219B)
--------tiller-rbac-config.yaml(349B)
--------terraform()
--------set-cluster.sh(75B)
--------pv-kubeflow-fsx.yaml(449B)
--------pv-kubeflow-efs-gp-bursting.yaml(391B)
----container-optimized-viz()
--------notebooks()
--------Dockerfile(1KB)
--------build_tools()
----run.sh(1KB)
----container-viz()
--------notebooks()
--------Dockerfile(1KB)
--------build_tools()
----LICENSE(10KB)
----README.md(16KB)
----container-optimized()
--------Dockerfile(1KB)
--------build_tools()
----tensorpack.sh(2KB)
----charts()
--------maskrcnn-optimized()
--------maskrcnn()
--------mpijob()