et-operator:用于 AI 和大数据弹性训练的 Kubernetes Operator

时间:2024-06-18 19:05:01
【文件属性】:

文件名称:et-operator:用于 AI 和大数据弹性训练的 Kubernetes Operator

文件大小:535KB

文件格式:ZIP

更新时间:2024-06-18 19:05:01

Go

弹性训练算子 概述 一些像这样的分布式深度学习训练框架支持弹性训练,它可以在不中断训练过程的情况下,在运行时动态地增加和减少训练工作的数量。 Et-operator 提供了一套 Kubernetes Custom Resource Definition,可以方便地在 kubernetes 中运行 horovod 或 AIACC 弹性训练。 提交训练作业后,您可以在训练期间按需扩展和扩展工人,这可以使您的训练作业更具弹性和效率。 设计 et-operator使用 3 个新的 CRD, TrainingJob , ScaleIn和ScaleOut 。 培训工作 用户提交TrainingJob CR 以指定训练作业详细信息,例如启动器和工作人员的图像、入口点命令、工作人员的副本。 et-operator将收到创建事件,然后创建TrainingJob的子资源(如 pods、configmap、s


【文件预览】:
et-operator-main
----api()
--------v1alpha1()
----.gitignore(357B)
----go.mod(2KB)
----Dockerfile(781B)
----Makefile(3KB)
----pkg()
--------util()
--------controllers()
----go.sum(73KB)
----examples()
--------scale_out.yaml(191B)
--------training_job.yaml(1KB)
--------scale_in_count.yaml(167B)
--------scale_in_pod.yaml(200B)
----main.go(3KB)
----README.md(7KB)
----config()
--------manager()
--------prometheus()
--------webhook()
--------deploy.yaml(684KB)
--------certmanager()
--------default()
--------rbac()
--------crd()
----hack()
--------crd_gen()
--------update-codegen.sh(2KB)
--------tools.go(701B)
--------boilerplate.go.txt(530B)
--------verify-codegen.sh(1KB)
----docs()
--------images()
----PROJECT(253B)

网友评论