AI智算-K8s如何利用GPFS分布式并行文件存储加速训练or推理

文章目录

- GPFS简介
- - 核心特性
  - 存储环境介绍
  - 存储软件版本
  - 客户端存储RoCE
- GPFS 管理（GUI）
- - 1. 创建 CSI 用户
  - 2. 检查GUI与k8s通信
- 文件系统配置
- - 1. 开启配额
  - 2. 启用filesetdf文件系统
  - 3. 验证文件系统配置
  - 4. 启用自动inode扩展
- 存储集群配置
- - 1. 启用对根文件集（root fileset）配额
  - 2. ignoreReplicationForQuota参数
  - 3. ignoreReplicationOnStatfs参数
  - 4. ignoreReplicaSpaceOnStat参数
- 部署 GPFS CSI-Operator
- - 1. YAML下载
  - 2. 创建csi-operator
  - 3. 创建 CSI 用户秘钥
  - 4. CSI 标签应用秘钥
  - 5. 修改 CR
  - - 存储单集群
    - 存储远程集群
    - 存储节点名称获取
  - 6. k8s 节点打标签
  - 7. 创建 CSI cr 驱动
  - 8. 检查 csiScaleOperator 状态
  - 9. 检查 CSI Pod 状态
- 创建 Storage Class
- - 1. 不同存储类的区别
  - 2. 创建基于文件集的卷的存储类
  - - 独立文件集存储类
  - 3. 申请 PVC
  - 4. check pv & pvc
  - 5. 修改PVC Inode
  - 6. 测试验证
- GPFS存储性能测试
- - 1. 编排测试Pod Manifest
  - 2. 编写vdb压测脚本
  - 3. 压测用例
  - 4. 性能测试结果
  - - 报告总结
- 分布式训练
- - 分布式训练中的数据访问优化
  - 加速大模型训练的具体机制
- GPFS运维常用命令
- - - 参考

GPFS简介

GPFS（General Parallel File System，通用并行文件系统）是由 IBM 开发的高性能分布式文件系统，最初设计于 1990 年代，用于满足高性能计算（HPC）环境对大规模数据存储和访问的需求。GPFS 现已广泛应用于企业级存储、云计算、大数据分析、人工智能和媒体处理等领域。它以其高性能、可扩展性和可靠性著称，能够支持从小型集群到超大规模系统的各种部署场景。

核心特性

并行数据访问：GPFS允许多个节点同时读写同一文件或文件的不同部分，利用分布式锁和字节范围锁（byte-range locking）实现高效的并发访问。这对于分布式训练中多个工作节点并行读取训练数据尤为重要。
高吞吐量和低延迟：GPFS通过将数据分布在多个存储节点上，并支持高带宽网络（如InfiniBand），提供极高的I/O吞吐量和低延迟，满足大模型训练对大规模数据集的快速访问需求。
分布式元数据管理：与传统的集中式元数据服务器不同，GPFS将元数据分布在多个节点上，避免单点瓶颈，特别适合处理包含数百万小文件的AI训练数据集。
可扩展性：GPFS支持动态扩展存储容量和计算节点，能够轻

秒客网

AI智算-K8s如何利用GPFS分布式并行文件存储加速训练or推理

文章目录

GPFS简介

核心特性

相关文章