AI智算-K8s如何利用GPFS分布式并行文件存储加速训练or推理

时间:2025-04-05 18:40:40

文章目录

    • GPFS简介
      • 核心特性
      • 存储环境介绍
      • 存储软件版本
      • 客户端存储RoCE
    • GPFS 管理(GUI)
      • 1. 创建 CSI 用户
      • 2. 检查GUI与k8s通信
    • 文件系统配置
      • 1. 开启配额
      • 2. 启用filesetdf文件系统
      • 3. 验证文件系统配置
      • 4. 启用自动inode扩展
    • 存储集群配置
      • 1. 启用对根文件集(root fileset)配额
      • 2. ignoreReplicationForQuota参数
      • 3. ignoreReplicationOnStatfs参数
      • 4. ignoreReplicaSpaceOnStat参数
    • 部署 GPFS CSI-Operator
      • 1. YAML下载
      • 2. 创建csi-operator
      • 3. 创建 CSI 用户秘钥
      • 4. CSI 标签应用秘钥
      • 5. 修改 CR
        • 存储单集群
        • 存储远程集群
        • 存储节点名称获取
      • 6. k8s 节点打标签
      • 7. 创建 CSI cr 驱动
      • 8. 检查 csiScaleOperator 状态
      • 9. 检查 CSI Pod 状态
    • 创建 Storage Class
      • 1. 不同存储类的区别
      • 2. 创建基于文件集的卷的存储类
        • 独立文件集存储类
      • 3. 申请 PVC
      • 4. check pv & pvc
      • 5. 修改PVC Inode
      • 6. 测试验证
    • GPFS存储性能测试
      • 1. 编排测试Pod Manifest
      • 2. 编写vdb压测脚本
      • 3. 压测用例
      • 4. 性能测试结果
        • 报告总结
    • 分布式训练
      • 分布式训练中的数据访问优化
      • 加速大模型训练的具体机制
    • GPFS运维常用命令
        • 参考

GPFS简介

GPFS(General Parallel File System,通用并行文件系统)是由 IBM 开发的高性能分布式文件系统,最初设计于 1990 年代,用于满足高性能计算(HPC)环境对大规模数据存储和访问的需求。GPFS 现已广泛应用于企业级存储、云计算、大数据分析、人工智能和媒体处理等领域。它以其高性能、可扩展性和可靠性著称,能够支持从小型集群到超大规模系统的各种部署场景。

核心特性

  • 并行数据访问:GPFS允许多个节点同时读写同一文件或文件的不同部分,利用分布式锁和字节范围锁(byte-range locking)实现高效的并发访问。这对于分布式训练中多个工作节点并行读取训练数据尤为重要。
  • 高吞吐量和低延迟:GPFS通过将数据分布在多个存储节点上,并支持高带宽网络(如InfiniBand),提供极高的I/O吞吐量和低延迟,满足大模型训练对大规模数据集的快速访问需求。
  • 分布式元数据管理:与传统的集中式元数据服务器不同,GPFS将元数据分布在多个节点上,避免单点瓶颈,特别适合处理包含数百万小文件的AI训练数据集。
  • 可扩展性:GPFS支持动态扩展存储容量和计算节点,能够轻