文章目录
-
- GPFS简介
-
- 核心特性
- 存储环境介绍
- 存储软件版本
- 客户端存储RoCE
- GPFS 管理(GUI)
-
- 1. 创建 CSI 用户
- 2. 检查GUI与k8s通信
- 文件系统配置
-
- 1. 开启配额
- 2. 启用filesetdf文件系统
- 3. 验证文件系统配置
- 4. 启用自动inode扩展
- 存储集群配置
-
- 1. 启用对根文件集(root fileset)配额
- 2. ignoreReplicationForQuota参数
- 3. ignoreReplicationOnStatfs参数
- 4. ignoreReplicaSpaceOnStat参数
- 部署 GPFS CSI-Operator
-
- 1. YAML下载
- 2. 创建csi-operator
- 3. 创建 CSI 用户秘钥
- 4. CSI 标签应用秘钥
- 5. 修改 CR
-
- 存储单集群
- 存储远程集群
- 存储节点名称获取
- 6. k8s 节点打标签
- 7. 创建 CSI cr 驱动
- 8. 检查 csiScaleOperator 状态
- 9. 检查 CSI Pod 状态
- 创建 Storage Class
-
- 1. 不同存储类的区别
- 2. 创建基于文件集的卷的存储类
-
- 独立文件集存储类
- 3. 申请 PVC
- 4. check pv & pvc
- 5. 修改PVC Inode
- 6. 测试验证
- GPFS存储性能测试
-
- 1. 编排测试Pod Manifest
- 2. 编写vdb压测脚本
- 3. 压测用例
- 4. 性能测试结果
-
- 报告总结
- 分布式训练
-
- 分布式训练中的数据访问优化
- 加速大模型训练的具体机制
- GPFS运维常用命令
-
-
- 参考
-
GPFS简介
GPFS(General Parallel File System,通用并行文件系统)是由 IBM 开发的高性能分布式文件系统,最初设计于 1990 年代,用于满足高性能计算(HPC)环境对大规模数据存储和访问的需求。GPFS 现已广泛应用于企业级存储、云计算、大数据分析、人工智能和媒体处理等领域。它以其高性能、可扩展性和可靠性著称,能够支持从小型集群到超大规模系统的各种部署场景。
核心特性
- 并行数据访问:GPFS允许多个节点同时读写同一文件或文件的不同部分,利用分布式锁和字节范围锁(byte-range locking)实现高效的并发访问。这对于分布式训练中多个工作节点并行读取训练数据尤为重要。
- 高吞吐量和低延迟:GPFS通过将数据分布在多个存储节点上,并支持高带宽网络(如InfiniBand),提供极高的I/O吞吐量和低延迟,满足大模型训练对大规模数据集的快速访问需求。
- 分布式元数据管理:与传统的集中式元数据服务器不同,GPFS将元数据分布在多个节点上,避免单点瓶颈,特别适合处理包含数百万小文件的AI训练数据集。
- 可扩展性:GPFS支持动态扩展存储容量和计算节点,能够轻