背景概述
最近维护大数据的一些主机,大概有3k+的数目,有很大一部分是华为的服务器,大部分是12块数据盘,单盘做RAID0来存放数据,但是通常硬件是不可靠的,磁盘损坏是常态,
然而磁盘损坏进行定位更换后,需要重启服务器进入RAID配置界面进行磁盘的RAID操作,但是这样成本会很大,需要多方沟通确认。为了高效的完成此项工作,我们咨询了华为的工程师,他们原本说不支持在Linux系统内直接做RAID,对RAID的创建操作等,但是我们从官方查到了方法,再次咨询对方才给出支持,我xxxxx(省略一万字),话说华为工程师能不能专业一点,好吗?
官方方案
华为官方提供的文档:
扣卡的型号需要先了解好,之后让华为工程师来确认是否支持在线做RAID,一般情况下是支持的。
最佳实践:
- 此次扣卡型号为: 3108
- 查看所有的磁盘阵列信息
# storcli64 /c0 show all |more
---------------------------------------------------------------------------
EID:Slt DID State DG Size Intf Med SED PI SeSz Model Sp
---------------------------------------------------------------------------
0:0 1 Onln 0 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
0:1 13 Onln 0 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
0:2 2 Onln 1 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
0:3 14 Onln 2 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
0:4 7 Onln 3 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
0:5 8 Onln 4 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
0:6 6 Onln 5 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
0:7 19 Onln 6 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
0:8 3 Onln 7 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
0:9 21 UGood - 3.637 TB SATA HDD N N 512B HUS726040ALA610 D # 刚更换的磁盘 0:9 代表EID=Enclosure Device ID 和Slt槽位id 状态为UGood
0:10 5 Onln 8 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
0:11 10 Onln 9 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
0:12 4 Onln 10 3.637 TB SATA HDD N N 512B HGST HUS724040ALA640 U
- 首先查询是否有 preservedcache(上块坏盘残留的RAID信息),有则先清除,否则创建RAID不成功
# storcli64 /c0 show preservedcache Controller = 0 Status = Success Description = None ----------- VD State ----------- 8 Missing -----------
- 清理方法 /c0 代表 控制器id v8则上面的 vd 8
# storcli64 /c0/v8 delete preservedcache Controller = 0 Status = Success Description = Virtual Drive preserved Cache Data Cleared.
- 查询验证preservedcache是否已清除成功
[root@nma04-305-bigdata-032000055.ctc.local][~] # storcli64 /c0 show preservedcache Controller = 0 Status = Success Description = No Virtual Drive has Preserved Cache Data.
- 创建RAID: /c0 控制器id 0 r0 代表raid级别 drives代表磁盘槽位 wt write through
# storcli64 /c0 add vd r0 drives=0:9 wt
Controller = 0
Status = Success
Description = Add VD Succeeded
建议
换盘有风险,操作需谨慎,建议更换磁盘的时候最好此服务器上所有数据进行备份,数据无价,我想每个运维人都了解的。
如果有不清楚的地方,建议看官方文档或者找华为售后工程师咨询。