ceph存储 Multipath实现LUN设备名称的持久化

时间:2021-04-08 12:44:33

实现设备名称的持久化有两种工具:Udev Multipath.  Udev的东西,昨天的实验已经做了说明。 今天主要讲用Multipath 来实现设备的持久化和多路径访问的问题。

  

一.补充知识

 

根据传输协议的不同的,网卡可分为三种,一是以太网卡,二是FC网卡,三是iSCSI网卡。

 

1)以太网卡:学名Ethernet Adapter,传输协议为IP协议,一般通过光纤线缆或双绞线与以太网交换机连接。接口类型分为光口和电口。光口一般都是通过光纤线缆来进行数据传输,接口模块一般为SFP(传输率2Gb/s)和GBIC(1Gb/s),对应的接口为SC、ST和LC。电口目前常用接口类型为RJ45,用来与双绞线连接,也有与同轴电缆连接的接口,不过现在已经用的比较少了。

2FC网卡:一般也叫光纤网卡,学名Fibre Channel HBA(Hose Bus Adapter: 主机总线适配器)。传输协议为光纤通道协议,一般通过光纤线缆与光纤通道交换机连接。接口类型分为光口和电口。光口一般都是通过光纤线缆来进行数据传输,接口模块一般为SFP(传输率2Gb/s)和GBIC(1Gb/s),对应的接口为SC和LC。电口的接口类型一般为DB9针或HSSDC。

“光纤网卡”一般是指FC HBA卡,插在服务器上,外接存储用的光纤交换机;而光口的以太网卡一般都叫做“光纤以太网卡”,也是插在服务器上,不过它外接的是带光口的以太网交换机。

 

3ISCSI网卡:Internet Small Computer System Interface, 学名ISCSI HBA,传输ISCSI协议,接口类型与以太网卡相同。 iSCSI(internet SCSI)是一套定义在TCP/IP网络上传输SCSI协议的命令。他将SCSI定义的发起方(initiator)和目标方(target)由原来的 SCSI总线连接扩展到internet上,打破了SCSI定义中的存储距离的限制。

 

 

FC SANIP SAN是目前两种流行的SAN存储方案:

(1) SAN设备在连入系统后,表示为一个或多个target ID,它的逻辑分配单元即为LUN-Logical Unit Number(逻辑单元号)。

(2)IP SAN也称之为ISCSI(internet Small Computer System Interface)。

 

ISCSI技术的核心是在TCP/IP网络上传输SCSI协议,是指用TCP/IP报文、和ISCSI报文封装SCSI报文,使得SCSI命令和数据可以在普通以太网络上进行传输

 

 了解上面的知识,现在来看一下Multipath Multipath除了上面提到的,实现LUN设备的持久化,它还有另一个功能,支持多路径轮询(提高 I/O负载能力)。 即可以通过多个网卡去访问Target 设备。 这样就提高了I/O的能力。 在生产环境中较多使用multipath实现LUN的持久化和多路径访问。

 

       注意,这里有个问题,当我们配置了多session访问存储的target后,那么每个网卡都会生成一个/dev/sd*的设备。 这个在昨天的实验里已经有说明。昨天说的lun设备随即映射到可用的/dev/sd* 设备上,在这里一个lun 映射还可以到多个/dev/sd* 设备的问题。所以对LUN 设备的持久化是非常重要的。

但是每个target ID 是唯一的,在多session访问的条件下,不管一个lun映射到几个设备, 在配置Multipath的时候,我用的是target ID。 这样就保证了target 的唯一性。

 

 

二.安装配置

 

2.1 安装Multipath

查看相关包:

[root@rac1 ~]# rpm -qa|grep device-mapper

device-mapper-multipath-0.4.7-30.el5

device-mapper-event-1.02.32-1.el5

device-mapper-1.02.32-1.el5

 

如果没有安装,从系统的安装文件里找到这集个包:

device-mapper-1.02.32-1.el5.i386.rpm

device-mapper-event-1.02.32-1.el5.i386.rpm

device-mapper-multipath-0.4.7-30.el5.i386.rpm

 

安装很简单:

Rpm –Uvh device-mapper-*.rpm

 

说明:

1device-mapper-multipath

提供multipathd和multipath等工具和multipath.conf等配置文件。这些工具通过device mapper的ioctr的接口创建和配置multipath设备(调用device-mapper的用户空间库。创建的多路径设备会在/dev/mapper中)

 

2device-mapper

device-mapper包括两大部分:内核部分和用户部分。

内核部分由device-mapper核心(multipath.ko)和一些target driver(dm-multipath.ko)构成。dm-mod.ko是实现multipath的基础,dm-multipath其实是dm的一个target驱动。核心完成设备的映射,而target根据映射关系和自身特点具体处理从mappered device 下来的i/o。同时,在核心部分,提供了一个接口,用户通过ioctr可和内核部分通信,以指导内核驱动的行为,比如如何创建mappered device,这些device的属性等。

 

用户空间部分包括device-mapper这个包。其中包括dmsetup工具和一些帮助创建和配置mappered device的库。这些库主要抽象,封装了与ioctr通信的接口,以便方便创建和配置mappered device。device-mapper-multipath的程序中就需要调用这些库。

 

 

2.2 配置ISCSIsession访问

 

1个iSCSI Initiator透过多个Session连入同1个iSCSI Target设备,以便利用多网卡或iSCSI HBA启用负载平衡与故障失效切换机制,也可称作Multiple Sessions per Initiator。

 

2.2.1 断开ISCSI登录状态

       [root@rac1 ~]# iscsiadm -m node -T iqn.2006-01.com.san -p 192.168.6.1 -u

Logging out of session [sid: 1, target: iqn.2006-01.com.san, portal: 192.168.6.1,3260]

Logout of [sid: 1, target: iqn.2006-01.com.san, portal: 192.168.6.1,3260]: successful

 

-u 表示logout,-l 表示login。 具体可以用man iscsiadm 查看。

 

 

2.2.2新建访问接口文件

 

[root@rac1 ~]# iscsiadm -m iface -I iface0 --op=new

New interface iface0 added

[root@rac1 ~]# iscsiadm -m iface -I iface1 --op=new

New interface iface1 added

 

接口文件保存在/var/lib/iscsi/ifaces目录中

 

[root@rac1 ifaces]# cd /var/lib/iscsi/ifaces/

[root@rac1 ifaces]# ls

iface0  iface1

[root@rac1 ifaces]# cat iface0

# BEGIN RECORD 2.0-871

iface.iscsi_ifacename = iface0

iface.transport_name = tcp

# END RECORD

[root@rac1 ifaces]# cat iface1

# BEGIN RECORD 2.0-871

iface.iscsi_ifacename = iface1

iface.transport_name = tcp

# END RECORD

[root@rac1 ifaces]#

 

2.2.3 配置iface

 

[root@rac1 ifaces]# iscsiadm -m iface -I iface0 --op=update -n iface.net_ifacename -v eth0

iface0 updated.

[root@rac1 ifaces]# iscsiadm -m iface -I iface1 --op=update -n iface.net_ifacename -v eth1

iface1 updated.

 

 

2.2.4 确认iface配置

 

[root@rac1 ifaces]# iscsiadm -m iface

default tcp,<empty>,<empty>,<empty>,<empty>

iser iser,<empty>,<empty>,<empty>,<empty>

iface1 tcp,<empty>,<empty>,eth1,<empty>

iface0 tcp,<empty>,<empty>,eth0,<empty>

 

 

2.2.5 搜索ISCSI Target

 

[root@rac1 ifaces]# iscsiadm -m discovery -t st -p 192.168.6.1  -I iface0 -I iface1

192.168.6.1:3260,1 iqn.2006-01.com.san

192.168.6.1:3260,1 iqn.2006-01.com.san

 

 

2.2.6 建立与Target的连接

[root@rac1 ifaces]# iscsiadm -m node -l

Logging in to [iface: iface1, target: iqn.2006-01.com.san, portal: 192.168.6.1,3260]

Logging in to [iface: iface0, target: iqn.2006-01.com.san, portal: 192.168.6.1,3260]

Login to [iface: iface1, target: iqn.2006-01.com.san, portal: 192.168.6.1,3260]: successful

Login to [iface: iface0, target: iqn.2006-01.com.san, portal: 192.168.6.1,3260]: successful

 

注意事项:

删除失效的iscsi 连接:如果因为错误配置等原因创建了iscsi 对应,系统不会自动删除,需手动删除。

 

如:

[root@rac3 mapper]# iscsiadm -m node

192.168.6.1:3260,1 iqn.2006-01.com.san

192.168.6.1:3260,1 iqn.2006-01.com.san

 

我们看到上面有二个iscsi对应,加入这个对应已经失效,系统不会自动删除。

 

删除命名:

iscsiadm -m node -o delete -T iqn.2006-01.com.san -p 192.168.6.1:3260

 

 

2.2.7 查看连接状态

 

[root@rac1 ifaces]# netstat -anp |grep 3260

tcp        0      0 192.168.6.5:63327      192.168.6.1:3260     ESTABLISHED 2370/iscsid        

tcp        0      0 192.168.6.6:32380      192.168.6.1:3260     ESTABLISHED 2370/iscsid        

 

 

 

2.3 multipath的默认配置

 

Multipath的配置文件是:/etc/multipath.conf。该文件中大部分配置是注释掉的,可以将他保存为备用,然后新建一个multipath.conf 文件,编辑新的配置文件。

 

[root@rac1 etc]# cp multipath.conf multipath.conf.back

 

 

2.3.1 黑名单过滤

multipath会把所有设备都加入到黑名单(devnode "*"),也就是禁止使用。所以,我们首先需要取消该设置,把配置文件修改为类似下面的内容:

 

devnode_blacklist {
        #devnode "*"
        devnode "hda"
        wwid 3600508e000000000dc7200032e08af0b
}

 

这里禁止使用hda,也就是光驱。另外,还使用wwid限制使用本地的sda设备。

 

可通过下面的命令获得wwid

[root@rac1 ~]# /sbin/scsi_id -g -u -s /block/sdf

14f504e46494c450034594d6462472d534745442d6a714841

 

这里有redhat的一个bug,具体参考:

scsi_id does not return WWID for /dev/sda with aacraid driver

https://bugzilla.redhat.com/show_bug.cgi?id=445696

 

 

这里要有一点要注意的,就是要获取某个设备的wwid时,必须先确保用fdisk –l等看到这个设备。 如果没有看到,是获取不到的。 这时候可以尝试把iscsi initiator 重启一下,网卡禁用启用,最后在与target 连接:iscsiadm -m node –l

 

当fdsk –l能看到设备了,我们可以正常获取设备的wwid了。

 

[root@rac1 ~]#  iscsiadm -m node -l

Logging in to [iface: iface1, target: iqn.2006-01.com.san, portal: 192.168.6.1,3260]

Logging in to [iface: iface0, target: iqn.2006-01.com.san, portal: 192.168.6.1,3260]

Login to [iface: iface1, target: iqn.2006-01.com.san, portal: 192.168.6.1,3260]: successful

Login to [iface: iface0, target: iqn.2006-01.com.san, portal: 192.168.6.1,3260]: successful

[root@rac1 ~]# fdisk –l

Disk /dev/sdf: 39.7 GB, 39795556352 bytes

64 heads, 32 sectors/track, 37952 cylinders

Units = cylinders of 2048 * 512 = 1048576 bytes

 

Disk /dev/sdf doesn't contain a valid partition table

 

Disk /dev/sdg: 39.7 GB, 39795556352 bytes

64 heads, 32 sectors/track, 37952 cylinders

Units = cylinders of 2048 * 512 = 1048576 bytes

 

[root@rac1 ~]# /sbin/scsi_id -g -u -s /block/sdf

14f504e46494c450034594d6462472d534745442d6a714841

[root@rac1 ~]# /sbin/scsi_id -g -u -s /block/sdg

14f504e46494c450034594d6462472d534745442d6a714841

 

 

关于:scsi_id

其包含在udev程序包中,可以在multipath.conf中配置该程序来获取scsi设备的序号。通过序号,便可以判断多个路径对应了同一设备。这个是多路径实现的关键。scsi_id是通过sg驱动,向设备发送EVPD page80或page83 的inquery命令来查询scsi设备的标识。但一些设备并不支持EVPD 的inquery命令,所以他们无法被用来生成multipath设备。但可以改写scsi_id,为不能提供scsi设备标识的设备虚拟一个标识符,并输出到标准输出。

 

multipath程序在创建multipath设备时,会调用scsi_id,从其标准输出中获得该设备的scsi id。在改写时,需要修改scsi_id程序的返回值为0。因为在multipath程序中,会检查该直来确定scsi id是否已经成功得到。

 

 

2.3.2 编辑默认规则

不同的device-mapper-multipath或操作系统发行版,其默认的规则都有点不同,以红旗 DC Server 5.0 SP2 for x86_64为例,其path_grouping_policy默认为failover,也就是主备的方式。HDS支持多路径负载均衡,EMC CX300等只支持Failover。默认允许friendly_name,否则使用设备的wwid作为持久化名称. 我们修改默认的规则:

 

defaults {
       udev_dir                /dev
       path_grouping_policy    multibus
       failback                immediate
       no_path_retry           fail
       user_friendly_name      yes
}

 

 

2.3.3 配置multipath.conf 文件

 

我们通过多session来访问target。 这样有2个设备/dev/sdf 和 /dev/sdg。 其实他们都对应一个target。 通过上面的查询知道,他们的wwid是一样的。 我们就用这个wwid,把他们配置到一起,当成一个设备。在该文件最后添加如下内容。

 

[root@rac1 ~]#cat /etc/multipath.conf|more

multipaths {

        multipath {

wwid    14f504e46494c450034594d6462472d534745442d6a714841

alias                   rac-share

          path_grouping_policy    multibus

          path_checker            readsector0

          path_selector           "round-robin 0"

          failback                manual

          rr_weight               priorities

          no_path_retry           5

                  }

         }

 

一个target 对应一个multipath. 如果有多个target 就写多个multipath 选项。

 

 

2.3.4 重启multipathd 服务,验证配置

 

[root@rac1 dev]# service multipathd restart

Device /dev/sda1 not found

Command failed

Stopping multipathd daemon: [  OK  ]

Starting multipathd daemon: [  OK  ]

 

 

进入/dev/mapper 目录进行验证:

root@rac3 mapper]# ls -lrt /dev/mapper/*

crw------- 1 root root  10, 62 Nov  1 05:51 /dev/mapper/control

brw-rw---- 1 root disk 253,  0 Nov  1 06:20 /dev/mapper/rac-share

 

 

multipath ll 命令查看到两条活跃路径,他们之间互为A/A 关系。断掉其中一根线路,那么系统自动切换到另外一条。

[root@rac3 mapper]# multipath -ll

rac-share (14f504e46494c450034594d6462472d534745442d6a714841) dm-0 OPNFILER,VIRTUAL-DISK

[size=37G][features=1 queue_if_no_path][hwhandler=0][rw]

/_ round-robin 0 [prio=2][active]

 /_ 2:0:0:0 sdf 8:80  [active][ready]

 /_ 3:0:0:0 sdg 8:96  [active][ready]

 

 

2.3.5 multipathd服务设置成开机自启动

[root@rac3 mapper]# chkconfig multipathd on

 

 

2.3.6 分区或者创建PV

看到了我们刚才配置的多路径的目录。 但是这里有一个问题。 因为这个是设备创建的,还不能挂载。我们需要对个这个设备进行分区或者创建为PV.

 

注意,用fdisk分区并保存后,必须刷新multipath的映射表,以便其创建分区对应的设备符.

 

(1)分区

 

[root@rac3 mapper]# fdisk /dev/mapper/rac-share

Device contains neither a valid DOS partition table, nor Sun, SGI or OSF disklabel

Building a new DOS disklabel. Changes will remain in memory only,

until you decide to write them. After that, of course, the previous

content won't be recoverable.

 

The number of cylinders for this disk is set to 4838.

There is nothing wrong with that, but this is larger than 1024,

and could in certain setups cause problems with:

1) software that runs at boot time (e.g., old versions of LILO)

2) booting and partitioning software from other OSs

   (e.g., DOS FDISK, OS/2 FDISK)

Warning: invalid flag 0x0000 of partition table 4 will be corrected by w(rite)

 

Command (m for help): n

Command action

   e   extended

   p   primary partition (1-4)

p

Partition number (1-4): 1

First cylinder (1-4838, default 1):

Using default value 1

Last cylinder or +size or +sizeM or +sizeK (1-4838, default 4838):

Using default value 4838

 

Command (m for help): w

The partition table has been altered!

 

Calling ioctl() to re-read partition table.

 

WARNING: Re-reading the partition table failed with error 22: Invalid argument.

The kernel still uses the old table.

The new table will be used at the next reboot.

Syncing disks.

 

[root@rac3 mapper]# multipath -F   --清除多路径设备缓存

[root@rac3 mapper]# multipath –v3  --重新加载

[root@rac3 mapper]# fdisk -l

……

Disk /dev/sdf: 39.7 GB, 39795556352 bytes

255 heads, 63 sectors/track, 4838 cylinders

Units = cylinders of 16065 * 512 = 8225280 bytes

 

   Device Boot      Start         End      Blocks   Id  System

/dev/sdf1               1        4838    38861203+  83  Linux

 

Disk /dev/sdg: 39.7 GB, 39795556352 bytes

255 heads, 63 sectors/track, 4838 cylinders

Units = cylinders of 16065 * 512 = 8225280 bytes

 

   Device Boot      Start         End      Blocks   Id  System

/dev/sdg1               1        4838    38861203+  83  Linux

 

Disk /dev/dm-0: 39.7 GB, 39795556352 bytes

255 heads, 63 sectors/track, 4838 cylinders

Units = cylinders of 16065 * 512 = 8225280 bytes

 

     Device Boot      Start         End      Blocks   Id  System

/dev/dm-0p1               1        4838    38861203+  83  Linux

 

分区之后使用fdisk –l 命令查看磁盘会看到磁盘下面已经有分区的信息了。 这时磁盘就可以mount挂载及使用了。

 

 

2创建PV

 

要配置LVM,可以按以下步骤进行:

1.   创建和初始化物理卷(Physical Volume),通过pvcreate建立pv,即pv阶段;

2.   添加物理卷到卷组(Volume Group),使用vgcreate加入多个pv成为vg,即vg阶段;

3.  在卷组上创建逻辑卷(logical volume),使用lvcreate划分vg,成为一个或多个lv,即lv阶段;

 

常用命令:

# pvcreate /dev/md0      #创建PV

# pvscan

# vgcreate LVM1 /dev/md0  #创建VG

# vgdisplay  LVM1  

# lvcreate -L 1.5TB -n data1 LVM1     #创建LV

# lvcreate -L 325GB -n data2 LVM1   #创建LV

# lvscan                   #查看LV信息

# pvscan                  #再次查看PV信息

# vgdisplay LVM1       #再次查看VG信息

 

 

挂载命令:

#mount /dev/LVM1/data1 /data1

#mount /dev/LVM1/data2 /data2

 

设置开机自动挂载:

编辑/etc/fstab

/dev/LVM1/data1         /data1                  ext3    defaults        2 2

/dev/LVM1/data2         /data2                  ext3    defaults        2 2

 

 

示例:

 

[root@rac3 mapper]# pvcreate /dev/mapper/rac-share

  Physical volume "/dev/mapper/rac-share" successfully created

[root@rac3 mapper]# vgcreate vg0 /dev/mapper/rac-share

  Volume group "vg0" successfully created

[root@rac3 mapper]# lvcreate -L 10M -n lv1 vg0

  Rounding up size to full physical extent 12.00 MB

  Logical volume "lv1" created

[root@rac3 mapper]# lvdisplay

  --- Logical volume ---

  LV Name                /dev/vg0/lv1

  VG Name                vg0

  LV UUID                XkbDyS-btpZ-fIFA-MvBH-d4kl-hibU-RhuKu1

  LV Write Access        read/write

  LV Status              available

  # open                 0

  LV Size                12.00 MB

  Current LE             3

  Segments               1

  Allocation             inherit

  Read ahead sectors     auto

  - currently set to     256

  Block device           253:1

[root@rac3 mapper]# mkfs.ext3 /dev/mapper/vg0-lv1   -- 格式化

mke2fs 1.39 (29-May-2006)

Filesystem label=

OS type: Linux

Block size=1024 (log=0)

Fragment size=1024 (log=0)

3072 inodes, 12288 blocks

614 blocks (5.00%) reserved for the super user

First data block=1

Maximum filesystem blocks=12582912

2 block groups

8192 blocks per group, 8192 fragments per group

1536 inodes per group

Superblock backups stored on blocks:

        8193

 

Writing inode tables: done                           

Creating journal (1024 blocks): done

Writing superblocks and filesystem accounting information: done

 

This filesystem will be automatically checked every 28 mounts or

180 days, whichever comes first.  Use tune2fs -c or -i to override.

 

 

注意:

有部分multipath版本存在与lvm兼容的问题。当使用device-mapper设备创建lvm完成,重启后,虽然lvm仍存在,但/dev/mapper下的设备丢失。可以参考:

https://bugs.launchpad.net/ubuntu/+source/multipath-tools/+bug/230006

 

解决方法:

/etc/lvm/lvm.conf文件中加入:

types=["device-mapper", 1]