Linux 云计算集群架构师(第2阶段)->第二章 Rsync+sersync 实现数据实时同步

时间:2022-12-02 19:56:55

第二章 Rsync+sersync 实现数据实时同步

(上课时间:2021-07-29,笔记整理时间2021-08-1)

本节所讲内容:

2.1 RSYNC 概述

2.2 Rsync 服务安装

2.3 Rsync+sersync 实现数据实时同步

实战:使用 ssh 进行 rsync 数据备份

实战:使用 rsync 服务方式进行数据备份

实战:数据实时同步

2.1 RSYNC 概述

Linux 云计算集群架构师(第2阶段)->第二章 Rsync+sersync 实现数据实时同步

Rsync 是 Linux 系统下的数据镜像备份工具,使用快速增量备份工具 Remote Sync 可以远程同 步,可以在不同主机之间进行同步,可实现全量备份与增量备份,保持链接和权限,传输前执行压缩,因此非常适合用于架构集中式备份或异地备份等应用。 官方网站:https://rsync.samba.org/

2.1.1 RSYNC 数据备份

与 SCP 的比较:scp 无法备份大量数据,类似 Windows 的复制。

而 rsync 边复制,边统计,边比较。

2.1.2 Rysnc 特性和优点

1.可以镜像保存整个目录树和文件系统。

2.可以很容易做到保持原来文件的属性、权限、时间、软硬链接等等。

3.无须特殊权限即可安装。

4.快速:第一次同步时 rsync 复制全部内容,但在下一次只传输修改过的文件。

5.压缩传输:rsync 在传输数据的过程中可以实行压缩及解压缩操作,因此可以使用更少的带宽。

6.安全性:可以使用 scp、ssh 等方式来传输文件,当然也可以通过直接的 socket 连接。选择性保持:符号连接,硬链接,文件属性,权限,时间等。

2.1.4 RSYNC 原理

1.运行模式和端口:

采用 C/S 模式(客户端/服务器模式)[ 实际上是一个点到点的传输,直接使用 rsync 命令即可完成 ]

rsync 监听的端口:873

2.四个名词的解释:

发起端:负责发起 rsync 同步操作的客户机叫做发起端,通知服务器我要备份你的数据。

备份源:负责响应来自客户机 rsync 同步操作的服务器叫做备份源,需要备份的服务器。

服务端:运行 rsyncd 服务,一般来说,需要备份的服务器。

客户端:存放备份数据。

3.数据同步方式:

推 push:一台主机负责把数据传送给其他主机,服务器开销很大,比较适合后端服务器少的情况。

拉 pull:所有主机定时去找一台主机拉数据,可能就会导致数据缓慢。

推:目的主机配置为 rsync 服务器,源主机周期性的使用 rsync 命令把要同步的目录推过去(需要备份的机器是客户端,存储备份的机器是服务端)。

拉:源主机配置为 rsync 服务器,目的主机周期性的使用 rsync 命令把要同步的目录拉过来(需要备份的机器是服务端,存储备份的机器是客户端)。

两种方案,rsync 都有对应的命令来实现。

rsync 命令示例说明 push 和 pull,如图 2-1 所示

Linux 云计算集群架构师(第2阶段)->第二章 Rsync+sersync 实现数据实时同步

图 2-1 push 和 pull 示意图

实战:使用 rsync 进行数据同步

rsync 命令的基本用法:

格式:rsync 【选项】 源文件 目标文件

常见的选项:

-a,--archive(存档) 归档模式,表示以递归的方式传输文件,并且保持文件属性,等同于加了参数-rlptgoD

-v:显示 rsync 过程中详细信息。

-r,–recursive 对子目录以递归模式处理

-l,--links 表示拷贝链接文件

-p , --perms 表示保持文件原有权限

-t , --times 表示保持文件原有时间

-g , --group 表示保持文件原有属用户组

-o , --owner 表示保持文件原有属主

-D , --devices 表示块设备文件信息

-z , --compress 表示压缩传输

-H 表示硬连接文件

-A 保留 ACL 属性信息

-P 显示传输进度

--delete 删除那些目标位置有而原始位置没有的文件

例: rsync --delete /原始位置(要同步的数据) 10.170.80.80:/目标位置

2.2 Rsync 服务安装

实验环境:

centos80(源主机 10.170.80.80)

centos81(目标主机 10.170.80.81)

需要关闭 selinux,否则即使创建/etc/rsyncd.conf 文件之后去启动服务也不会生效。

安装服务:

[root@centos80 ~]# yum -y install rsync
[root@centos80 ~]# systemctl start rsyncd
[root@centos80 ~]# netstat -antup | grep 873
tcp        0      0 0.0.0.0:873      0.0.0.0:*    LISTEN      1726/rsync   
tcp6       0      0 :::873           :::*         LISTEN      1726/rsync 

2.2.1 rsync 命令选项

-a:--archive archive mode 权限保存模式,相当于 -rlptgoD 参数,存档,递归,保持属性等。

-z:--compress 压缩模式,当资料在传送到目的端进行档案压缩。

-H:--hard-links 保留硬链接文件。

--version:输出 rsync 版本。

-v:--verbose 复杂的输出信息。

-u:--update 仅仅进行更新,也就是跳过已经存在的目标位置,并且文件时间要晚于要备份的文件,不覆盖新的文件。

--port=PORT:定义 rsyncd(daemon)要运行的 port(预设为 tcp 873)。

--delete:删除那些目标位置有的文件而备份源没有的文件。

--password-file=FILE :从 指定密码文件中获取密码。

--bwlimit=KBPS:限制 I/O 带宽。

--filter “-filename”:需要过滤的文件。

--exclude=filname:需要过滤的文件。

--progress:显示备份过程。

通常常用的选项 –avz

2.2.2 使用 rsync 备份数据保持原有文件权限

对 centos80 网站根目录的/var/www/html 目录备份到 centos81 的/web-back 。

服务器:centos80 10.170.80.80

客户端:centos81 10.170.80.81

1.建立测试用户(两台主机都需要操作):

[root@centos80 ~]# useradd rget && echo "123456" | passwd --stdin rget
更改用户 rget 的密码 。
passwd:所有的身份验证令牌已经成功更新。
[root@CentOS81 ~]# useradd rget && echo "123456" | passwd --stdin rget
更改用户 rget 的密码 。
passwd:所有的身份验证令牌已经成功更新。

2.对目录赋予 ACL 权限:

[root@centos80 ~]# mkdir -p /var/www/html
[root@centos80 ~]# setfacl -R -m user:rget:rwx /var/www/html/
[root@centos80 ~]# getfacl /var/www/html/
getfacl: Removing leading '/' from absolute path names
# file: var/www/html/
# owner: root
# group: root
user::rwx
user:rget:rwx
group::r-x
mask::rwx
other::r-x

3.创建测试数据:

[root@centos80 ~]# cp -r /boot/* /var/www/html/	
				 #复制/boot/目录下所有内容到 /var/www/html/目录下。

4.客户端上操作:

[root@centos81 ~]# mkdir /web-back					#创建存放数据目录
[root@centos81 ~]# chown rget:rget -R /web-back/	#修改目录属主、属组为 rget 用户
[root@centos80 ~]# rsync -avz /var/www/html/ rget@10.170.80.81:/web-back/
rget@10.170.80.81's password: #输入 rget 用户密码
sending incremental file list
./
……………
sent 121,269,244 bytes  received 6,033 bytes  8,363,812.21 bytes/sec
total size is 129,632,076  speedup is 1.07

2.2.3 使用非系统用户备份数据

实验开始之前首先客户端服务器端关闭防火墙 firewalld 否则实验失败:

[root@centos80 ~]# systemctl stop firewalld.service		#停止服务端防火墙
[root@centos81 ~]# systemctl stop firewalld.service		#停止客户端防火墙

使用非系统用户进入备份数据,依靠系统中的 rsync 配置文件/etc/rsyncd.conf 进行备份数据,并创建备份账户,最终把 rsync 以 deamon 方式运行。

1.rsyncd.conf 配置文件:

配置文件分为两部分:全局参数、模块参数。

全局参数:对 rsync 服务器生效,如果模块参数和全局参数冲突,冲突的地方模块参数最终生效。

模块参数:定义需要通过 rsync 输出的目录定义的参数。

(1)常见的全局参数:

port:指定后台程序使用的端口号,默认为 873。

uid:该选项指定当该模块传输文件时守护进程应该具有的 uid,配合 gid 选项使用可以确定哪些可以访问怎么样的文件权限,默认值是" nobody"。

gid:该选项指定当该模块传输文件时守护进程应该具有的 gid。默认值为" nobody"。

max connections:指定该模块的最大并发连接数量以保护服务器,超过限制的连接请求将被告知随后再试。默认值是 0,也就是没有限制。

lock file:指定支持 max connections 参数的锁文件,默认值是/var/run/rsyncd.lock。

motd file:" motd file"参数用来指定一个消息文件,当客户连接服务器时该文件的内容显示给客户,默认是没有 motd 文件的。

log file:" log file"指定 rsync 的日志文件,而不将日志发送给 syslog。

pid file:指定 rsync 的 pid 文件,通常指定为“/var/run/rsyncd.pid”,存放进程 ID 的文件位置。

hosts allow:单个 IP 地址或网络地址,允许访问的客户机地址。

(2)常见的模块参数:

主要是定义服务器哪个要被同步输出,其格式必须为“ [ 共享模块名 ]” 形式,这个名字就是在 rsync 客户端看到的名字,其实很像 samba 服务器提供的共享名。而服务器真正同步的数据是通过 path 来指定的。

Comment:给模块指定一个描述,该描述连同模块名在客户连接得到模块列表时显示给客户。默认没有描述定义。

path:指定该模块的供备份的目录树路径,该参数是必须指定的。

read only:是否为只读模式 true/false。true 无法上传写入。

exclude:用来指定多个由空格隔开的多个文件或目录(相对路径),将其添加到 exclude 列表中。这等同于在客户端命令中使用―exclude 或----filter 来指定某些文件或目录不下载或上传(既不可访问)

exclude from:指定一个包含 exclude 模式的定义的文件名,服务器从该文件中读取 exclude 列表定义,每个文件或目录需要占用一行

include:用来指定不排除符合要求的文件或目录。这等同于在客户端命令中使用--include 来指定模式,结合 include 和 exclude 可以定义复杂的 exclude/include 规则。

include from:指定一个包含 include 模式的定义的文件名,服务器从该文件中读取 include 列表定义。

auth users:该选项指定由空格或逗号分隔的用户名列表,只有这些用户才允许连接该模块。这里的用户和系统用户没有任何关系。如果" auth users"被设置,那么客户端发出对该模块的连接请求以后会被 rsync 请求 challenged 进行验证身份这里使用的 challenge/response 认证协议。用户的名和密码以明文方式存放在" secrets file"选项指定的文件中。默认情况下无需密码就可以连接模块(也就是匿名方式)。

secrets file:该选项指定一个包含定义用户名:密码对应的文件。只有在" auth users"被定义时,该文件才有作用。文件每行包含一个 username:passwd 对。一般来说密码最好不要超过 8 个字符。没有默认的 secures file 名,注意:该文件的权限一定要是 600,否则客户端将不能连接服务器。

hosts allow:指定哪些 IP 的客户允许连接该模块。定义可以是以下形式:

单个 IP 地址,例如:10.170.80.1,多个 IP 或网段需要用空格隔开。

整个网段,例如:10.170.80.0/24,也可以书写为10.170.80.0/255.255.255.0

“*”则表示所有,默认是允许所有主机连接。

hosts deny:指定不允许连接 rsync 服务器的机器,可以使用 hosts allow 的定义方式来进行定义。默认是没有 hosts deny 定义。

list:该选项设定当客户请求可以使用的模块列表时,该模块是否应该被列出。如果设置该选项为false,可以创建隐藏的模块。默认值是 true。

timeout:通过该选项可以覆盖客户指定的 IP 超时时间。通过该选项可以确保 rsync 服务器不会永远等待一个崩溃的客户端。超时单位为秒钟,0 表示没有超时定义,这也是默认值。对于匿名 rsync 服务器来说,一个理想的数字是 600。

使用 rsync 服务进行数据同步。

用配置文件定义目录输出。

服务器:centos80 10.170.80.80

客户端:centos81 10.170.80.81

创建rsync.conf配置文件

[root@centos80 ~]# vim /etc/rsync.conf			#文件不存在,需要手动创建。
#运行进程的身份
uid = root
#运行进程的组
gid = root 
#监听 IP
address = 10.170.80.80
#监听端口
port = 873
#允许同步客户端的 IP 地址,可以是网段,或者用*表示所有 10.170.80.0/24 或 10.170.80.0/255.255.255.0
hosts allow = 10.170.80.0/24
#是否囚牢,锁定家目录,rsync 被黑之后,***无法再 rsync运行的家目录之外创建文件,选项设置为 yes
use chroot = yes 
#最大连接数
max connections = 100 
#进程 PID,自动生成
pid file = /var/run/rsyncd.pid 
#指 max connectios 参数的锁文件
lock file = /var/run/rsync.lock 
#日志文件位置
log file = /var/log/rsyncd.log 
#客户端登陆之后弹出的消息,需要创建
motd file = /etc/rsyncd.motd
#共享模块名称
[wwwroot] 
#路径
path = /web-back/
#描述
comment = used for web-data root
#只读权限为假
read only = false 
#是否允许查看模块信息
list = yes 
#备份的用户,和系统用户无关
auth users = rsyncuser 
#存放用户的密码文件,格式是 用户名:密码
secrets file = /etc/rsync.passwd 

创建提示文件和用户密码。

[root@centos81 ~]# echo "Welcome to Backup Server80" > /etc/rsyncd.motd
				 #编辑欢迎信息文件
[root@CentOS81 ~]# vim /etc/rsync.passwd		#创建并编写密码文件
[root@CentOS81 ~]# cat /etc/rsync.passwd 
rsyncuser:rsync123								#格式为 用户名称:密码
[root@CentOS81 ~]# chmod 600 /etc/rsync.passwd 	#密码文件权限必须是 700 或者 600,否则的话身份验证会失效

重新启动服务

[root@CentOS81 ~]# systemctl restart rsyncd
[root@CentOS81 ~]# rsync --daemon --config=/etc/rsyncd.conf
				 #加载配置文件 rsyncd.conf 启动 rsync 服务
[root@CentOS81 ~]# netstat -anput | grep 873
tcp     0    0 0.0.0.0:873    0.0.0.0:*    LISTEN    8035/rsync          
tcp6    0    0 :::873         :::*         LISTEN    8035/rsync 

测试

[root@CentOS81 ~]# rsync -avz /var/www/html rsyncuser@10.170.80.81:/web-back/
rsyncuser@10.170.80.81's password: 	#输入密码 rsync123

密码处理

新建一个文件保存好密码,然后在 rsync 命令中使用--password-file 指定此文件即可

[root@centos80 ~]# vim /etc/rsync.passwd			#创建密码文件,其中中需要指定密码即可
[root@centos80 ~]# cat /etc/rsync.passwd 		
rsync123
[root@centos80 ~]# chmod 600 /etc/rsync.passwd 		#赋予密码文件 600 权限
[root@CentOS81 ~]# rsync -avz /var/www/html rsyncuser@10.170.80.80::wwwroot --password-file=/etc/rsync.passwd		#推 push
[root@CentOS81 ~]# rsync -azP rsyncuser@10.170.80.80::wwwroot ./yum --password-file=/etc/rsync.passwd				 #拉 pull

Linux 云计算集群架构师(第2阶段)->第二章 Rsync+sersync 实现数据实时同步

图 2-2 push 和 pull 示意图

2.2.4 脚本实现定时自动备份

[root@CentOS81 ~]# vim autobackup.sh		#编写脚本。
[root@CentOS81 ~]# cat autobackup.sh 
#!/bin/bash
rsync -avz /var/www/html rsyncuser@10.170.80.80::wwwroot --password-file=/etc/rsync.passwd
[root@CentOS81 ~]# chmod +x autobackup.sh 	#赋予脚本执行权限
[root@CentOS81 ~]# rm -rf /web-back/*
[root@CentOS81 ~]# sh autobackup.sh 		#测试执行脚本
Welcome to Backup Server

sending incremental file list

sent 901 bytes  received 21 bytes  1,844.00 bytes/sec
total size is 2,447,561  speedup is 2,654.62
[root@CentOS81 ~]# echo "01 3 * * * sh /root/autoback.sh &" >> /var/spool/cron/root
#定义计划任务实现定时备份,实时备份/同步 触发式同步

2.3 rsync+sersync 实现数据实时同步

一台装 sersync、一台装 rsync 服务

sersync 服务器(数据源,源机器):10.170.80.80

rsync 客户端(备份端,目标机器):10.170.80.81

rsync+inotify-tools 与 rsync+sersync 架构的区别?

rsync+inotify-tools

inotify 只能记录下被监听的目录发生了变化(增,删,改)并没有把具体是哪个文件或者哪个目录发生了变化记录下来。

rsync 在同步的时候,并不知道具体是哪个文件或目录发生了变化,每次都是对整个目录进行同步,当数据量很大时,整个目录同步非常耗时(rsync 要对整个目录遍历查找对比文件),因此效率很低。

rsync+sersync

sersync 可以记录被监听目录中发生变化的(增,删,改)具体某个文件或目录的名字。

rsync 在同步时,只同步发生变化的文件或目录(每次发生变化的数据相对整个同步目录数据来说很小,rsync 在遍历查找对比文件时,速度很快),因此效率很高。

同步过程和原理:

1.用户实时的往 sersync 服务器上写入更新文件数据。

2.此时需要在同步主服务器上配置 sersync 服务。

3.在另一台服务器开启 rsync 守护进程服务,以同步拉取来自 sersync 服务器上的数据。

4.在另一台服务器开启 rsync 守护进程服务,使 sersync push 文件过来。

通过 rsync 的守护进程服务后可以发现,实际上 sersync 就是监控本地的数据写入或更新事件,然后,在调用 rsync 客户端的命令,将写入或更新事件对应的文件通过 rsync 推送到目标服务器,如图 2-3 所示。

Linux 云计算集群架构师(第2阶段)->第二章 Rsync+sersync 实现数据实时同步

图 2-3 同步过程示意图

2.3.1 下载 sersync

1.在 google code 下载 sersync 的可执行文件版本,里面有配置文件与可执行文件 wget
https://sersync.googlecode.com/files/sersync2.5.4_64bit_binary_stable_final.tar.gz #有时下载失败,所有要本地留存一份

2.上传到服务器 /opt 目录下。

[root@centos80 ~]# cd /opt
[root@centos80 opt]# ls
rh  sersync2.5.4_64bit_binary_stable_final.tar.gz  sshbak
[root@centos80 opt]# tar xvf ./sersync2.5.4_64bit_binary_stable_final.tar.gz GNU-Linux-x86/		#解压
GNU-Linux-x86/sersync2
GNU-Linux-x86/confxml.xml
[root@centos80 opt]# ls
GNU-Linux-x86  rh  sersync2.5.4_64bit_binary_stable_final.tar.gz  sshbak
[root@centos80 opt]# mv GNU-Linux-x86/ sersync		#解压后的文件重命名为sersync

2.3.2 配置 sersync

[root@centos80 opt]# cd sersync/		#切换工作目录至 sersync 目录下
[root@centos80 sersync]# cp confxml.xml confxml.xml.bak		#备份配置文件,便于二次修改

1.更改优化 sersync 配置文件:

[root@centos80 sersync]# vim confxml.xml #修改配置文件中的 24--28 行,如下所示。
 23     <sersync>
 24         <localpath watch="/var/www/html">					#本地同步数据目录
 25             <remote ip="10.170.80.80" name="wwwroot"/>		# RSYNC服务端IP 模块名称
 26             <!--<remote ip="10.170.80.80" name="tongbu"/>-->
 27             <!--<remote ip="10.170.80.81" name="tongbu"/>-->
 28         </localpath>
 29         <rsync>
 30             <commonParams params="-artuz"/>
				 #修改 31--34 行,认证部分(rsync 密码认证)
 31             <auth start="true" users="sryncuser" passwordfile="/etc/rsync.passwd"/>	
 32             <userDefinedPort start="false" port="874"/><!-- port=874 -->
 33             <timeout start="false" time="100"/><!-- timeout=100 -->
 34             <ssh start="false"/>
 35         </rsync>

2.开启 sersync 守护进程同步数据。

[root@centos80 sersync]# /opt/sersync/sersync2 -d -r -o /opt/sersync/confxml.xml
[root@centos80 sersync]# /opt/sersync/sersync2 -d -r -o /opt/sersync/confxml.xml
set the system param		#设置系统参数
execute:echo 50000000 > /proc/sys/fs/inotify/max_user_watches	#修改内核监听数
execute:echo 327679 > /proc/sys/fs/inotify/max_queued_events	#修改内核队列数
parse the command param		#解析执行命令参数
option: -d 	run as a daemon	#以后台方式运行
option: -r 	rsync all the local files to the remote servers before the sersync work						 	#在sersync工作之前,将所有本地文件Rsync到远程服务器
option: -o 	config xml name:  /opt/sersync/confxml.xml		#配置xml文件路径
daemon thread num: 10		#守护线程数
parse xml config file		#解析XML配置文件
host ip : localhost	host port: 8008
daemon start,sersync run behind the console 
use rsync password-file :
user is	sryncuser			#同步用户名
passwordfile is 	/etc/rsync.passwd		#密码文件名路径
config xml parse success
please set /etc/rsyncd.conf max connections=0 Manually
sersync working thread 12  = 1(primary thread) + 1(fail retry thread) + 10(daemon sub threads) 
Max threads numbers is: 22 = 12(Thread pool nums) + 10(Sub threads)
please according your cpu ,use -n param to adjust the cpu rate
------------------------------------------
rsync the directory recursivly to the remote servers once
working please wait...
execute command: cd /var/www/html && rsync -artuz -R --delete ./ sryncuser@10.170.80.81::wwwroot --password-file=/etc/rsync.passwd >/dev/null 2>&1 			#执行的命令
run the sersync: 
watch path is: /var/www/html		#监听目录

Linux 云计算集群架构师(第2阶段)->第二章 Rsync+sersync 实现数据实时同步

图 2-4 开启 sersync 守护进程

在 10.170.80.80 /var/www/html/ 目录 增加、删除、或改目录文件。

看 10.170.80.81 /web-back 目录的变化

[root@CentOS81 ~]# watch ls -l
[root@centos80 html]# vim /etc/rc.d/rc.local 	 #编辑 rc.local 文件,在最后添加一行
[root@centos80 html]# cat /etc/rc.d/rc.local 	 #设置开机自动运行脚本
#!/bin/bash
touch /var/lock/subsys/local
/opt/sersync/sersync2 -d -r -o /opt/sersync/confxml.xml
[root@centos80 html]# chmod 755 /etc/rc.d/rc.local 		#添加执行权限

添加脚本监控 sersync 是否正常运行

[root@centos80 sersync]# vim /opt/check_sersync.sh		#编辑脚本,添加以下代码
[root@centos80 sersync]# cat /opt/check_sersync.sh 
#!/bin/sh
sersync="/opt/sersync/sersync2"
confxml="/opt/sersync/confxml.xml"
status=$(ps aux |grep 'sersync2'|grep -v 'grep'|wc -l)
if [ $status -eq 0 ];
then
$sersync -d -r -o $confxml &
else
exit 0;
fi
[root@centos80 sersync]# chmod +x /opt/check_sersync.sh

添加脚本执行权限,把这个脚本加到任务计划,定期执行检测

总结:

2.1 RSYNC 概述

2.2 Rsync 服务安装

2.3 Rsync+sersync 实现数据实时同步

实战:使用 ssh 进行 rsync 数据备份

实战:使用 rsync 服务方式进行数据备份

实战:数据实时同步。