LVS集群

一、集群和分布式

系统性能扩展方式：

Scale UP：垂直扩展，向上扩展,增强，性能更强的计算机运行同样的服务
Scale Out：水平扩展，向外扩展,增加设备，并行地运行多个服务调度分配问题，Cluster

垂直扩展不再提及：

随着计算机性能的增长，其价格会成倍增长

1.1 集群 Cluster

Cluster：集群,为解决某个特定问题将多台计算机组合起来形成的单个系统

Cluster分为三种类型：

LB： Load Balancing，负载均衡，多个主机组成，每个主机只承担一部分访问请求
HA： High Availiablity，高可用，避免 SPOF（single Point Of failure）
HPC： High-performance computing，高性能

1.2 分布式系统

分布式存储：Ceph，GlusterFS，FastDFS，MogileFS

分布式计算：hadoop，Spark

分布式常见应用

分布式应用-服务按照功能拆分，使用微服务（单一应用程序划分成一组小的服务，服务之间互相协调、互相配合，为用户提供最终价值服务）
分布式静态资源--静态资源放在不同的存储集群上
分布式数据和存储--使用key-value缓存系统
分布式计算--对特殊业务使用分布式计算，比如Hadoop集群

1.3 集群和分布式

集群：同一个业务系统，部署在多台服务器上。集群中，每一台服务器实现的功能没有差别，数据和代码都是一样的。

分布式：一个业务被拆成多个子业务，或者本身就是不同的业务，部署在多台服务器上。分布式中，每一台服务器实现的功能是有差别的，数据和代码也是不一样的，分布式每台服务器功能加起来，才是完整的业务。

分布式是以缩短单个任务的执行时间来提升效率的，而集群则是通过提高单位时间内执行的任务数来提升效率。

对于大型网站，访问用户很多，实现一个群集，在前面部署一个负载均衡服务器，后面几台服务器完成
同一业务。如果有用户进行相应业务访问时，负载均衡器根据后端哪台服务器的负载情况，决定由给哪
一台去完成响应，并且一台服务器垮了，其它的服务器可以顶上来。分布式的每一个节点，都完成不同
的业务，如果一个节点垮了，那这个业务可能就会失败

1.4 集群设计原则

可扩展性—集群的横向扩展能力

可用性—无故障时间 (SLA service level agreement)

性能—访问响应时间

容量—单位时间内的最大并发吞吐量(C10K 并发问题)

1.5 集群设计实现

1.5.1 基础设施层面

提升硬件资源性能—从入口防火墙到后端 web server 均使用更高性能的硬件资源
多域名—DNS 轮询A记录解析
多入口—将A记录解析到多个公网IP入口
多机房—同城+异地容灾
CDN(Content Delivery Network)—基于GSLB(Global Server Load Balance)实现全局负载均衡，如：DNS

1.5.2 业务层面

分层：安全层、负载层、静态层、动态层、(缓存层、存储层)持久化与非持久化
分割：基于功能分割大业务为小服务
分布式：对于特殊场景的业务，使用分布式计算

1.6. LB Cluster 负载均衡集群

1.6.1.按实现方式划分

硬件

F5 Big-IP（F5服务器负载均衡模块）

Citrix Netscaler

A10 A10
软件

lvs：Linux Virtual Server，阿里四层 SLB (Server Load Balance)使用

nginx：支持七层调度，阿里七层SLB使用 Tengine

haproxy：支持七层调度

ats：Apache Traffic Server，yahoo捐助给apache

perlbal：Perl 编写

pound

1.6.2 基于工作的协议层次划分

传输层（通用）：DNAT 和 DPORT

LVS：

nginx：stream

haproxy：mode tcp

应用层（专用）：针对特定协议，常称为 proxy server

http：nginx, httpd, haproxy(mode http), ...

fastcgi：nginx, httpd, ...

mysql：mysql-proxy, mycat...

1.6.3 负载均衡的会话保持

session sticky：同一用户调度固定服务器

Source IP：LVS sh算法（对某一特定服务而言）

session replication：每台服务器拥有全部session（复制）

session multicast cluster

session server：专门的session服务器（server）

Memcached，Redis

1.7 HA 高可用集群实现

keepalived：vrrp协议

Ais：应用接口规范

heartbeat

cman+rgmanager(RHCS)

coresync_pacemaker

二、Linux Virtual Server

2.1 LVS介绍

LVS：Linux Virtual Server，负载调度器，内核集成，章文嵩（花名正明）, 阿里的四层SLB(Server Load Balance)是基于LVS+keepalived实现

2.2 LVS工作原理

VS根据请求报文的目标IP和目标协议及端口将其调度转发至某RS，根据调度算法来挑选RS。LVS是内核级功能，工作在INPUT链的位置，将发往INPUT的流量进行“处理”

grep -i -C 10 ipvs /boot/config-3.10.0-693.el7.x86_64

2.3.LVS集群类型中的术语

VS：Virtual Server，Director Server(DS), Dispatcher(调度器)，Load Balancer（lvs服务器）（代理服务器）
RS：Real Server(lvs), upstream server(nginx), backend server(haproxy)（真实服务器）
CIP：Client IP（客户机IP）
VIP：Virtual serve IP VS外网的IP （代理服务器的外网IP）
DIP：Director IP VS内网的IP （代理服务器的内网IP）
RIP：Real server IP （真实服务器的IP）

访问流程：CIP <--> VIP == DIP <--> RIP

三、LVS工作模式和相关命令

3.1 LVS集群的工作模式

lvs-nat：修改请求报文的目标IP,多目标IP的DNAT
lvs-dr：操纵封装新的MAC地址（直接路由）
lvs-tun：隧道模式

3.1.1 LVS的NAT模式

1 当客户端发起请求报文是
源ip:客户端的ip地址(cip)
目的地址:vip(代理服务器的外网地址)

2.当数据包到达我们的代理服务器源ip不变，需要修改目的ip及端口号
源ip:客户端的ip地址(cip)
目的地址:rip (后端真实服务器ip)

3.真实服务器收到报文后构建响应报文
源ip:改成真实服务器自己的ip(vip 是内网地址)
目的地址:cip 外网客户端地址

4.再发给代理服务器，代理服务会修改源ip 将内网地址改成外网地址
源ip:代理服务器的外网ip (vip)
目的地址:cip(外网客户端的地址)

Ivs-nat:本质是多目标IP的DNAT，通过将请求报文中的目标地址和目标端口修改为某处的RS的RIP和PORT实现转发

(1)RIP(真实服务器)和DIP(代理服务器的内网地址)应在同一个IP网络，且应使用私网地址;RS的网关要指向DIP

(2)请求报文和响应报文都必须经由lvs服务器转发，Ivs服务器易于成为系统瓶颈

(3)支持端口映射，可修改请求报文的目标PORT

(4)VS必须是Linux系统，RS可以是任意OS系统

3.1.2 IP隧道

RIP和DIP可以不处于同一物理网络中，RS的网关一般不能指向DIP,且RIP可以和公网通信。也就是

说集群节点可以跨互联网实现。DIP, VIP, RIP可以是公网地址。
RealServer的通道接口上需要配置VIP地址，以便接收DIP转发过来的数据包，以及作为响应的

报文源IP。
DIP转发给RealServer时需要借助隧道，隧道外层的IP头部的源IP是DIP，目标IP是RIP，而

RealServer响应给客户端的IP头部是根据隧道内层的IP头分析得到的，源IP是VIP，目标IP是CIP
请求报文要经由Director，但响应不经由Director,响应由RealServer自己完成
不支持端口映射
RS的OS须支持隧道功能

LVS工作模式总结和比较

	NAT	TUN	DR
优点	端口转换	WAN	性能最好
缺点	性能瓶颈	服务器支持隧道模式	不支持跨网段
真实服务器要求	any	Tunneling	Non-arp device
支持网络	private（私网）	LAN/WAN（私网/公网）	LAN（私网
真实服务器数量	low (10~20)	High (100)	High (100)
真实服务器网关	lvs内网地址	Own router（网工定义）	Own router（网工定义）

3.2 LVS 调试算法

ipvs scheduler：根据其调度时是否考虑各RS当前的负载状态

分为两种：静态方法和动态方法

仅根据算法本身进行调度

静态：

1、RR：roundrobin，轮询,较常用

2、WRR：Weighted RR，加权轮询,较常用

3、SH：Source Hashing，实现session sticky，源IP地址hash；将来自于同一个IP地址的请求始终发往第一次挑中的RS，从而实现会话绑定

4、DH：Destination Hashing；目标地址哈希，第一次轮询调度至RS，后续将发往同一个目标地址的请求始终转发至第一次挑中的RS，典型使用场景是正向代理缓存场景中的负载均衡,如: Web缓存

动态：

主要根据每RS当前的负载状态及调度算法进行调度Overhead=value 较小的RS将被调度

1、LC：least connections 适用于长连接应用

Overhead=activeconns*256+inactiveconns

2、WLC：Weighted LC，默认调度方法,较常用

Overhead=(activeconns*256+inactiveconns)/weight

3、SED：Shortest Expection Delay，初始连接高权重优先,只检查活动连接,而不考虑非活动连接

Overhead=(activeconns+1)*256/weight

4、NQ：Never Queue，第一轮均匀分配，后续SED

5、LBLC：Locality-Based LC，动态的DH算法，使用场景：根据负载状态实现正向代理,实现Web Cache等

6、LBLCR：LBLC with Replication，带复制功能的LBLC，解决LBLC负载不均衡问题，从负载重的复制到负载轻的RS,,实现Web Cache等