haproxy负载均衡+配置文件详解

一、HAProxy简介
（1）HAProxy 是一款提供高可用性、负载均衡以及基于TCP（第四层）和HTTP（第七层）应用的代理软件，支持虚拟主机，它是免费、快速并且可靠的一种解决方案。 HAProxy特别适用于那些负载特大的web站点，这些站点通常又需要会话保持或七层处理。HAProxy运行在时下的硬件上，完全可以支持数以万计的并发连接。并且它的运行模式使得它可以很简单安全的整合进您当前的架构中，同时可以保护你的web服务器不被暴露到网络上。

（2）HAProxy 实现了一种事件驱动、单一进程模型，此模型支持非常大的并发连接数。多进程或多线程模型受内存限制、系统调度器限制以及无处不在的锁限制，很少能处理数千并发连接。事件驱动模型因为在有更好的资源和时间管理的用户端(User-Space) 实现所有这些任务，所以没有这些问题。此模型的弊端是，在多核系统上，这些程序通常扩展性较差。这就是为什么他们必须进行优化以使每个CPU时间片(Cycle)做更多的工作。

（3）HAProxy 支持连接拒绝 : 因为维护一个连接的打开的开销是很低的，有时我们很需要限制攻击蠕虫（attack bots），也就是说限制它们的连接打开从而限制它们的危害。这个已经为一个陷于小型DDoS攻击的网站开发了而且已经拯救

了很多站点，这个优点也是其它负载均衡器没有的。

（4）HAProxy 支持全透明代理（已具备硬件防火墙的典型特点）: 可以用客户端IP地址或者任何其他地址来连接后端服务器. 这个特性仅在Linux 2.4/2.6内核打了cttproxy补丁后才可以使用. 这个特性也使得为某特殊服务器处理部分流量同时又不修改服务器的地址成为可能。

性能

HAProxy借助于OS上几种常见的技术来实现性能的最大化。

1，单进程、事件驱动模型显著降低了上下文切换的开销及内存占用。

2，O(1)事件检查器(event checker)允许其在高并发连接中对任何连接的任何事件实现即时探测。

3，在任何可用的情况下，单缓冲(single buffering)机制能以不复制任何数据的方式完成读写操作，这会节约大量的CPU时钟周期及内存带宽；

4，借助于Linux 2.6 (>= 2.6.27.19)上的splice()系统调用，HAProxy可以实现零复制转发(Zero-copy forwarding)，在Linux 3.5及以上的OS中还可以实现零复制启动(zero-starting)；

5，内存分配器在固定大小的内存池中可实现即时内存分配，这能够显著减少创建一个会话的时长；

6，树型存储：侧重于使用作者多年前开发的弹性二叉树，实现了以O(log(N))的低开销来保持计时器命令、保持运行队列命令及管理轮询及最少连接队列；

7，优化的HTTP首部分析：优化的首部分析功能避免了在HTTP首部分析过程中重读任何内存区域；

8，精心地降低了昂贵的系统调用，大部分工作都在用户空间完成，如时间读取、缓冲聚合及文件描述符的启用和禁用等；

所有的这些细微之处的优化实现了在中等规模负载之上依然有着相当低的CPU负载，甚至于在非常高的负载场景中，5%的用户空间占用率和95%的系统空间占用率也是非常普遍的现象，这意味着HAProxy进程消耗比系统空间消耗低20倍以上。因此，对OS进行性能调优是非常重要的。即使用户空间的占用率提高一倍，其CPU占用率也仅为10%，这也解释了为何7层处理对性能影响有限这一现象。由此，在高端系统上HAProxy的7层性能可轻易超过硬件负载均衡设备。

在生产环境中，在7层处理上使用HAProxy作为昂贵的高端硬件负载均衡设备故障故障时的紧急解决方案也时长可见。硬件负载均衡设备在“报文”级别处理请求，这在支持跨报文请求(request across multiple packets)有着较高的难度，并且它们不缓冲任何数据，因此有着较长的响应时间。对应地，软件负载均衡设备使用TCP缓冲，可建立极长的请求，且有着较大的响应时间。

目前haproxy支持的负载均衡算法有如下8种
1.roundrobin
动态加权轮询算法，支持权重的运行时调整及慢启动机制；最大支持4095个后端主机；在服务器的处理时间平均分配的情况下这是最流畅和公平的算法。该算法是动态的，对于实例启动慢的服务器权重会在运行中调整。
2.leastconn
最小连接数算法，连接数最少的服务器优先接收连接。建议用于长会话场景中使用，例如LDAP、SQL等协议，而不适合短会话协议。如HTTP.该算法是动态的，对于实例启动慢的服务器权重会在运行中调整。

3.static-rr
静态轮询算法，不支持权重的运行时调整和慢启动机制。每个服务器根据权重轮流使用，类似roundrobin。另外，它对服务器的数量没有限制。
4、source
源地址pgddwdm算法，对请求源IP地址进行pgddwdm；

取模法：将源地址hash计算后除以服务器总权重,服务器变动会影响全局调度效果；根据结果进行分配。只要服务器正常，同一个客户端IP地址总是访问同一个服务器。如果pgddwdm的结果随可用服务器数量而变化，那么客户端会定向到不同的服务器；该算法默认是静态的，所以运行时修改服务器的权重是无效的，但是算法会根据“hash-type”的变化做调整。

该算法一般用于不能插入cookie的Tcp模式。它还可以用于广域网上为拒绝使用会话cookie的客户端提供最有效的粘连；

一致性hash:服务器变动仅影响局部调度；动态调度;

5、uri
表示根据请求的URI左端（问号之前）或整个URI做hash进行pgddwdm计算，并与服务器的总权重相除后根据结果派发至某挑选出的后端主机。只要服务器正常，以最大限度的提高缓存的命中率。

作用是能够将对同一个uri的请求始终发往一个后端主机；适用于后端为缓存服务器和反病毒代理的场景；该算法默认是静态的，所以运行时修改服务器的权重是无效的，但是算法会根据“hash-type”的变化做调整。该算法只能用于HTTP后端。

6、url_param
在HTTP GET请求的查询串中查找中指定的URL参数的值做hash计算，并与服务器的总权重相除后派发至某挑选出的后端主机；基本上可以锁定使用特制的URL到特定的负载均衡器节点的要求；

此算法常用来追踪请求中的用户标识，以确保来自同一个用户的请求始终发往同一个后端主机；

该算法默认是静态的，所以运行时修改服务器的权重是无效的，但是算法会根据“hash-type”的变化做调整。

7、hdr(name)
对于每个http请求，此处由指定的http首部会被取出；如果此首部没有有效值，则用roundrobin代替；否则，对其值进行hash计算，并与服务器的总权重相除后派发至某挑选出的后端主机；

该算法默认是静态的，所以运行时修改服务器的权重是无效的，但是算法会根据“hash-type”的变化做调整。

8、rdp-cookie（name）
为每个进来的TCP请求查询并pgddwdmRDPcookie；

该机制用于退化的持久模式，可以使同一个用户或者同一个会话ID总是发送给同一台服务器。如果没有cookie，则使用roundrobin算法代替；

该算法默认是静态的，所以运行时修改服务器的权重是无效的，但是算法会根据“hash-type”的变化做调整。

二、安装Haproxy

haproxy的IP：192.168.1.15
web1的IP：192.168.1.16
web2的IP：192.168.1.52
1.编译安装Haproxy

[root@localhost ~]# yum -y install pcre-devel bzip2-devel//安装依赖包，让Haproxy服务支持正则表达式、解压[root@localhost ~]# tar zxf haproxy-1.5.19.tar.gz -C /usr/src[root@localhost ~]# cd /usr/src/haproxy-1.5.19/[root@localhost haproxy-1.5.19]# make TARGET=linux26 //表示是64系统//正常解压即可，但是这个软件不需要配置。[root@localhost haproxy-1.5.19]# make install

2.Haproxy服务配置

（1）建立Haproxy配置文件[root@localhost haproxy-1.5.19]# mkdir /etc/haproxy[root@localhost haproxy-1.5.19]# cp /usr/src/haproxy-1.5.19/examples/haproxy.cfg /etc/haproxy///将haproxy.cfg文件复制到配置文件目录

（2）Haproxy配置项详解
Haproxy 配置文件通常分为三个部分：

global（全局配置）；
defaults（默认配置）；
listen（应用组件配置）
global（全局配置）通常有以下配置参数：

global log 127.0.0.1 local #配置日志记录，local0为日志设备，默认存放到系统日志 log 127.0.0.1 local1 notice #notice为日志级别，通常有24个级别 #log loghost local0 info maxconn 4096 #最大连接数 chroot /usr/share/haproxy #该服务自设置的根目录，一般需将此行注释掉 uid 99 #用户UID gid 99 #用户GID daemon #守护进程模式defaults（默认配置）一般会被应用组件继承，如果在应用组件中没有特别声明，将安装默认配置参数设置，常见的参数有： defaults log global #定义日志为global配置中的日志定义 mode http #模式为http option httplog #采用http日志格式记录日志 option dontlognull retries 3 #检查节点服务器失败次数，连续达到三次失败，则认为节点不可用 redispatch #当服务器负载很高时，自动结束当前队列处理比较久的连接 maxconn 2000 #最大连接数 contimeout 5000 #连接超时时间 clitimeout 50000 #客户端超时时间 srvtimeout 50000 #服务器超时时间listen（配置项）一般配置应用模块参数： listen appli4-backup 0.0.0.0:10004 #定义一个名为appli4-backup的应用 option httpchk /index.html #检查服务器的index.html文件 option persist #强制将请求发送到已经down掉的服务器，一般禁用此选项。 balance roundrobin #负载均衡调度算法使用轮询算法 server inst1 192.168.1.16:80 check inter 2000 fall 3 #定义在线节点 server inst2 192.168.1.52:80 check inter 2000 fall 3 backup #定义备份节点#注意：在以上定义备份节点的参数中，#“check inter 2000”表示haproxy服务器和节点之间的一个心跳频率，#“fall 3”表示连续三次检测不到心跳频率则认为该节点失效。#节点配置后带有“ backup”表示该节点只是个备份节点，只有主节点失效该节点才会上。#去除backup，表示为主节点，和其他主节点共同提供服务。

（4）创建启动脚本

[root@localhost ~]# cp /usr/src/haproxy-1.5.19/examples/haproxy.init /etc/init.d/haproxy[root@localhost ~]# ln -s /usr/local/sbin/haproxy /usr/sbin/haproxy [root@localhost ~]# chmod +x /etc/init.d/haproxy [root@localhost ~]# chkconfig --add /etc/init.d/haproxy [root@localhost ~]# /etc/init.d/haproxy startStarting haproxy (via systemctl): [ 确定 ]

（5）Haproxy服务的日志
Haproxy的日志默认输出到系统的syslog中，查看起来非常不方便，为了更好的管理Haproxy的日志信息，我们在声场环境中一般单独定义出来。方法如下：

[root@localhost ~]# vim /etc/haproxy/haproxy.cfg global log /dev/log local0 info log /dev/log local0 notice//添加两行内容，把原本关于日志的信息注释掉[root@localhost ~]# systemctl restart haproxy//重启服务[root@localhost ~]# vim /etc/rsyslog.d/haproxy.conf//定义Haproxy服务的日志文件存放的位置，添加如下内容：if ($programname == 'haproxy' and $syslogseverity-text == 'info') then -/var/log/haproxy/haproxy-info.log& ~if ($programname == 'haproxy' and $syslogseverity-text == 'notice') then -/var/log/haproxy/haproxy-notice.log& ~[root@localhost ~]# systemctl restart rsyslog//重启日志服务

当客户端访问时，就可以利用以下命令查看Haproxy服务的日志文件

[root@localhost ~]# tail -f /var/log/haproxy/haproxy-info.log