循序渐进Python3(十)-- 0 -- RabbitMQ

时间:2023-03-08 18:02:27

RabbitMQ

RabbitMQ是一个由erlang开发的AMQP(Advanced Message Queue )的开源实现。AMQP 的出现其实也是应了广大人民群众的需求,虽然在同步消息通讯的世界里有很多公开标准(如 COBAR的 IIOP ,或者是 SOAP 等),但是在异步消息处理中却不是这样,只有大企业有一些商业实现(如微软的 MSMQ ,IBM 的 Websphere MQ 等),因此,在 2006 年的 6 月,Cisco 、Redhat、iMatix 等联合制定了 AMQP 的公开标准。

RabbitMQ是由RabbitMQ Technologies Ltd开发并且提供商业支持的。该公司在2010年4月被SpringSource(VMWare的一个部门)收购。在2013年5月被并入Pivotal。其实VMWare,Pivotal和EMC本质上是一家的。不同的是VMWare是独立上市子公司,而Pivotal是整合了EMC的某些资源,现在并没有上市。

RabbitMQ的官网是http://www.rabbitmq.com

        MQ全称为Message Queue, 消息队列(MQ)是一种应用程序对应用程序的通信方法。应用程序通过读写出入队列的消息(针对应用程序的数据)来通信,而无需专用连接来链接它们。消 息传递指的是程序之间通过在消息中发送数据进行通信,而不是通过直接调用彼此来通信,直接调用通常是用于诸如远程过程调用的技术。排队指的是应用程序通过 队列来通信。队列的使用除去了接收和发送应用程序同时执行的要求。
MQ是消费-生产者模型的一个典型的代表,一端往消息队列中不断写入消息,而另一端则可以读取或者订阅队列中的消息。MQ和JMS类似,但不同的是JMS是SUN JAVA消息中间件服务的一个标准和API定义,而MQ则是遵循了AMQP协议的具体实现和产品。

应用场景

RabbitMQ,或者说AMQP解决了什么问题,或者说它的应用场景是什么?
     对于一个大型的软件系统来说,它会有很多的组件或者说模块或者说子系统或者(subsystem or Component or submodule)。那么这些模块的如何通信?这和传统的IPC有很大的区别。传统的IPC很多都是在单一系统上的,模块耦合性很大,不适合扩展(Scalability);如果使用socket那么不同的模块的确可以部署到不同的机器上,但是还是有很多问题需要解决。比如:
 1)信息的发送者和接收者如何维持这个连接,如果一方的连接中断,这期间的数据如何防止丢失?
 2)如何降低发送者和接收者的耦合度?
 3)如何让Priority高的接收者先接到数据?
 4)如何做到load balance?有效均衡接收者的负载?
 5)如何有效的将数据发送到相关的接收者?也就是说将接收者subscribe 不同的数据,如何做有效的filter。
 6)如何做到可扩展,甚至将这个通信模块发到cluster上?
 7)如何保证接收者接收到了完整,正确的数据?
  AMDQ协议解决了以上的问题,而RabbitMQ实现了AMQP。
RabbitMQ安装(linux--服务端)
1
2
3
4
5
6
7
8
安装配置epel源
   $ rpm -ivh http://dl.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch.rpm
安装erlang  # 因为RabbitMQ由ERLANG实现
   $ yum -y install erlang
安装RabbitMQ
   $ yum -y install rabbitmq-server

注意:service rabbitmq-server start/stop

安装API(客户端)

1
2
3
4
5
6
7
pip install pika
or
easy_install pika
or
源码
https://pypi.python.org/pypi/pika

下面是一个简单的例子:
# ######################### 生产者 #########################
import pika
# 创建连接
connection = pika.BlockingConnection(pika.ConnectionParameters(
host='192.168.168.231'))
# 创建频道
channel = connection.channel()
channel.queue_declare(queue='hello1') # 定义队列,不存在则创建,存在则忽略

# 生产(发送)
channel.basic_publish(exchange='',
                        routing_key='hello1', # 向哪个队列发数据

body='Hello World!') # 发送的内容

print(" [x] Sent 'Hello World!'")
connection.close()

# ########################## 消费者 ##########################
import pika
connection = pika.BlockingConnection(pika.ConnectionParameters(
host='192.168.168.231')) # 创建连接
channel = connection.channel() # 创建频道

channel.queue_declare(queue='hello1') # 定义队列,不存在则创建,存在则忽略

def callback(ch, method, properties, body):
"""
回调函数
:param ch: 频道--channel
:param method: 队列名称
:param properties: RabbitMQ的基本属性
:param body: 内容
:return:
"""
        print(" [x] Received %r" % body)

# 消费(接收)

channel.basic_consume(callback,
                                            queue='hello1', # 向哪个队列发数据

no_ack=True)

print(' [*] Waiting for messages. To exit press CTRL+C')
channel.start_consuming()

注:

no-ack = False(针对取数据的消费者),如果消费者遇到情况(its channel is closed, connection is closed, or TCP connection is lost)挂掉了,那么,RabbitMQ会重新将该任务添加到队列中。( 额外消耗一些性能)

durable=True (针对生产者)   当RabbiMQ挂掉时 保持数据持久化。

使用这个两个参数就能保证消息不丢失
eg:
#!/usr/bin/env python
# Version = 3.5.2
# __auth__ = '无名小妖'
# ######################### 生产者 #########################
import pika
# 创建连接
connection = pika.BlockingConnection(pika.ConnectionParameters(
host='192.168.168.231'))
# 创建频道
channel = connection.channel()
# make message persistent
channel.queue_declare(queue='xiao',
durable='True'
)
channel.basic_publish(exchange='',
routing_key='xiao',
body='Hello World!',
properties=pika.BasicProperties(
delivery_mode=2,
# make message persistent
))
print(" [x] Sent 'Hello World!'")
connection.close()
# ######################### 消费者 #########################
import pika
import time
connection = pika.BlockingConnection(pika.ConnectionParameters(
host='192.168.168.231'))
channel = connection.channel()
# make message persistent
channel.queue_declare(queue='xiao',
durable=True
)

def callback(ch, method, properties, body):
print(" [x] Received %r" % body)
time.sleep(10)
print('ok')
ch.basic_ack(
delivery_tag = method.delivery_tag)

channel.basic_consume(callback,
queue='xiao',
no_ack=False)
print(' [*] Waiting for messages. To exit press CTRL+C')
channel.start_consuming()


消息获取顺序
默认消息队列里的数据是按照顺序被消费者拿走,例如:消费者1 去队列中获取 奇数 序列的任务,消费者1去队列中获取 偶数 序列的任务。
channel.basic_qos(prefetch_count=1) 表示谁来谁取,不再按照奇偶数排列
------------------------------------------------------------------------------
有了初步的了解后,我们再看看 应用场景的系统架构 。

循序渐进Python3(十)-- 0 -- RabbitMQ
    这个系统架构图版权属于sunjun041640。
    RabbitMQ Server: 也叫broker server,它不是运送食物的卡车,而是一种传输服务。原话是RabbitMQisn’t a food truck, it’s a delivery service. 他的角色就是维护一条从Producer到Consumer的路线,保证数据能够按照指定的方式进行传输。但是这个保证也不是100%的保证,但是对于普通的应用来说这已经足够了。当然对于商业系统来说,可以再做一层数据一致性的guard,就可以彻底保证系统的一致性了。
    Client A & B: 也叫Producer,数据的发送方。createmessages and publish (send) them to a broker server (RabbitMQ).一个Message有两个部分:payload(有效载荷)和label(标签)。payload顾名思义就是传输的数据。label是exchange的名字或者说是一个tag,它描述了payload,而且RabbitMQ也是通过这个label来决定把这个Message发给哪个Consumer。AMQP仅仅描述了label,而RabbitMQ决定了如何使用这个label的规则。
    Client 1,2,3:也叫Consumer,数据的接收方。Consumersattach to a broker server (RabbitMQ) and subscribe to a queue。把queue比作是一个有名字的邮箱。当有Message到达某个邮箱后,RabbitMQ把它发送给它的某个订阅者即Consumer。当然可能会把同一个Message发送给很多的Consumer。在这个Message中,只有payload,label已经被删掉了。对于Consumer来说,它是不知道谁发送的这个信息的。就是协议本身不支持。但是当然了如果Producer发送的payload包含了Producer的信息就另当别论了。
     对于一个数据从Producer到Consumer的正确传递,还有三个概念需要明确:exchanges, queues and bindings。
        Exchanges are where producers publish their messages.
        Queuesare where the messages end up and are received by consumers
        Bindings are how the messages get routed from the exchange to particular queues.
   还有几个概念是上述图中没有标明的,那就是Connection(连接),Channel(通道,频道)。
   Connection: 就是一个TCP的连接。Producer和Consumer都是通过TCP连接到RabbitMQ Server的。我们可以看到,程序的起始处就是建立这个TCP连接。
   Channels: 虚拟连接。它建立在上述的TCP连接中。数据流动都是在Channel中进行的。也就是说,一般情况是程序起始建立TCP连接,第二步就是建立这个Channel。
    那么,为什么使用Channel,而不是直接使用TCP连接?
对于OS来说,建立和关闭TCP连接是有代价的,频繁的建立关闭TCP连接对于系统的性能有很大的影响,而且TCP的连接数也有限制,这也限制了系统处理高并发的能力。但是,在TCP连接中建立Channel是没有上述代价的。对于Producer或者Consumer来说,可以并发的使用多个Channel进行Publish或者Receive。有实验表明,1s的数据可以Publish10K的数据包。当然对于不同的硬件环境,不同的数据包大小这个数据肯定不一样,但是我只想说明,对于普通的Consumer或者Producer来说,这已经足够了。如果不够用,你考虑的应该是如何细化split你的设计。

进一步的细节阐明 
使用ack确认Message的正确传递

默认情况下,如果Message 已经被某个Consumer正确的接收到了,那么该Message就会被从queue中移除。当然也可以让同一个Message发送到很多的Consumer。
    如果一个queue没被任何的Consumer Subscribe(订阅),那么,如果这个queue有数据到达,那么这个数据会被cache,不会被丢弃。当有Consumer时,这个数据会被立即发送到这个Consumer,这个数据被Consumer正确收到时,这个数据就被从queue中删除。
     那么什么是正确收到呢?通过ack。每个Message都要被acknowledged(确认,ack)。我们可以显示的在程序中去ack,也可以自动的ack。如果有数据没有被ack,那么:
     RabbitMQ Server会把这个信息发送到下一个Consumer。
    如果这个app有bug,忘记了ack,那么RabbitMQ Server不会再发送数据给它,因为Server认为这个Consumer处理能力有限。
   而且ack的机制可以起到限流的作用(Benefitto throttling):在Consumer处理完成数据后发送ack,甚至在额外的延时后发送ack,将有效的balance Consumer的load。
   当然对于实际的例子,比如我们可能会对某些数据进行merge,比如merge 4s内的数据,然后sleep 4s后再获取数据。特别是在监听系统的state,我们不希望所有的state实时的传递上去,而是希望有一定的延时。这样可以减少某些IO,而且终端用户也不会感觉到。 Reject a message
   有两种方式,第一种的Reject可以让RabbitMQ Server将该Message 发送到下一个Consumer。
第二种是从queue中立即删除该Message。
 Creating a queue
      Consumer和Procuder都可以通过 queue.declare 创建queue。对于某个Channel来说,Consumer不能declare一个queue,却订阅其他的queue。当然也可以创建私有的queue。这样只有app本身才可以使用这个queue。queue也可以自动删除,被标为auto-delete的queue在最后一个Consumer unsubscribe后就会被自动删除。那么如果是创建一个已经存在的queue呢?那么不会有任何的影响。需要注意的是没有任何的影响,也就是说第二次创建如果参数和第一次不一样,那么该操作虽然成功,但是queue的属性并不会被修改。
    那么谁应该负责创建这个queue呢?是Consumer,还是Producer?
如果queue不存在,当然Consumer不会得到任何的Message。但是如果queue不存在,那么Producer Publish的Message会被丢弃。所以,还是为了数据不丢失,Consumer和Producer都try to create the queue!反正不管怎么样,这个接口都不会出问题。
   queue对load balance的处理是完美的。对于多个Consumer来说,RabbitMQ 使用循环的方式(round-robin)的方式均衡的发送给不同的Consumer。 Exchanges   
    从架构图可以看出,Procuder Publish的Message进入了Exchange。接着通过“routing keys”, RabbitMQ会找到应该把这个Message放到哪个queue里。queue也是通过这个routing keys来做的绑定。
     有三种类型的Exchanges:direct, fanout,topic。 每个实现了不同的路由算法(routing algorithm)。
·        Direct exchange: 如果 routing key 匹配, 那么Message就会被传递到相应的queue中。其实在queue创建时,它会自动的以queue的名字作为routing key来绑定那个exchange。
·        Fanout exchange: 会向响应的queue广播。
·        Topic exchange: 对key进行模式匹配,比如ab*可以传递到所有ab*的queue。 Virtual hosts
   每个virtual host本质上都是一个RabbitMQ Server,拥有它自己的queue,exchagne,和bings rule等等。这保证了你可以在多个不同的application中使用RabbitMQ。

一个使用 Fanout exchange 的小例子:
#!/usr/bin/env python
# Version = 3.5.2
# __auth__ = '无名小妖'
# ######################### 生产者 #########################
import pika
# 创建连接
connection = pika.BlockingConnection(pika.ConnectionParameters(
host='192.168.168.231'))
# 创建频道
channel = connection.channel()
# 创建exchange
channel.exchange_declare(exchange='logs_fanout',
type='fanout')
message = '456'
channel.basic_publish(exchange='logs_fanout',
routing_key='',
body=message)
print(" [x] Sent %r" % message)
connection.close()
#!/usr/bin/env python
# Version = 3.5.2
# __auth__ = '无名小妖'
# ######################### 消费者 #########################
import pika
# 创建连接
connection = pika.BlockingConnection(pika.ConnectionParameters(
host='192.168.168.231'))
# 创建频道
channel = connection.channel()
# 创建exchange
channel.exchange_declare(exchange='logs_fanout',
type='fanout')
# 随机创建队列
result = channel.queue_declare(exclusive=True)
queue_name = result.method.queue
# 绑定
channel.queue_bind(exchange='logs_fanout',
queue=queue_name)
print(' [*] Waiting for logs. To exit press CTRL+C')

def callback(ch, method, properties, body):
print(" [x] %r" % body)
channel.basic_consume(callback,
queue=queue_name,
no_ack=True)
channel.start_consuming()

关键字发送:
#!/usr/bin/env python
# Version = 3.5.2
# __auth__ = '无名小妖'
# ######################### 生产者 #########################
import pika
# 创建连接
connection = pika.BlockingConnection(pika.ConnectionParameters(
host='192.168.168.231'))
# 创建频道
channel = connection.channel()
# 随机创建队列
channel.exchange_declare(exchange='direct_logs_test_1',
type='direct')
# 要绑定的关键字
severity = 'info'
# 要发送的消息
message = '123456!'
# 绑定关键字(routing_key)
channel.basic_publish(exchange='direct_logs_test_1',
routing_key=severity,
body=message)
print(" [x] Sent %r:%r" % (severity, message))
connection.close()
#!/usr/bin/env python
# Version = 3.5.2
# __auth__ = '无名小妖'
# ######################### 消费者1 #########################
# 创建连接
connection = pika.BlockingConnection(pika.ConnectionParameters(
host='192.168.168.231'))
# 创建频道
channel = connection.channel()
# 创建exchange
channel.exchange_declare(exchange='direct_logs_test_1',
type='direct')
# 随机创建队列
result = channel.queue_declare(exclusive=True)
queue_name = result.method.queue
# 要绑定的关键字
severities = ['error', 'info', 'warning']
# 循环绑定关键字(routing_key)
for severity in severities:
channel.queue_bind(exchange='direct_logs_test_1',
queue=queue_name,
routing_key=severity)
print(' [*] Waiting for logs. To exit press CTRL+C')

def callback(ch, method, properties, body):
print(" [x] %r:%r" % (method.routing_key, body))
# 消费者
channel.basic_consume(callback,
queue=queue_name,
no_ack=True)
channel.start_consuming()
#!/usr/bin/env python
# Version = 3.5.2
# __auth__ = '无名小妖'
# ######################### 消费者2 #########################
import pika
# 创建连接
connection = pika.BlockingConnection(pika.ConnectionParameters(
host='192.168.168.231'))
# 创建频道
channel = connection.channel()
# 创建exchange
channel.exchange_declare(exchange='direct_logs_test_1',
type='direct')
# 随机创建队列
result = channel.queue_declare(exclusive=True)
queue_name = result.method.queue
severities = ['error',]
for severity in severities:
channel.queue_bind(exchange='direct_logs_test_1',
queue=queue_name,
routing_key=severity)
print(' [*] Waiting for logs. To exit press CTRL+C')

def callback(ch, method, properties, body):
print(" [x] %r:%r" % (method.routing_key, body))
channel.basic_consume(callback,
queue=queue_name,
no_ack=True)
channel.start_consuming()
模糊匹配:
循序渐进Python3(十)-- 0 -- RabbitMQ
 exchange type = topic
在topic类型下,可以让队列绑定几个模糊的关键字,之后发送者将数据发送到exchange,exchange将传入”路由值“和 ”关键字“进行匹配,匹配成功,则将数据发送到指定队列。

  • # 表示可以匹配 0 个 或 多个 单词
  • *  表示只能匹配 一个 单词

此处的* 和以往的理解不一致,需要注意。
参考博客:http://blog.****.net/column/details/rabbitmq.html
         http://www.cnblogs.com/wupeiqi/articles/5132791.html 

import pika
1
2
3
发送者路由值              队列中
old.boy.python          old.*  -- 不匹配
old.boy.python          old.#  -- 匹配