常见监控系统比较

目前市面上主流大众都在用的监控系统主要有zabbix、openfalcon、prometheus，这三者都有各自适合的使用场景。下面来看下这三种监控系统各自的优缺点。

zabbix

zabbix属于老牌企业监控解决方案，优点是在企业的基础设施监控场景下提供了非常丰富的采集插件，能够快速建立起企业内部基础设施的监控和基础设施可视化大屏(包括网络的可视化等)。

zabbix的不足之处在于后端数据库使用了MySQL对监控数据进行存储，因此无法满足现在多维度化的告警需求。同时随着时间的推移，监控告警数据激增的瓶颈也会出现，同样的在对接应用层监控缺乏，所以更适合企业底层基础设施的监控。(注：最新版本的数据库替换了TimescaleDB)

openfalcon

openfalcon是小米开源的企业级监控解决方案，它整体的架构上吸取了zabbix的经验同时也解决了zabbix的不足之处，但是社区的活跃性不高。

prometheus

prometheus是谷歌开源的新一代监控系统，也是契合目前云原生较好的解决方案。优势在于社区活跃度高能推进普适化功能的演进，比如之前只支持pull方式，现在prometheus自身支持了可靠的push的方式推送数据到远端tsdb时序数据库中，同时单点的也能支撑起数百万的metrics指标数据。

不足之处在于官方不提供高可用的架构，需要自行处理，这些方案在社区中也有很多。

ChengYing监控设计

ChengYing平台则是选择了集成prometheus这套监控解决方案。其中的主要原因，是这套解决方案是目前主流的方案，使用的人群较多，推广使用上门槛低而且易维护，同时也适合ChengYing平台的容器化部署。

下面我们来看下这套监控系统是如何在ChengYing平台上进行集成的。

架构设计

首先我们在这套平台的基础上增加了一个dt-alert组件用来对接第三方的告警发送处理，其次我们对grafana进行了少量的二次开发，开发的内容主要在于打通ChengYing平台的告警通道和grafana上的通道的对接。

整体结构如下：

无监控，不运维！深入浅出介绍ChengYing监控设计和使用

平台接入好主机和部署好服务后，prometheus就能通过服务发现的方式完成目标抓取作业的生成获取监控数据。grafana从prometheus中获取指标数据进行展示，同时触发告警将告警内容发到dtalert组件中，dtalert组件将告警信息发往第三方平台上。

监控设计

那么prometheus是如何通过服务发现来获取目标抓取作业的信息的？

这里ChengYing主要是使用了prometheus的「基于文件的服务发现功能」，Prometheus 会按指定的时间计划从这些文件重新加载目标。对于集群我们分为两部分的监控信息，主机和服务。

● 主机

主机的服务发现流程是在主机接入集群的时候，ChengYing会对接入的主机进行初始化操作，该操作会下发node-exporter，然后将主机的ip和node-exporter端口作为一个目标作业写入node_sd_file.yml文件中。当然用户也能自己指定exporter的端口，这个配置已经提取到的matrix的配置文件中。

节点接入后生成的信息如下：

无监控，不运维！深入浅出介绍ChengYing监控设计和使用