大家一定要先看详细的理论教程，再开始搭建，这样报错后才容易找到突破口

参考文档

https://www.cnblogs.com/afterdawn/p/9020129.html

https://www.ibm.com/developerworks/cn/cloud/library/cl-lo-prometheus-getting-started-and-practice/

https://www.hi-linux.com/posts/25047.html    参考grafana安装

https://www.ctolib.com/docs/sfile/prometheus-book/

https://www.ctolib.com/docs/sfile/prometheus-book/quickstart/index.html      理论 详解教程

https://codegreen.cn/2018/09/28/prometheus-install/#31%E5%AE%89%E8%A3%85%E9%85%8D%E7%BD%AE-alertmanager

背景介绍

Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB)。Prometheus使用Go语言开发，是Google BorgMon监控系统的开源版本。

Prometheus的特点：

多维度数据模型。

灵活的查询语言。

不依赖分布式存储，单个服务器节点是自主的。

通过基于HTTP的pull方式采集时序数据。

可以通过中间网关进行时序列数据推送。

通过服务发现或者静态配置来发现目标服务对象。

支持多种多样的图表和界面展示，比如Grafana等。

服务器

--------- ip --------------------------- 安装软件 ---------------------

192.168.20.135 | Prometheus、grafana 、alertmanager

192.168.20.137 | node_exporter

安装Prometheus

wget https://github.com/prometheus/prometheus/releases/tag/v2.1.0/prometheus-2.1.0.linux-amd64.tar.gz

tar -xvf prometheus-2.1.0.linux-amd64.tar.gz -C /usr/local/

mv /usr/local/prometheus-2.1.0.linux-amd64  /usr/local/prometheus-2.1

启动prometheus

cd /usr/local/prometheus-2.1

./prometheus &

netstat -tunlp|grep 9090

prometheus server是可以获取到本机数据的，可用以下命令查看

curl localhost:9090/metrics

web页面

http://192.168.20.135:9090/targets

安装node_exporter

node_exporter我安装在192.168.20.137上，你也可以安装在server上，采集server数据。

wget https://github.com/prometheus/node_exporter/releases/download/v0.16.0-rc.3/node_exporter-0.16.0-rc.3.linux-amd64.tar.gz

tar -xvf node_exporter-0.16.0-rc.3.linux-amd64.tar.gz -C /usr/local/

mv /usr/local/node_exporter-0.16.0-rc.3.linux-amd64/ /usr/local/node_exporter-0.16

启动node_exporter

cd /usr/local/node_exporter-0.16

./node_exporter &

netstat -tunlp|grep 9100

查看各项监控指标是否有数据了：

curl localhost:9100/metrics

在server端prometheus.yml末尾添加job：

vim /usr/local/prometheus-2.1/prometheus.yml

  - job_name: 'export_test2'

    static_configs:

      - targets: ['192.168.20.137:9100']

        labels:

          instance: 'node2'

重启prometheus：

killall prometheus

cd /usr/local/prometheus-2.1/

./prometheus

在prometheus的web界面查看：status --> targets

prometheus + grafana + node_exporter + alertmanager 的安装部署与邮件报警 (一)

我们可以随便查看一个监控项，看是否获取到值，也可在Graph下进行数据的查找与曲线图的展示

安装grafana

grafana与prometheus进行对接，可以对数据进行更好的展示

wget https://dl.grafana.com/oss/release/grafana-5.4.3.linux-amd64.tar.gz

tar -xvf grafana-5.4.3.linux-amd64.tar.gz -C /usr/local/

启动grafana

cd /usr/local/grafana-5.4.3/bin/

./grafana-server &

登录grafana的web页面

http://192.168.20.135:3000/

admin/admin

添加数据源与自带模板

Add data source --> http://192.168.20.135:9090 --> Dashboards --> prometheus2.0 --> save&test

prometheus + grafana + node_exporter + alertmanager 的安装部署与邮件报警 (一)

添加node-exporter-server-metrics 模板

下载方法：https://grafana.com/dashboards/405 --> Dashboards -->在如图搜索框搜索node-exporter-server-metrics -->点击第一个进去 --> version --> download

prometheus + grafana + node_exporter + alertmanager 的安装部署与邮件报警 (一)

在grafana的Dashboard 中导入模板的json文件

同时存在多个job，可以勾选展示。

添加1 Node Exporter 0.16 0.17 for Prometheus 监控展示看板

此监控模板基于node_exporter 可以更好的展示多项基本监控项

模板url: https://grafana.com/dashboards/8919

在grafana所在server安装饼图插件，并重启grafana

cd /usr/local/grafana/bin

./grafana-cli plugins install grafana-piechart-panel

killall grafana-server

./grafana-server restart &

图形界面配置

grafana + --> import --> 将以上该模板的url 填到Grafana.com Dashboard中 -->

prometheus + grafana + node_exporter + alertmanager 的安装部署与邮件报警 (一)

展示

alertmanager的告警配置

自定义prometheus告警规则

以下规则定义当job export_test2的node_exporter服务挂掉，即产生一个告警

vim /usr/local/prometheus-2.1/rule.yml

groups:

- name: alert-rules                               #告警的分组，后续告警优化时，可通过分组做优化配置

  rules:

  - alert: InstanceStatus                        #告警规则名称

    expr: up{job="export_test2"} == 0    #1是服务正常 ，0服务挂了

    for: 10s                                             #评估等待10s，等待期间报警状态为pending

    labels:                                               #此标签可用于match之后的通知操作

      severity: 'critical'

    annotations:                                      #描述告警信息

      description: 服务器 已宕机

      summary: 服务器 运行状态

在prometheus的配置文件中添加该规则

vim /usr/local/prometheus-2.1/prometheus.yml

rule_files:

  - "/usr/local/prometheus-2.1/rule.yml"

安装alertmanager

https://github.com/prometheus/alertmanager/releases/download/v0.15.2/alertmanager-0.15.2.linux-amd64.tar.gz

tar -xvf alertmanager-0.15.2.linux-amd64.tar.gz -C /usr/local

mv /usr/local/alertmanager-0.15.2.linux-amd64 /usr/local/alertmanager-0.15.2

启动alertmanager

cd /usr/local/alertmanager-0.15.2

./alertmanager &

在prometheus的配置文件中配置alertmanager地址，让其知晓alertmanager的地址，以传送告警信息

vim /usr/local/prometheus-2.1/prometheus.yml

alerting:

  alertmanagers:

  - static_configs:

    - targets: ['localhost:9093']

重启promethous

killall prometheus

cd /usr/local/prometheus-2.1/

./prometheus

测试：

此时关闭192.168.20.137的node_exporter服务

killall node_exporter

查看prometheus的web界面，已经产生告警：

prometheus + grafana + node_exporter + alertmanager 的安装部署与邮件报警 (一)

再查看alertmanager已经接收到来自prometheus的告警：

配置告警处理策略

新建alertmanager.yml,由于要进行发邮件测试，将等待时间和间隔时间设置的很短

vim /usr/local/alertmanager-0.15.2/alertmanager.yml

global:                  #若所有的邮件配置使用相同的SMTP配置，则可以直接定义全局的SMTP配置

  smtp_smarthost: 'smtp.126.com:25'

  smtp_from: 'xxxx@126.com'

  smtp_auth_username: 'xxxx@126.com'

  smtp_auth_password: 'xxx121212'        #这是授权码，不是密码，

  smtp_require_tls: false

#templates:          #默认Alertmanager使用系统自带的默认通知模板 ，用户也可在此自定义模板

#  - '/alertmanager/template/*.tmpl'

route:                   #*路由必须匹配所有报警，因为他要接受所有报警，再分匹配到分支路由上

  group_by: ['alertname']   #满足group_by中定义标签名称，那么这些告警将会合并为一个通知发送给接收器。

  group_wait: 1s              #同一group的等待时间，在等待时间内当前group接收到了新的告警，这些告警将会合并为一个通知向receiver发送

  group_interval: 5s         #同一Gourp发送告警通知的时间间隔

  repeat_interval: 20s      #在连续告警触发的情况下，重复发送告警的时间间隔

  receiver: 'default-receiver'

  routes:                 #分支路由，可设置不同的匹配规则

  - receiver: 'default-receiver'

    match:              #匹配告警规则的key:value

      severity: 'critical'                

receivers:

- name: 'default-receiver'

  email_configs:

  - to: '1xxxx@qq.com'

    send_resolved: true  #告警解除发送恢复通知

重启alertmanager

killall alertmanager

cd /usr/local/alertmanager-0.15.2

./alertmanager &

查看alertmanager的配置是否加载,点击web页面的status

prometheus + grafana + node_exporter + alertmanager 的安装部署与邮件报警 (一)

查看接收到的邮件报警信息

解除报警后的恢复邮件

秒客网

prometheus + grafana + node_exporter + alertmanager 的安装部署与邮件报警 (一)

背景介绍

Prometheus的特点：

相关组件：

服务器

--------- ip --------------------------- 安装软件 ---------------------

192.168.20.135 | Prometheus、grafana 、alertmanager

192.168.20.137 | node_exporter

安装Prometheus

安装node_exporter

安装grafana

添加数据源与自带模板

添加node-exporter-server-metrics 模板

添加1 Node Exporter 0.16 0.17 for Prometheus 监控展示看板

alertmanager的告警配置

自定义prometheus告警规则

安装alertmanager

配置告警处理策略

相关文章

prometheus + grafana + node_exporter + alertmanager 的安装部署与邮件报警 (一)

背景介绍

Prometheus的特点：

相关组件：

服务器

--------- ip --------------------------- 安装软件 --------------------- 192.168.20.135 | Prometheus、grafana 、alertmanager 192.168.20.137 | node_exporter

安装Prometheus

安装node_exporter

安装grafana

添加数据源与自带模板

添加node-exporter-server-metrics 模板

添加1 Node Exporter 0.16 0.17 for Prometheus 监控展示看板

alertmanager的告警配置

自定义prometheus告警规则

安装alertmanager

配置告警处理策略

相关文章

--------- ip --------------------------- 安装软件 ---------------------

192.168.20.135 | Prometheus、grafana 、alertmanager

192.168.20.137 | node_exporter