故障的机器修好后重启，狂拉主库binlog，导致网络问题的解决方法

问题简述：

一周前，有一台mysql服务器发生硬件故障，停机了。我们给专门负责这块的同学提交了申请，他们负责去报修这台服务器。今天这台服务器修好后，他们将其开机启动。服务器上的4个mysql实例在开机后自动启动，开始拉主库的binlog。由于这台服务器停机时间比较久，日志丢的比较多，狂拉主库的binlog，导致主库网络出现问题。

现象：
首先，我们完全没有意识到是因为一台坏掉的服务器重启拉主库binlog导致的，因为我们压根不知道这台服务器什么情况，只知道1周前，我们报修了1台服务器。具体什么情况，有没有修好，有没有开机，我们完全不知道。

在这样的情况下，忽然听到网络的同学说mysql有一台机器网络流量过大，导致业务感觉很慢，总共持续了17分钟。其实这样，是没有多大头绪的。

排查：

查看processlist、全日志、慢日志都没有发现有什么问题。

查看监控，发现那段时间的服务器的读IO骤然升高。

通过查看processlist的历史记录，发现有一段时间，主从复制的用户状态是 waiting for net，通过其IP发现该服务器是1周前坏掉的一个slave服务器。

结论：

这台服务器上有4个实例，服务器启动后，mysql实例自动启动，开始向主库上拉binlog，每个主库每天的binlog量大概6G，4个实例1个星期大概160多G的binlog。

问题：

1、坏掉的服务器什么时候修好，什么时候开机，我们不可控，也不知道，也没有关注

2、这种案例其实是很简单、很典型的可能造成影响或故障的case，我们提前没有对这个现象有警觉，虽然知道这是个很容易出现的问题，但是在我们的case中，完全没有这方面的意识。因此导致该事件发生

3、对于网络流量这块，缺乏有效监控

解决方法：

1、所有服务器，取消开机自动启动mysql，服务器开机后，人为启动实例，停slave。（这样，如果服务器很多，可能过于麻烦，暂且先这样记录下来，总比造成影响强）

2、意识到该问题，将该问题纳入避免问题的常识库或工作手册中去。

秒客网

故障的机器修好后重启，狂拉主库binlog，导致网络问题的解决方法

相关文章