一次频繁Full GC问题排查过程分享

问题描述

应用收到频繁Full GC告警

问题排查

登录到对应机器上去，查看GC日志，发现YGC一分钟已经达到了15次，比Full GC还要频繁一些，其中Full GC平均10分钟超过了4次，如下图
使用jstat -gcutil 5280 1000查看实时GC情况，年老代采用的是CMS收集器，发现触发Full GC的原因是年老代占用空间达到指定阈值70%（-XX:CMSInitiatingOccupancyFraction=70）。
这时候猜测是某个地方频繁创建对象导致，通过jmap -dump:format=b,file=temp.dump 5280 dump文件，然后下载到本地通过jvisualvm分析对象的引用链的方式来定位具体频繁创建对象的地方，dump文件下载下来有5G多，整个导入过程都花了10多分钟。想查看所占空间较多对象的引用链，直接OOM了，dump对象太大了。这时候就换了种思路，查看占用空间比较大的一系列对象，看能不能找出什么端倪。占用空间最大的几类对象如下图

发现排第一的chart[]对象里面，存在一些metrics监控的具体指标的相关内容，排第二的io.prometheus.client.Collector$MetricFamilySample$Sample和排第9和第13对象都是spring boot中metrics指标监控相关的对象，所以此时怀疑metrics监控的某个地方在频繁创建对象，首先考虑的是否因为metrics指标太多导致的，于是登录线上机器curl localhost:8080/mertrics > metrics.log，发现响应内容有50多M，参考其他相关的正常应用，指标总共内容也就10多M左右，打开指标内容发现了很多类似如下图的指标

看到了这里已经可以确定代码中上报这个指标是存在问题的，并没有达到我们想要的效果，所以也怀疑也是这个地方导致的Full GC频繁。

问题初步解决

由于这个指标也无关紧要，初步解决方案就把上报该指标的代码给干掉。上线后看下Full GC问题是否会得到改善，果然，上线后Full GC告警问题已经解决。

初步解决后的思考，为什么会有这个问题？

外部监控系统，每25s会来调用metrics这个接口，这个接口会把所有的metrics指标转成字符串然后作为http响应内容响应。监控每来调用一次就会产生一个50多M的字符串，导致了频繁YGC，进而导致了晋升至年老代的对象也多了起来，最终年老代内存占用达到70%触发了Full GC。

根源问题重现

此处采用metrics的作用：统计线程池执行各类任务的数量。为了简化代码，用一个map来统计，重现代码如下

    import java.util.Map;

    import java.util.concurrent.*;

    import java.util.concurrent.atomic.AtomicInteger;

    /**

     * 线程池通过submit方式提交任务，会把Runnable封装成FutureTask。

     * 直接导致了Runnable重写的toString方法在afterExecute统计的时候没有起到我们想要的作用，

     * 最终导致几乎每一个任务（除非hashCode相同）就按照一类任务进行统计。所以这个metricsMap会越来越大，调用metrics接口的时候，会把该map转成一个字符返回

     */

    public class GCTest {

        /**

         * 统计各类任务已经执行的数量

         * 此处为了简化代码，只用map来代替metrics统计

         */

        private static Map<String, AtomicInteger> metricsMap = new ConcurrentHashMap<>();

        public static void  main(String[] args) throws InterruptedException {

            ThreadPoolExecutor threadPoolExecutor = new ThreadPoolExecutor(10, 10, 0, TimeUnit.SECONDS, new LinkedBlockingQueue<>()){

                /**

                 * 统计各类任务执行的数量

                 * @param r

                 * @param t

                 */

                @Override

                protected void afterExecute(Runnable r, Throwable t) {

                    super.afterExecute(r, t);

                    metricsMap.compute(r.toString(), (s, atomicInteger) ->

                            new AtomicInteger(atomicInteger == null ? 0 : atomicInteger.incrementAndGet()));

                }

            };

            /**

             * 源源不断的任务添加进线程池被执行

             */

            for (int i =0; i < 1000; i++) {

                threadPoolExecutor.submit(new SimpleRunnable());

            }

            Thread.sleep(1000 * 2);

            System.out.println(metricsMap);

            threadPoolExecutor.shutdownNow();

        }

        static class SimpleRunnable implements Runnable{

            @Override

            public void run() {

                System.out.println("SimpleRunnable execute success");

            }

            /**

             * 重写toString用于统计任务数

             * @return

             */

            @Override

            public String toString(){

                return this.getClass().getSimpleName();

            }

        }

    }

最终解决

可以把submit改成execute即可

总结

以上重显代码可以看出metricsMap中的元素是会越来越多的。如果就这样下去，最终的结果也会出现OOM。
根本原因还是对ThreadPoolExecutor不够熟悉，所以出现了这次问题。
个人感觉Full GC类问题是比较让人头疼的。这些问题并不会想代码语法问题一样，ide会提示我们具体错在哪里，我们只要修改对应地方基本都能解决。造成Full GC频繁的原因也有很多，比如可能是jvm参数设置不合理、Metaspace空间触发、频繁创建对象触发等等。
如果确定了是频繁创建对象导致，那么接下来的目的就是确定频繁创建对象的对应代码处，这时候可以选择通过dump线上堆栈，然后下载到本地。选择一些可视化分析工具进行分析。最终定位到出问题的代码处，然后解决问题。

版权声明

作者：wycm

出处：https://www.cnblogs.com/w-y-c-m/p/9919717.html

您的支持是对博主最大的鼓励，感谢您的认真阅读。

本文版权归作者所有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

一次频繁Full GC问题排查过程分享的更多相关文章

一次CMS GC问题排查过程（理解原理+读懂GC日志）
这个是之前处理过的一个线上问题,处理过程断断续续,经历了两周多的时间,中间各种尝试,总结如下.这篇文章分三部分: 1.问题的场景和处理过程:2.GC的一些理论东西:3.看懂GC的日志先说一下问题吧 ...
[转]一次CMS GC问题排查过程（理解原理+读懂GC日志）
这个是之前处理过的一个线上问题,处理过程断断续续,经历了两周多的时间,中间各种尝试,总结如下.这篇文章分三部分: 1.问题的场景和处理过程:2.GC的一些理论东西:3.看懂GC的日志先说一下问题吧 ...
一次kibana服务失败的排查过程
公司在kubernetes集群上稳定运行数月的kibana服务于昨天下午突然无法正常提供服务,访问kibana地址后提示如下信息: 排查过程: 看到提示后,第一反应肯定是检查elasticsearch ...
解Bug之路-记一次中间件导致的慢SQL排查过程
解Bug之路-记一次中间件导致的慢SQL排查过程前言最近发现线上出现一个奇葩的问题,这问题让笔者定位了好长时间,期间排查问题的过程还是挺有意思的,正好博客也好久不更新了,就以此为素材写出了本篇文章 ...
解Bug之路-记一次存储故障的排查过程
解Bug之路-记一次存储故障的排查过程高可用真是一丝细节都不得马虎.平时跑的好好的系统,在相应硬件出现故障时就会引发出潜在的Bug.偏偏这些故障在应用层的表现稀奇古怪,很难让人联想到是硬件出了问题, ...
记一次生产环境Nginx日志骤增的问题排查过程
摘要:众所周知,Nginx是目前最流行的Web Server之一,也广泛应用于负载均衡.反向代理等服务,但使用过程中可能因为对Nginx工作原理.变量含义理解错误,或是参数配置不当导致Nginx工作异 ...
干货！一次kafka卡顿事故排查过程
由于一次功能上线后,导致某数据量急剧下滑,给我们紧张的呢!排查过程也是个学习过程(这其中有大部分是领导们的功劳,不过分享给大家应该也不犯法吧,ᐓ) 1. 确认问题的真实性? 被数据部门告知,某数据量下 ...
Linux(2)---记录一次线上服务 CPU 100&percnt;的排查过程
Linux(2)---记录一次线上服务 CPU 100%的排查过程当时产生CPU飙升接近100%的原因是因为项目中的websocket时时断开又重连导致CPU飙升接近100% .如何排查的呢是通过 ...
神奇的Java僵尸(defunct)进程问题排查过程
现象描述大概1个月多以前在启动脚本中增加了tail -f 用来启动后追踪日志判断是否启动成功后发现无法执行shutdown.sh(卡住利用curl) 然后无奈使用kill -9 但通过ps - ...

随机推荐

【转】Git如何Check Out出指定文件或者文件夹
[转]Git如何Check Out出指定文件或者文件夹http://www.handaoliang.com/a/20140506/195406.html 在进行项目开发的时候,有时候会有这样的需求那就 ...
使用引脚模拟PWM波控制引脚
/********************************* 代码功能:输出PWM波控制引脚使用函数: 创作时间:2016*10*07 作者邮箱:jikexianfeng@outlook.c ...
怎么让猫吃辣椒转载自 xiaotie
典故: 某日,毛.周.刘三人聊天. 毛:怎么能让猫自愿吃辣椒? 刘:掐着脖子灌. 毛:强迫不是自愿. 周: 先饿几天,再混到猫爱吃的东西里. 毛:欺骗不是自愿.把辣椒涂到猫肛门上,它就会自己去舔了. ...
POJ 2505 A multiplication game（找规律博弈/贪心）
题目链接 #include<iostream> #include<cstdio> using namespace std; typedef long long ll; int ...
windows多线程同步--事件
推荐参考博客:秒杀多线程第六篇经典线程同步事件Event 事件是内核对象,多用于线程间通信,可以跨进程同步事件主要用到三个函数:CreateEvent,OpenEvent,SetEvent, ...
[Object Tracking] Deep Boundary detection Tech
AR的要点之一便是精确跟踪 From: https://zhuanlan.zhihu.com/p/26848831?refer=dlclass Boundary Detection Benchmark ...
linux 服务器 keras 深度学习环境搭建
感慨: 程序跑不起来,都是环境问题. 1. 安装Anaconda https://blog.csdn.net/gdkyxy2013/article/details/79463859 2. 在 Anac ...
[SoapUI] Loop a test with different sets of data
3&period;spark streaming Job 架构和容错解析
一.Spark streaming Job 架构 SparkStreaming框架会自动启动Job并每隔BatchDuration时间会自动触发Job的调用. Spark Streaming的Job ...
linux 拓展之linux纯命令行界面变为图形界面
使用版本为6.x 1, 连接网络没网络就下载不了哦 2,设置下yum源,我本机原来的yum源是网易的但是我用不了,我设置阿里云可以下载, 你们有这问题的可以试试 3, yum groupin ...