一次Jvm old过高的排查过程实战记录

时间:2022-08-26 08:52:55

前言

最近遇到一个jvm old过高的案例,现象是一个站点的jvm old区过高,分析原因是,原来的设计方案有问题,给前端返回的数据里面包含了大量的html代码,从存储中拿数据的过程、拼接数据的过程过于漫长了,造成了大量对象的生命周期过长,对象被 标记到了old中,造成了old区过高,监控系统进行了报警,详细原因就不做详细分析了,主要分享一下问题排查的过程。

收到了监控系统的报警,在服务器上查询jvm内存情况

jstat -gcutil pid 时间间隔,可以按时间间隔打印jvm的内存情况,例如:

?
1
jstat -gcutil 30922 1000

一次Jvm old过高的排查过程实战记录

jvm进程30922的内存情况

大致说一下,s0,s1这些的含义:

s0:年轻代中第一个survivor(幸存区)已使用的占当前容量百分比
s1:年轻代中第二个survivor(幸存区)已使用的占当前容量百分比
e: 年轻代中eden(伊甸园)已使用的占当前容量百分比
o: old代已使用的占当前容量百分比
p: perm代已使用的占当前容量百分比
ygc: 从应用程序启动到采样时年轻代中gc次数
ygct:从应用程序启动到采样时年轻代中gc所用时间(s)
fgc: 从应用程序启动到采样时old代(全gc)gc次数
fgct:从应用程序启动到采样时old代(全gc)gc所用时间(s)
gct: 从应用程序启动到采样时gc用的总时间(s)

从内存情况,来看,s0、伊甸园已经被打满,old已经被打满,排除了是大对象实例过多直接把old打满的情况,继续分析

查看应用启动的jvm参数

-xms2g -xmx2g -xmn1g -xss1024k -xx:permsize=256m -xx:maxpermsize=512m -xx:parallelgcthreads=8 -xx:+useconcmarksweepgc -xx:+useparnewgc -xx:+useconcmarksweepgc -xx:+usecmscompactatfullcollection -xx:survivorratio=4 -xx:maxtenuringthreshold=10 -xx:cmsinitiatingoccupancyfraction=80

说两个参数的含义吧

xx:survivorratio=4,这个参数的意思是survivor两个区与新生代的比例,设置为4的意思是两个区与新生代的比例为2:4,maxtenuringthreshold=10, 这个参数的意思是对象标记多少次后记为old对象,放入到老年代中,设置为10就是新生代对象被标记10次还没有释放,就放到老年代中,从参数上看,造成old区过高报警的原因是有的对象在新生代中,被标记了10次都没有被释放,被放入到了老年代中,造成了老年代过大,fgc频率过高

经朋友指点,这一块的分析有问题,有问题的分析留着,再贴一下朋友的分析,对比一下

动态对象年龄判定:为了能更好地适应不同程度的内存状况,虚拟机并不是永远地要求对象的年龄必须达到了maxtenuringthreshold才能晋升到老年代,如果在survivor空间中相同年龄的所有对象大小的总和大于survivor空间的一半,年龄大于或等于年龄的对象就可以直接进入老年代,无须等到maxtenuringthreshold中要求的年龄

一次Jvm old过高的排查过程实战记录
朋友的指导

导出dump文件,使用jvisualvm.exe查看

导出dump文件的过程就不赘述了,简单贴一下命令

?
1
jmap -dump:format=b,file=servicedump.dat pid

jvisualvm是一个jdk自带的内存分析工具,一般位置在jdk安装目录下:

?
1
c:\program files\java\jdk1.8.0_141\bin\jvisualvm.exe

一次Jvm old过高的排查过程实战记录

jvisualvm工具界面

在这选择已经导出的dump文件,查看内存中类的实例数、实例大小

一次Jvm old过高的排查过程实战记录
查看类的实例数

发现是char[],string,hashmap这三个的实例是jvm中最多的,实例数分别占31%、30.9%、30.2%,总共占了92.1%,实例的大小分别占35.8%、14.6%、22.4%,总共占了72.8%,主要是这三个类的实例占用过大的内存

查看char[]的实例信息

点击去,查看char[]的实例信息,从大到小的排列

一次Jvm old过高的排查过程实战记录
有一些实例比别的实例大很多

查看最大的这些实例,发现这些实例里面的内容是

?
1
<graph linethickness='3' showvalues='0' formatnumberscale='1' anchorradius='3' divlinealpha='20' divlinecolor='cc3300' divlineisdashed='1' showalternatehgridcolor='1' alternatehgridalpha='5' alternatehgridcolor='cc3300' shaowalpha='40d' chartrightmargin='3..

目测这些都是前端使用的图表所用到的数据,设计不合理,这些图表的html代码由后台代码给前端返回了

一次Jvm old过高的排查过程实战记录
实例里面的内容

查看这些实例的堆栈信息

查看这些实例的垃圾回收根节点

一次Jvm old过高的排查过程实战记录
查看这些实例的垃圾回收根节点

发现是根节点是 stringbuilder对象,查看堆栈信息

一次Jvm old过高的排查过程实战记录
查看堆栈信息

一次Jvm old过高的排查过程实战记录

堆栈信息

通过堆栈信息,就定位到了代码中,分析代码,原因基本是,原来的设计方案有问题,给前端返回的数据里面包含了大量的html代码,从存储中拿数据的过程、拼接数据的过程过于漫长了,造成了大量对象的生命周期过长,对象被 标记到了old中,造成了old区过高,这里就是是分享下,排查的过程,不对原因过于详细的表述了

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对服务器之家的支持。

原文链接:https://www.jianshu.com/p/f04c04ed462f