问题的发现过程是这样的,一些硬件设备上传的实时设备信息客户端不能展现,于是查询日志,发现数据时间延迟非常严重,后台逻辑把这些数据当作过期数据扔掉了,所以没有进入实时数据的服务(此服务是单独部署的)。
于是开始查问题,难道原始数据就是过期的?鉴于北京的雾霾天可能对北斗(PS:我们主要是设备的北斗位置数据)产生影响,所以首先查看了北斗接收的数据,结论是无误。
再查看数据库的日志,数据库插入前数据严重滞后,怀疑可能是数据积压太多,插入缓慢。
而我们的后台逻辑是插入数据库成功后才进入实时数据服务,所以进入实时服务的数据也滞后。
另外,实时数据服务有一个检查时戳的协程,如果数据过期就踢掉。
至此,大概的问题就找出来了,实时服务踢掉了数据,客户端查看实时信息当然看不到。
另外还出现了问题是数据回放的请求响应极慢,30秒级别。
开始排查可能造成此问题的原因~
代码貌似正常,后端开发拍了胸脯,过了一遍逻辑确实没什么问题。
那就看看部署问题吧
top一看,CPU竟然用了100%,全被mongod这个占用了。
开始google,baidu。。。
直到看到这篇文章:http://m.blog.csdn.net/blog/roler_/40107751
我们业务的特点是数据量大,实时性要求高,很多数据是根据ID和时戳来进行的业务。
于是把所有用户的实时数据均针对ID和时戳加了索引。
主要用到的命令如下:
db.XXX.getIndexes()查看索引
db.XXX.ensureIndex({id:1})设置索引
CPU瞬间降下来了。
目前还得观察,不过我想问题已经解决了~
出现问题不可怕,主要是通过学习去解决它,我现在想找个靠谱运维,帮我做这些事,欢迎大家骚扰。