【文件属性】:
文件名称:garmadon:Hadoop和框架的Java事件日志收集器
文件大小:9.68MB
文件格式:ZIP
更新时间:2021-05-17 23:39:03
Java
Garmadon:Hadoop集群自省
Garmadon是Criteo的针对Hadoop集群实时自省的自制解决方案。
正如已经使用Hadoop人所知道的那样,尽管特定于日志和框架(例如,Spark驱动程序的UI),但是很难从集群上正在运行的内容中获取信息。 当应用程序意外失败时,获取该信息会变得更加困难。
为什么我的集装箱被杀死?
我的容器尺寸是否正确?
卡在此应用程序上的容器怎么了?
哪个应用程序通过namenode上的过多负载来减慢HDFS层?
在Criteo,我们需要快速解决这些问题(还有更多),同时每天要运行数百万个容器。
Garmadon从运行中的Java容器和Hadoop主要组件生成有关JVM统计信息(编译时间,GC,热锁等),框架特定信息(Spark)和Hadoop特定事件(NodeManager的容器监视,yarn的应用程序状态,hdfs)的事件流电话等)。