garmadon:Hadoop和框架的Java事件日志收集器

时间:2024-06-06 17:25:43
【文件属性】:

文件名称:garmadon:Hadoop和框架的Java事件日志收集器

文件大小:9.68MB

文件格式:ZIP

更新时间:2024-06-06 17:25:43

Java

Garmadon:Hadoop集群自省 Garmadon是Criteo的针对Hadoop集群实时自省的自制解决方案。 正如已经使用Hadoop人所知道的那样,尽管特定于日志和框架(例如,Spark驱动程序的UI),但是很难从集群上正在运行的内容中获取信息。 当应用程序意外失败时,获取该信息会变得更加困难。 为什么我的集装箱被杀死? 我的容器尺寸是否正确? 卡在此应用程序上的容器怎么了? 哪个应用程序通过namenode上的过多负载来减慢HDFS层? 在Criteo,我们需要快速解决这些问题(还有更多),同时每天要运行数百万个容器。 Garmadon从运行中的Java容器和Hadoop主要组件生成有关JVM统计信息(编译时间,GC,热锁等),框架特定信息(Spark)和Hadoop特定事件(NodeManager的容器监视,yarn的应用程序状态,hdfs)的事件流电话等)。


网友评论