flume-kafka-storm日志处理经验

时间:2022-09-11 18:21:49

转自:http://www.aboutyun.com/thread-9216-1-1.html

使用Storm处理事务型实时计算需求时的几处难点: http://blog.sina.com.cn/s/blog_6ff05a2c0101ficp.html

最近搞日志处理,注意是日志处理,如果用流计算处理一些金融数据比如交易所的行情数据,是不能这么“粗鲁”的,后者必须还考虑数据的完整性和准确性。以下是在实践过程中的一点点小总结,提供给日志分析的盆友参考,也欢迎大家来分享您遇到的一些情况:

(一)
flume到kafka的实时数据优于单条过快,造成storm spout消费kafka速率跟不上,这个延时主要是数据发射到stream中后进行hbase的计算操作引起的(这部分已经用内存计算进行优化处理)。分析tuple的特点,tuple每条log都很小,数量大,如果用现在的spout,会照成tuple在stream中的大量堆积,造成超时自动回调fail()的函数(但是其实这里不影响结果)。

storm的几个特点参考http://www.aboutyun.com/thread-8527-1-1.html
(1)storm单条流水线的处理能力大约为20000 tupe/s, (每个tuple大小为1000字节)
(2)storm系统本省的处理延迟为毫秒级,Jvm GC一般情况下对系统性能影响有限,但是内存紧张时,GC会成为系统性能的瓶颈。
实践中我们发现,tuple过多,由于kafka的message需要new String()进行获取,会报gc的异常。
以上的一些情况和现象,我觉得可以进行多tuple结构的优化,对多个log打包成一个tuple进行发射处理。
不过,就一般情况而言,单条发射已经足够速度很效率

(二)
kafkaspout获取的数据,就我的业务而言,不需太注重数据的完整性,所以,在整个stream中,避免使用ack和fail的,即spout获取到数据后,发射出去就不再关心这条数据是否被正确处理或者超时等情况

(三)
有一个误区,曾经又一次控制了spout获取的速率,发现fail的数量基本很少,但是在一次补数据的时候,spout获取了千万条基本的数据,而bolt有一个业务是频繁交互hbase,造成了stream中的数据大量堆积和延时,ui显示fail的数量巨大,开始以为是处理失败造成的,后来对比数据发现,计算结果并没有多少失误,猜想可能就是因为超时回调了fail函数。

(四)
落地为hbase的,虽然hbase的效率已经不错,但是发现,对于某些业务,仅仅采用hbase,还是有较大的延时,因此,可以将一些经常使用的数据表同步到内存中,可以设计成map等结构进行计算,关键点是要同步hbase,不然storm或者work挂了后启动就会有计算失误了。

(五)
一些可能的BUG
(1)zk集群宕机,这个错误是很不应该的,但是,我出现了,造成了storm宕机,而且我的数据后端是hbase,所以所有计算都失败了,所以最好有一个监控系统可以检测zk、hbase、storm等基础平台工具,免得查错浪费时间;

(2)kafkaspout中有一个线程如果不断的从kafka中获取数据并new String()解析后发射,有可能报异常: java.lang.StringIndexOutOfBoundsException: String index out of range: 2,这个BUG不是必然,但是我偶然出现了,计划直接将Byte[]作为tuple进行发射到bolt中处理。

(3)可恶的INFO日志
由于开着INFO级别的日志配置,storm emit和ack的info日志太多,我这边1个小时差不多1g左右的日志,加上kafka消费端的请求日志,好几次都把磁盘刷爆了,导致服务器宕机,这个要严重注意,我目前的处理方法是吧info改成warn级别。不知道有没有更好的方法~

(4)开源kafkaspout
开源kafkaspout有好几个,git上有,但是有些对环境要求有约束,需要注意,如果是简单的,像我这样要求不高的应用,完全可以自己用kafka的消费实例进行开发。

flume-kafka-storm日志处理经验的更多相关文章

  1. 简单测试flume+kafka+storm的集成

    集成 Flume/kafka/storm 是为了收集日志文件而引入的方法,最终将日志转到storm中进行分析.storm的分析方法见后面文章,这里只讨论集成方法. 以下为具体步骤及测试方法: 1.分别 ...

  2. Flume+Kafka+Storm+Hbase+HDSF+Poi整合

    Flume+Kafka+Storm+Hbase+HDSF+Poi整合 需求: 针对一个网站,我们需要根据用户的行为记录日志信息,分析对我们有用的数据. 举例:这个网站www.hongten.com(当 ...

  3. Flume+Kafka+Storm整合

    Flume+Kafka+Storm整合 1. 需求: 有一个客户端Client可以产生日志信息,我们需要通过Flume获取日志信息,再把该日志信息放入到Kafka的一个Topic:flume-to-k ...

  4. 大数据处理框架之Strom:Flume+Kafka+Storm整合

    环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 storm-0.9 apache-flume-1.6.0 ...

  5. Flume+Kafka+storm的连接整合

    Flume-ng Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html ...

  6. flume+kafka+storm+mysql架构设计

    前段时间学习了storm,最近刚开blog,就把这些资料放上来供大家参考. 这个框架用的组件基本都是最新稳定版本,flume-ng1.4+kafka0.8+storm0.9+mysql (项目是mav ...

  7. 一次简单的springboot+dubbo+flume+kafka+storm+redis系统

    最近无事学习一下,用springboot+dubbo+flume+kafka+storm+redis做了一个简单的scenic系统 scenicweb:展现层,springboot+dubbo sce ...

  8. 【转】flume+kafka+zookeeper 日志收集平台的搭建

    from:https://my.oschina.net/jastme/blog/600573 flume+kafka+zookeeper 日志收集平台的搭建 收藏 jastme 发表于 10个月前 阅 ...

  9. Flume+Kafka+Storm+Redis 大数据在线实时分析

    1.实时处理框架 即从上面的架构中我们可以看出,其由下面的几部分构成: Flume集群 Kafka集群 Storm集群 从构建实时处理系统的角度出发,我们需要做的是,如何让数据在各个不同的集群系统之间 ...

  10. flume+kafka+storm

    centos06.6+JDK1.7 flume1.4+kafka2.10+storm0.9.3 zookeeper3.4.6 集群: 192.168.80.133 x01 192.168.80.134 ...

随机推荐

  1. Oracle重新装机后如何快速还原以前表和用户

    本人使用的oracle10g 首先拷贝以前的oradata 文件夹 一:重新创建oracle数据库后手动关闭oracle所有服务 二:将oradata中新创建的数据库目录改名,d:\app\user\ ...

  2. 30天C#基础巩固------集合,File(文件操作 ),Encoding处理字符集

    一:泛型    关于泛型我自己也不是很好的理解,但是具体的运用还是可以的,可以这样的理解,我们定义一个数组,但是不知道将来它是保存什么类型的值,很是矛盾,这个时候泛型就出现了,它可以解决这个场景,li ...

  3. 写在开始编写Java之前(2)——Java的环境

    上回说到Java具有跨系统性的特点 但是每个系统还是有其Java虚拟机,叫做JVM 其中Java运行环境(JRE)中就包括了JVM 假如你只要运行已经编辑好的Java语句,只要下载JRE就行了 但是作 ...

  4. Unity 改变类模板-为你的类添加一个命名空间

    之前在写代码的时候,就很疑惑为什么创建类的时候.没有命名空间呢?   后来自己的类终于和别人写的类名字有冲突.... 如何修改Unity创建类的模板呢?  找到下面这个文件 然后修改 保存文件在Uni ...

  5. EBS R12 修改 apps 密码[Z]

    注意:修改密码时应保证所有用户已退出, 最好是关闭应用实例.不用关闭数据库.在修改密码之前一定要改备下数据库中的FND_ORACLE_USERID和FND_USER表.FNDCPASS工具会自动把AP ...

  6. cocos2dx游戏开发学习笔记3-lua面向对象分析

    在lua中,能够通过元表来实现类.对象.继承等.与元表相关的方法有setmetatable().__index.getmetatable().__newindex. 详细什么是元表在这里就不细说了,网 ...

  7. CentOS配置smaba与Windows共享文件

    操作环境:CentOS 6.5 64bit Linux与Linux间通过什么共享文件呢--NFS,Windows与Windows之间呢--共享文件功能就OK了,那Windows与Linux之间呢? 这 ...

  8. CSV文件格式分析器执行:从字符串Split至FSM

    本文乃Siliphen原创,转载请注明出处:http://blog.csdn.net/stevenkylelee/article/details/38309147 本文分为5小节,基本上就是我刚接触C ...

  9. Android Weekly Notes Issue #248

    Android Weekly Issue #248 March 5th, 2017 Android Weekly Issue #248. 本期内容包括: 为什么有时候应该让你的应用崩溃(而不是一味保护 ...

  10. mybatis xml配置文件要点说明

    mapper映射方式: 1 一一具体列举的方式 2扫描package 如: <mappers> <!-- 告知映射文件方式1,一个一个的配置 <mapper resource= ...