网数据的十二大特点:
1.数据是时序的,一定带有时间戳;
2.数据是结构化的;
3.数据极少有更新或删除操作;
4.数据源是唯一的;
5.相对互联网应用,写多读少;
6.用户关注的是一段时间的趋势,而不是某一特点时间点的值;
7.数据是有保留期限的;
8.数据的查询分析一定是基于时间段和地理区域的;
9.除存储查询外,还往往需要各种统计和实时计算操作;
10.流量平稳,可以预测;
11.往往需要有插值等一些特殊的计算;
12.数据量巨大,一天采集的数据就可以超过100亿条。
大数据架构,采集进来的数据先进Kafka, 然后分流进HBase/Cassandra/MongoDB等做持久化存储,进Redis做缓存,进Spark/Flink等做流式计算,后面再接应用、大屏展示等等。
数据分析的两个流程:
实时分析流程:业务数据、消息队列、Storm实时编程、Redis、数据展示(秒级计算)
离线分析流程:不同数据源获取数据、Hadoop集群数据、计算(Hive、Spark、MapReduce)、数据展示