2014年大数据年终工作总结

时间:2021-07-28 16:53:30

2014年大数据年终工作总结


    今天是圣诞节,2014年马上要过去了。回顾这一年在大数据研发上的点点滴滴,总结如下三个方面:
一、大数据研发技术路线
        目前,存在太多的大数据技术,商业软件,如Teradata、Oracle、SAP、IBM等。开源的,如Hadoop、Spark、MPP DB、NewSQL等。在大数据领域,Hadoop呈一支独大势。经过这段时间的学习和了解,发现Hadoop技术复杂,架构复杂,社区版成熟度可能也就80%左右。要想把Hadoop玩转起来,可能需要投入巨大的成本来完善。Cloudera的
CDH也仅是增强了稳定性和易用性,还远未达到商业软件可靠性和易用性的程度。
        公司选择了与Cloudera合作的战略,这点在国内市场上还前途未卜。Spark在快速升级,增加了很多功能,性能也有很大提升,但实际使用还很少。Cloudera对Spark支持也
很有限,定位也很模糊。这可能是因为和自己的Impala功能上有冲突所致。前段时间介绍了朋友的MPP DB技术,公司对此兴趣不大,可能是因为朋友公司知名度还不够吧。
        目前,国内的情况是客户对大数据看好,但创新意识程度不够,乙方在强打大数据牌,但缺乏实际项目经验,而大数据的现状决定了必须在实际项目中优化才能在生产中使用。也就是说,大数据不单是个研发项目,更是个研发+运维的持续优化过程。而这点,恰是乙方传统的项目管理方式所缺乏的。
二、大数据研发的创新所在
        国内的公司纷纷打出大数据产品的旗号,往往浪费了人力、物力却收获甚微。为什么呢?一个很大的原因是好高骛远所致。搞技术不是做咨询、也不是做售前,需要积累、沉淀和创新,而这些绝非一蹴而就。目前,在国人的拿来主义驱使下,大数据的基础架构这块基本没有创新能力,也没有创新动力。做这块,基本是举步维艰。如果真要做的话,我觉得在大数据基础架构这块可以关注Julia+GPU+分布式这块。
        目前,在大数据上层应用来说,数据集成、数据建模和挖掘建模还几乎是空白。在可视化上,还大有可为。但这块传统上是国外厂商的强项,也不看好这块。
        除此之外,能够出彩的地方就是大数据行业应用了。朋友做过移动基于信令的小区热点分析和交通拥堵分析,确实做到了过去想做所未能做到的。这点,确实是个极大的进步。这还只是大数据的统计查询而已,对大数据的挖掘才能体现出大数据的价值。在大数据挖掘上,期待能有更好的工具软件和行业热点你出现。
三、个人关注的领域
        目前,工作上更多的是电信行业的大数据应用。个人更关注大数据在企业中的应用,并着力推进这方面的应用。现在正和朋友策划用大数据技术来代替SAP HANA,以实现企业数据仓库/BI的数据统计查询功能。

       以上是本人在2014年的年终总结。希望用大数据技术代替HANA的构想在2015年能够实现,并获得极大的成功。也希望2015年能在移动大数据应用上能有所突破。在此与各位在2015年共勉!