系统学习大数据应该遵从《数据科学》的学习路径,从理论出发,延伸至实践中的技术:
第一层次:感性认识,判断方向。
阅读大数据领域与产业链的书籍,如:《大数据时代》、《数据之美》; 英文能力不错的同学还可阅读英文的科技类期刊杂志,如《麻省理工技术评论》(MIT Technology Review)、《新科学家》(New Scientist)、《美国电子电气工程师协会月刊》(IEEE Spectrum)等。从中可以获得感性认识,了解大数据科学、产业、就业在全球的趋势,判断自身兴趣是否真在大数据上(你想做个研究人员还是IT从业者?)。同时查阅相关大数据培训的学习路径图(可能99%的结果都只会告诉你一个大数据IT技能的培训路线图)
第二层次:理论学习,编程实践。(耗时最长)
可参考美国问答网站Quora上精华帖:
What is a data scientist?
How can I become a data scientist?
What is it like to be a data scientist?
系统学习网络课程中的《数据科学》课程,如:Coursera及其他网络资源上的哈佛的 CS109 《数据科学入门》、华盛顿大学的《数据科学导论》,严格按照课程进度,观看视频、学习Python、学习统计学知识、数据挖掘、机器学习、人工智能的知识,阅读相关教材,完成习题,特别是应用Python编程的习题,进一步完成迷你、小、中、大项目,积累大数据领域从理论到小应用的经验。
第三层次:IT技能
学习以Hadoop/MapReduce为核心的计算机技术,力争能够研读原创性的论文,同时深入学习数据库原理与概念,利用网上各类开源资源,学习、熟悉、掌握和运用大数据相关的数据库技术,以及背后的思维与创意。
第四层次:实践项目
在网络上或与相关朋友开发一两个大数据相关的小型项目,如:股票交易数据挖掘、QQ群聊天纪录语义数据挖掘等,争取开发能够使用的软件或网页界面,将理论进一步应用到实际问题中。
第五层次:找份大数据的工作
对于大专院校的研究生,可以找相关的科研项目代替,以亲身体验大数据产品开发的难度。至于IT技能类的码农工作,只能说,与大数据相关,但不是数据科学的工作。大数据产业在中国的气候尚未形成,就好像00年代的云计算一样,很热,但大家都不知道有什么样的岗位和需要什么样的知识与技能(Hadoop类除外)。
从IT产业发展的趋势来看,“大数据”以及这一概念所衍生的相关产业无疑将带领全球走入下一个信息时代,尤其以大数据与特定行业、细分领域的交叉,迸发出的机会将无可限量。目前已经可以看到,在大数据的收集、储存、分析、应用上已经涌现了一大批出色的企业(《2014年10家最酷的大数据创业公司》
The 10 Coolest Big Data Startups Of 2014) 和优秀的人才(《2014年全球最顶尖大数据人才 Top 20》
http:///archives/)。
它的理论根基——数据科学——一个集数学、统计学、物理学、计算机科学、工程学、经济学等交叉学科大成的跨学科领域,将从根本上决定一名从业者、一家企业、一个国家能在此产业上走多远、攀多高、创多少财富。满腔热情、孜孜不倦、扎扎实实、从低学起、务实求真、严格认真,全面、系统地学习数据科学,是每个有志进入或已经身处大数据领域的从业者应有的态度。
“态度决定高度”,以此共勉!