公元前
2007年上半年的一天,一堆做基因组序列分析的代码让我认识了R语言。那是一份高质量的R代码,各种标准的向量化操作、匿名函数、优美的代码格式让我欣喜,也让我茫然。同年暑假,有幸到清华大学学习,刘军老师布置下来的作业是用HMM模型预测蛋白质二级结构。壮着胆子,硬着头皮以C语言的风格,用R语言完成了作业(各种循环,各种丑陋的变量,皆拜)。
那时候,R语言所有的参考资料就是官方的几本手册,但庆幸的是,还有丁国徽博士翻译的中文版。
公元纪年开始
2008年的初冬,北京市海淀区中国人民大学的一间阶梯教室内,举办了一场小众、既不太学术技术档次也不高的会议。教室外的墙上挂着一条横幅,上书“第一届中国R语言会议”。这算是R语言在国内发展历程中的一个里程碑。100多人参加了为期一天多的会议。参加那次会议的人不少都成为了现在中国R语言社区最活跃的人,比如谢益辉、刘思喆、李舰、张翔、魏太云、陈堰平等人。当然,其中也有当时就已经算是R语言社区元老的吴喜之老师和丁国徽博士。
没记错的话,当时出席会议的还有机械工业出版社的编辑。因为作为会议的承办机构,统计之都社区(http://cos.name)的骨干们已经想通过出版一本高质量R语言书来推动R语言在中国的发展,而出版界也已经开始注意这个小众市场。那时候,大部分R语言书籍来自学术界。水平高深莫测的专家教授们,乃至R语言的发明人写出来的书,让我这种初窥门径的人越看越糊涂。同时,中文的R语言书籍也开始出现,但都只是将R语言作为某个特定领域(比如生物信息学)的数据分析工具。
文艺复兴
会议举办了,人也都混了个脸熟,但R语言在国内的发展依旧不温不火。直到2011年,大数据突然火了起来,R语言一举杀进编程语言排行榜前20名。刘思喆同学在“码农”界主流媒体《程序员》上的文章,让R语言一下子走到了很多人面前。大家发现,这个经常被描述成统计编程语言的东西并不仅仅擅长于统计,其底层融合C/C++/Fortran等各种语言的优势、层出不穷的新模型、日趋成熟的开发设施,再加上它跟Hadoop、多核计算、MPI等高性能计算技术的迅速结合,让人们看到了它在大数据时代的潜力。
O'Reilly、Manning等技术图书出版商迅速跟进。与以往的学术出版社不同,它们的加入让R语言书籍更容易被普通读者接受,也迅速降低了R语言的门槛。
你现在翻开的这本书,就是由业内大名鼎鼎的Quick-R网站(http://www.statmethods.net)的创始人Robert I. Kabacoff撰写并由Manning出版的。全书分为四部分,由浅入深地介绍了R语言本身,以及如何用R语言实现或简单或复杂的数据分析和绘图。而书后8个附录中关于大数据分析、自定义启动环境、图形界面等方面的内容,有一些早已被翻译成中文在互联网上广泛流传。本书内容质量之高,权威性之强,由此可见一斑。
结束公元纪年
这本书的翻译工作开始的时候我还在学校读书,实验室有两三个人在使用R语言做数据分析,为发表论文而努力。现在,我坐在公司的工位上,周围的每个人都或多或少在使用R。整个研发部门一千多人,多半每天都会用到R语言。R语言已经是新员工技术培训的必修内容。
若干天前,同事们在讨论中描绘出一个宏大的愿景:用高效的数据分析手段,建立起海量生物实验数据到所有生物表型的预测模型。如果成功,这将结束公元纪年。这个愿景的核心不是新的生物实验技术,也不是如何采集样本,而是数据分析。
有点画大饼的意思了,就此打住。让我们翻开这本书,或许,公元纪年真的能在我们手中结束。