R语言的优劣势

作者：私言
链接：https://www.zhihu.com/question/19611094/answer/26621919
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

就一个R和SAS精通程度几乎相同，在两种环境下都做过比较大（moderately big, ~xx Gb）的数据分析，与其他语言环境嵌合（SQL, Perl, etc...）使用过的个人（统计专业人员，非编程专业人员）的感受而言：

R的优点：
1. 免费... 开源... （这是最重要的一点好不好，也是SAS流行于公司，R流行于研究机构和大学的最主要原因）
2. 是专门为统计和数据分析开发的语言，各种功能和函数琳琅满目，其中成熟稳定的一抓一把
3. 语言简单易学。虽与C语言之类的程序设计语言已差别很大（比如语言结构相对松散，使用变量前不需明确正式定义变量类型等等），但仍保留了程序设计语言的基础逻辑与自然的语言风格。我这样说可能让人听得云里雾里，但是如果你对SAS或者SPSS有一点点了解，就会明白我的意思了...
4. 小... 安装程序只有50Mb左右，比起某些死贵且3个G的付费软件真的是超级迷你小巧玲珑... 因为体积轻便，运行起来系统负担也小。
5. 同各种OS的兼容性好。我两台本本一台Windows，一台Linux，都用得很顺手。相比之下，你有见过人在Mac上用SAS吗... 这人是要多么的想不开... =. =
6. 因为用的人越来越多，又是开源，有很多配套的“插件”为其锦上添花。比如xtable里有一个函数可以直接将R里的表格导出为TeX格式；另有RStudio的插件让你可以在同一个环境里写TeX跑R并可在你的TeX文件中插入你的R代码，多么的贤良淑德... （这个插件我没用过，不过我同学一天到晚在用）
7. 有R GUI和RStudio两种风格供君选择，说实话我觉得这两种风格已经涵括了大多数人的使用偏好...
8. 已经提过了开源，还想再强调一下。各种包和函数的透明性极好，这使得对函数的调整和改良变得非常便利。只需要把源码调出来，自己稍微修改一下就可以了。这种事情放在任何其他统计软件里都近乎奢望。
9. 如果你做Bayesian，用R你有OpenBUGS, WinBUGS, JAGS等各种成熟活泼的包裹，很多语言又简单又附带各种预设的plot，你只需调用即可；还可以自己写MCMC。如果你用SAS/SPSS/Stata，你可以... @@? = =bbb
10. 漂亮又灵活的图，大家也都已经讲过了。原本不是什么特别突出的长处（有则好，没也没啥），不过现在数据可视化越来越热，也就一跃成为主要优点了。

说说缺点：
1. 对大文本（text data）处理极差... 或者说data management本就不是R的强项。SAS于R的最大优势之一可能就在于它兼顾了数据分析和数据管理。在SAS里对数据进行各种复杂操作都相对容易，只需要简单的DATA STEP（必要时结合PROC SQL）即可完成；在R里可就真的是千辛万苦... 虽然也有相应的aggregate, merge之类的函数，但是大都不太好用。这也是为什么大家常常把数据（尤其是数据大时）在别的环境下整好/分割好再喂给R。人家术业有专攻，数据管理真是有些难为它了。
2. 内存管理和平行处理（parallel processing/programming）都为人诟病。数据小时没有感觉，数据大了就各种报错... =. =
3. package的可靠性问题。我第一门完全使用R做作业的课是门统计课，教授已经六十多岁，见过各种统计软件的出生发展和湮没。她同我们说到R时第一句话就是Never use a package before you understand the manual and confirm the validity of the functions. 也就是包裹虽然好，使用需谨慎。主要原因还是在于开源。不常用的package一定要搞清楚函数的用法和核实过输出，不然真的不推荐使用。我个人也是倾向非常用函数尽量自己写，至少错了也容易debug...
4. 不得不提的package的版本问题。就算你确认了包裹的可靠性并熟知了各个变量要怎么用，还是可能掉入潜在的陷阱=. = 讲个真事：去年工作的时候一个项目是使用11年某项目的一个贝叶斯模型分析新的数据。当年写代码的人因为相信末日说两年前就已经辞职环游世界去了，于是我只好独自研读他的代码。第一步，很自然的，就是重复当年的分析结果。这时发现当年他用的一个package和现在的R已经不兼容，于是就下载了这个package的最新版本。结果有一个简单的credible interval怎么都重复不出来... 怎么怎么都重复不出来... 我都快绝望了。最后经各种推理验证，发现这个区别源自于新旧版本的函数内部在对数据排序之后对NaN的不同处理... 而这个小小的修改未在任何地方留下任何文字记录。所以怎么说呢... 很多时候还是写自己的程序靠谱哇...
5. 当你跑比较大的simulation，对效率有要求的时候，有时还是不得不用C，这可能是10小时和10分钟的差别，毫不夸张。

秒客网

R语言的优劣势

相关文章