数据挖掘常用的语言有R语言,python,SQL等,其中R语言最受欢迎。(注:SQL Server包含微软研究院开发的两种数据挖掘算法:Microsoft决策树和Microsoft聚集,此外还支持第三方开发的算法。)
R语言是由统计学家开发的,一款开源免费的统计绘图语言,可以提供数学统计分析,允许用户开发的包进行扩展,同时可以进行数据可视化,兼容多种格式的输入输出。
在CRAN(Comprehensive R Archive Network,里面收藏了R的安装包,文档及大量的软件扩展包)base下找到安装包(https://mirrors.tuna.tsinghua.edu.cn/CRAN/),安装。然后下载RStudio(https://www.rstudio.com/products/rstudio/download/),安装。打开RStudio,如下:
RStudio是一款跨平台的R语言IDE,把绘图和展示等窗口整合在一起,不用来回跳转,方便很多。RGUI是R自带的IDE,如下图:
R软件包是R里面的函数,编译后的代码和样本数据的集合。它们是存储在在R环境下的 “library” 目录下。默认情况下R安装过程中会安装基本的软件包。其他的包需要以后添加,当需要为某些特定目的使用时。
每个R软件包包括R函数、数据、帮助文件、描述文件等,base是基础功能包。软件包的安装方法有两种:
1.联网下载。用函数install.package(),如install.packages("MASS")。
2.手动下载。下载完后用install.packages(file_name_with_path, repos = NULL, type="source") 安装,如 install.packages("E:/XML_3.98-1.3.zip", repos = NULL, type="source")
R语言的数据类型主要有numeric数值型,integer整数型,logical逻辑型,character字符型,factor因子型。
factor因子型是以数字代码形式表示字符型数据(本质是定性数据,但用定量数据表示),如下所示:
> sex=factor(c(1,1,0,0,1),levels=c(0,1),labels=c("male","female")) > sex [1] female female male male female Levels: male female >