Stata简介:Stata使用简单,功能强大,是数据分析中常用的统计计量软件。本人使用的是Stata14,如若需要,可评论留言!
1 Stata基本描述
1.1主窗口
如图所示,Stata大致可以分为五个部分。
最上面是菜单栏,或者成为工具栏,功能栏,包括file,Edit,Data,Graphics,Statistics,User,Window,Help八个主要菜单,其中每个菜单下又有新的菜单。
左边是历史命令区,历史命令会在这里显示。
中间最大的区域是结果窗口,显示执行Stata命令之后的结果。
结果窗口下面的Command是命令窗口,在这里输入 。
最右边是变量窗口和属性窗口,显示当前变量和属性。
左下角显示当前路径。
1.2 数据编辑器
可以通过菜单栏Data->Data Editor->Data Editor打开数据编辑器,导入数据的方法有两种,第一种最简单粗暴,直接通过Excel复制粘贴过来,另外一种方式是File->Impot->spreadsheet(*xls;*xlsx)。
1.3 变量管理(Variables Manager)
可以通过Window->Variables Manager打开变量管理器,可以编辑变量名,标签,变量类型,格式等;
2 Stata基本命令
2.1 数据审视(describe)
2.1.1数据描述
.describe[varlist] [, memory_options],可以查看变量的类型,显示格式,变量标签和变量值的标签。
2.1.2数据列表
.list [varlist] [if] [in] [, options],查看变量的具体数据。
当结果太长,会以more的方式显示,如果关闭more分页显示,可以用set more off,这样就不会分页显示了,如果想要打开,set more on。
.list [varlist] [if] [in] [, options],中if 和in是条件控制,如查看1-5个r变量,可以 .list r in 1/5。
如果要查看r>5000的r值,可以 .list r if r>5000。
2.1.3 数据删除
.drop [varlist][if],用该命令来删除数据。
2.1.4 数据排序
.sort varlist [in] [, stable],对数据进行升序排列,降序排列使用命令,.gsort -varlist [in] [, stable]
如按s从小到大升序排序:
如果要按照降序排列,可以.gsort -s。
3 画图
3.1 直方图
.histogram varname [if] [in] [weight] [, [continuous_opts |discrete_opts] options],直方图。
比如想要画变量support的直方图,可以.histogram s。
3.2 散点图
[twoway] scatter varlist [if] [in] [weight] [, options],散点图。
如想要画变量r的散点图,,可以scatter r。
其中,如果想要在散点图上标注是哪个观测值,可以 .gen n=_n
.scatter r,mlable(n),
_n表示第n个观测值,mlable表示以n作为标签。
3.3 连线图
[twoway]line varlist [if] [in] [, options]
通过line可以画连线图,如要画x与y之间的折线图 line y x
:
3.4 阴影图
twoway area yvar xvar [if] [in] [, options],阴影图。
options Description vertical vertical area plot; the default horizontal horizontal area plot cmissing(y|n) missing values do not force gaps in area; default is cmissing(y) base(#) value to drop to; default is 0 nodropbase programmer’s option sort sort by xvar; recommended
如要画x和y的阴影图,输入命令: twoway area y x
4 统计分析
4.1 summarize
summarize [varlist] [if] [in] [weight] [, options]
options Description
-----------------------------------------------------------
Main
detail display additional statistics
meanonly suppress the display; calculate only the mean;
programmer's option
format use variable's display format
separator(#) draw separator line after every # variables; default is
separator(5)
例如要统计s变量,则输入命令: summarize s
su
:
此结果显示所有变量的统计项,包括样本容量,均值,标准差,最小值和最大值。
4.2 tabulate 经验累积分布函数
tabulate varname1 [varname2] [if] [in] [weight] [, options]
.ta y
显示y变量频数,百分比和累积百分比。
4.3 generate 生成新变量
generate [type] newvar[:lblname] =exp [if] [in] [, before(varname) | after(varname)]
4.4 display 计算功能
display
例如 dispaly 2^2
结果为:4