面板数据分析与Stata应用笔记整理自慕课上浙江大学方红生教授的面板数据分析与Stata应用课程,笔记中部分图片来自课程截图。
笔记内容还参考了陈强教授的《高级计量经济学及Stata应用(第二版)》
一、面板数据的定义
面板数据(panel data或longitudinaldata),指的是在一段时间内跟踪同一组个体(individual)的数据。它既有横截面的维度(n个个体),又有时间维度(T个时期)。是同时在时间和截面上取得的二维数据,又称时间序列与截面混合数据(polled timeseries and cross section data)。
一个T=3的面板数据结构如下所示
二、面板数据的分类
面板数据类型通常分为三类,分别为:
a.短面板数据与长面板数据
b.动态面板数据和静态面板数据
c.平衡面板和非平衡面板
(1)短面板数据与长面板数据
当截面数n大于T时,即为短面板数据;
当截面数n小于T时,即为长面板数据.
(2)动态面板数据和静态面板数据
如果解释变量包含别解释变量的滞后值,则为动态面板数据,反之则为静态面板.
(3)平衡面板和非平衡面板
当每个个体在相同的时间内都有观察值记录,即为平衡面板,反之则为非平衡面板。
三、面板数据的优缺点
1、面板数据的优点
(1)可以处理由不可观察的个体异质性所导致的内生性问题。
(2)提供更多个体动态行为的信息。
(3)样本量较大,可以提高估计的精确度。
2、面板数据的不足之处
(1)大多数面板数据分析技术都针对的是短面板。
(2)寻找面板数据结构工具变量不是很容易。
四、面板数据模型
面板数据模型分为非观测效应模型和混合回归模型两类。存在不可观测的个体效应模型即为非观测效应模型,反之则为混合回归模型。
(1)非观测效应模型
a.固定效应模型
b.随机效应模型
Yit=βxit+αi+εiti=1,⋯,n;t=1,⋯,T
其中, αi 是不可观测的个体效应。
如果 αi 与某个解释变量相关,就是固定效应模型
如果 αi 与所有解释变量不相关,则为随机效应模型
固定效应模型又分为:单向固定效应模型与双向固定效应模型
单向固定效应模型:只考虑个体效应不考虑时间效应;
双向固定效应模型:同时考虑个体效应和时间效应,即
yit=βxit+λt+αi+εit
(2)混合回归模型
如果 αi=0 ,即不存在个体效应,则为混合回归模型,即
Yit=βxit+εiti=1,⋯,n;t=1,⋯,T
五、面板数据模型的估计
1、固定效应模型的估计
对固定效应模型的估计有两种方法:
固定效应变换(组内变换)与LSDV(最小二乘虚拟变量法)
a.固定效应变换(组内变换)
固定效应变换的优缺点
优点:即使个体效应与解释变量相关也可以得到一致估计;
缺点:无法估计不随时间而变的变量的影响。
#对固定效应变换无法估计不随时间而变的变量的影响的解决
固定效应模型的Stata的实现命令为:xtreg y x, fe
引入时间效应的双向固定效应的Stata的实现命令为:xi: xtreg y x , fe
#数据来自慕课浙江大学方红生教授的面板数据分析与Stata应用课程(xtreg y x, fe)
#数据来自慕课浙江大学方红生教授的面板数据分析与Stata应用课程(xi: xtreg y x , fe)
(最小二乘虚拟变量法)
#LSDV的基本思想
LSDV的Stata的实现命令为:
不存在时间效应:reg y x
存在时间效应:xi: reg y x
#数据来自慕课浙江大学方红生教授的面板数据分析与Stata应用课程(reg y x )
#数据来自慕课浙江大学方红生教授的面板数据分析与Stata应用课程(xi: reg y x )
2、随机效应模型
对随机效应模型的估计方法是广义最小二乘法
随机效应模型估计的Stata命令
不存在时间效应:xtreg y x ,re
存在时间效应:xi: reg y x ,re
短面板数据估计的同时,还需要考虑三大问题
即,误差项的异方差、误差项的自相关、截面相关问题
- 通过在命令中加入选项“robust”可以获得White稳健标准误,可以解决异方差的问题。
- 在命令中加入选项“cluster”可以获得Rogers标准误或聚类稳健的标准误,可以同时解决异方差和自相关两大问题。
- 使用命令xtscc可以同时解决三大问题,提供Driscoll-Kraay标准误。