温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh
作者: 苗妙 (华南理工大学)
邮箱: miaomiao@scut.edu.cn
编者按:本文摘译自下文,特此致谢!
Source: Sun L. Implementing valid two-step identification-robust confidence sets for linear instrumental-variables models[J]. The Stata Journal, 2018, 18(4): 803-825. -Link-
目录
工具变量是解决内生性问题的有效方法。并且,要保证线性
使用「弱工具变量」虽然可以得到无偏估计,但由于这个「弱」工具变量所能提供的信息非常有限,导致我们在单次估计结果中可能存在很大的偏差。
举个简单的例子:(这部分内容由连老师补充)
李小明 报考了未来大学的金融工程方向的博士研究生,已经进入面试环节。巧合的是,面试官是他的一个多年未见的远房亲戚,他表舅 武吉 教授。显然,若是面试继续进行,李小明的分数必然会偏高。好在我们的武吉教授有远见,向院方提出回避请求。他担心如果隐瞒信息,日后被追究起来,他和小明都会受到影响。
院方不得不另找一位教授担任面试官。显然,新的面试官必须不认识李小明,同时又有能力面试一个金融工程方向的博士申请人。前者是「外生性」条件,后者是「相关性」条件。
在这个案例中,李小明可以视为干扰项
遗憾的是,院内的金融学教授都很忙,而面试又必须如期进行,无奈之下,只好找了位生物学方向的 蔡发 教授来面试李小明。结果可想而知。
显然,临时抱佛脚的 蔡发 教授与武吉教授有一定的相关性:他们都是未来大学的教授,都拥有博士学位,……。总之,院方可以找出很多理由来说明 蔡发 教授是一个可以「担任」面试官的人选 (虽然院方自己可能也觉得有些牵强)。
假设李小明的真实能力是 80 分。
若是让武吉教授来面试,小明的得分可能是 85 甚至更高;而 蔡发 教授的评分就有很大的不确定性了,可能是 90 (他崇拜一个懂得这么多数学知识的学生),也可能是 70 (因为他发现李小明连最基本的螺旋结构都不知道,也不清楚什么叫「实验偏差」)。
如此看来,武吉 教授的打分虽然一定会偏高,但基本上在一个可以预知的范围内 (教授通常都胆小,不像官员,所以武吉教授多给晓明 5 分都觉得自己已经斗胆做了一件天大的事情了)。反观生物学教授 蔡发 老师,他的打分有很大的不确定性,这决定于他提出问题,以及李小明对这些问题的反应。
当然,如果院方不差钱,请 100 位生物学、物理学、天文学 …… 教授分别面试李小明一次,再把这 100 个得分取平均,最终的得分可能会非常接近小名的真实得分 —— 80 分。这其实就是弱工具变量的「无偏性」:估计量的期望值等于真实值。遗憾的是,理论上的无偏性在现实面前显得很无奈,谁能做到这么豪气呢?
传统
尽管可以通过汇报稳健的置信集缓解上述问题,但我们依然想测量工具变量的识别强度。一个较为常用的识别强度方法是,依据两阶段最小二乘法 (2SLS) 中第一阶段中的 F 检验判断。根据 Stock 和 Yogo (2005) 计算出的经验规则 (rule of thumb),如果此检验的 F 统计量大于 10,则可以拒绝弱工具变量的原假设,进而不用担心弱工具变量问题,并报告通常的 Wald CS;反之,则需要报告稳健的 Wald CS。
上述方法在实证中十分常见,但研究者们通常会忽视 F 统计量所要满足的同方差假定。如果数据是异方差、聚类或者序列相关,上述方法就会存在严重的覆盖扭曲 (coverage distortions),即置信集没有很好地覆盖真实参数
Note:对于单一的固定参数
twostepweakiv
是 Andrews (2018) 识别强度测量方法的 Stata 实现命令。该命令是对已有命令 weakiv
(Finlay 等,2014) 的改进,可以测量工具变量的识别强度。
接下来,本文将介绍 twostepweakiv
命令的理论、语法、以及应用。
当传统的 Wald F 检验不满足同方差条件时,其所用的置信集便是不稳健的。当设定了覆盖扭曲为
Note:覆盖概率是指能够覆盖真实参数的概率,一般通过模拟的方法可以估计置信区间的覆盖概率。覆盖概率在大样本或是样本符合正态分布的时候才会等于置信水平。如果数据是小样本或是不符合正态分布,由于存在覆盖扭曲
下面,我们演示一下如何在弱识别下构建有效的置信集
由此,首先构建出
公式的含义是,当
进一步,设定如下三个与
公式的含义是,当
对上述方法构建的置信集
twostepweakiv
由 Liyang Sun 博士编写,其安装方法如下:
ssc install twostepweakiv, replace //安装最新版命令
help twostepweakiv // 查看相应的帮助文件
twostepweakiv
命令的基本语法如下:
twostepweakiv estimator depvar [varlist1] (varlist2=varlist_iv) [weight] [if exp] [in range] [, project(varlist) test_options grid_options size_options strong_options]
基本语法介绍:
estimator
:可以使用的估计量,包括两阶段最小二乘估计量 (2sls)、有限信息最大似然估计 (liml)、最小距离估计 (md2s)、以及连续更新估计量 (cue);varlist1
:一系列外生变量;varlist2
: 一系列内生变量,最多设定 5 个内生变量;varlist_iv
:一系列工具变量,最多设定 50 个工具变量。options
选项介绍:
test_options 在计算置信区间时,可以采用的检验。
citelist(testlist)
: 为参数指定在构建 CSs 时采用的检验。这些检验除了包括 weakiv
中已有的 nonrobust Wald test、AR test、K test,还有 K_2sls、LC、以及 LC_2sls 检验;project(varlist)
: 当有多个内生变量时,而我们只关注其中的某一个内生变量的系数 strong()
选项;ptestlist(project_testlist)
: 对上面的 project()
设定采用的检验,可以采用的检验包括 nonrobust Wald test、K test、K_2sls、LC、以及 LC_2sls 检验。grid_options 设定在计算统计量时所采用的网格位置及大小。
gridmin(numlist)
: 根据内生变量的个数,设定网格搜索的下限;gridmax(numlist)
: 根据内生变量的个数,设定网格搜索的上限;gridmult(#)
: 对于网格的大小,是将 Wald 置信区间的放大几倍,默认是 5;gridpoints(numlist)
: 根据内生变量的个数设定,来计算置信区间的区域大小,即空间内均匀分布的点的数量。对于 1-5 个内生变量,gridpoints
默认值分别是 100、25、11、7、5。size_options 设定名义置信水平
level(#)
:置信水平,默认值是 level(95)
。gammalevel(#)
:有效两步置信区间的初始扭曲水平,默认是 gammalevel(5)
。strong_options 当多于一个内生变量时,假设某些内生变量是强识别的,可以用该选项进行设定。
strong(varlist)
:当把系数为
下面采用作者提供的演示数据进行实例演示,演示代码可以在 twostepweakiv
命令的帮助文件中查看。
接下来,我们将采用 twostepweakiv
命令帮助文件提供的数据和代码进行演示。其中,数据来源于 Mroz (1987)。在本文中,我们研究的是已婚女性工作经验对工资的影响。
首先导入数据,命令如下:
clear
use http://www.stata.com/data/jwooldridge/eacsap/mroz.dta
* 或
* ssc install bcuse
* bcuse mroz
gen byte poshours=(hours>0) //只考虑参与到劳动力市场上,工资为正的女性子样本
由于经验会受到很多不可观测因素的影响,是个内生变量,因此我们采用女性父母受教育年限作为工具变量。在此基础上,运用 twostepweakiv
命令构建稳健识别的 CS,采用的估计量设定为 2sls。由于只有一个内生变量时,默认的网格点是 100 个。运行代码及结果如下:
twostepweakiv 2sls lwage exper expersq (educ = fatheduc motheduc)
在该命令中,lwage 代表工资的对数,exper 和 expersq 是在劳动市场上的工作经验及其二次方,fatheedu 和 motheduc 分别是父亲及母亲的教育年限。
Weak instrument robust tests and confidence sets for linear IV
Confidence sets based on k_2sls lc_2sls ar tests are shown below.
-----------------------------------------------------------------
Test | Conf. level Conf. Set
--------+--------------------------------------------------------
K_2sls | 95% [ -.00757, .123795]
LC_2sls | 95% [ -.00757, .123795]
AR | 95% [-.020706, .136931]
--------+--------------------------------------------------------
Wald | 95% [-.003629, .126422]
-----------------------------------------------------------------
Confidence sets (if calculated) based on 100 points in [ -.26373, .386523].
LC test gamma_min is 5%; distortion cutoff is 5% based on the given grid, obtained by 10^6 simulation draws.
Number of obs N = 428.
Method = minimum distance/Wald.
Tests robust to heteroskedasticity.
Wald confidence set is based on 2sls estimates and is not robust to weak instruments.
可以看出,初始的覆盖扭曲
当然,我们也可以自行设定网格位置及大小。在下面的例子中,我们不再使用 grid_options
的默认选项,而是将网格设定为 [-1000, 8000]。回归代码及结果如下:
twostepweakiv 2sls hours nwifeinc educ age kidslt6 kidsge6 ///
(lwage=exper expersq fatheduc motheduc) if inlf==1, ///
gridmin(-1000) gridmax(8000) gridpoints(901)
其中,hours 是 1975 年美国平均女性工作小时数,nwifeinc 是 (家庭收入 - 工资*小时数) / 1000,educ 是受教育年限,age 是女性的年龄,kidslt6 是小于六岁的儿童数量,kidsage6 是家庭中 6-18 岁儿童的数量,inlf 是是否在劳动力市场的虚拟变量。
Weak instrument robust tests and confidence sets for linear IV
Confidence sets based on k_2sls lc_2sls ar tests are shown below.
-------------------------------------------------------------------
Test | Conf. level Conf. Set
--------+----------------------------------------------------------
K_2sls | 95% [ -840, -680] U [ 710, 4070]
LC_2sls | 95% [ 750, 4100]
AR | 95% [ 770, 6930]
--------+----------------------------------------------------------
Wald | 95% [ 350.552, 2180.1]
-------------------------------------------------------------------
Confidence sets (if calculated) based on 901 points in [ -1000, 8000].
LC test gamma_min is 5%; distortion cutoff is 33% based on the given grid, obtained by 10^6 simulation draws.
Number of obs N = 428.
Method = minimum distance/Wald.
Tests robust to heteroskedasticity.
Wald confidence set is based on 2sls estimates and is not robust to weak instruments.
该结果同样汇报了稳健的 K_2sls、LC_2sls、AR 统计量以及非稳健的 Wald 统计量的置信集。根据这一结果,我们可以构建两步有效稳健置信集。根据第二部分的理论,我们需要三个因素:稳健的 LC_2sls CS,非稳健的 Wald CS 以及覆盖扭曲的临界值
从结果下方的说明文字中可以看出,覆盖扭曲的临界值是 33%,这个值较大,说明工具变量较弱。如果读者愿意忍受的覆盖扭曲最多是 10%,小于临界值,那么应该采用 LC_2sls 给出的稳健置信区间;如果读者愿意忍受的覆盖扭曲最大可以达到 50%,大于临界值,那就可以采用非稳健的 Wald CS。
Note: 产生如下推文列表的命令为:
lianxh IV, m
安装最新版lianxh
命令:
ssc install lianxh, replace
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟,课程主页 Stata 33 讲 - 连玉君, 每讲 15 分钟. Stata 小白的取经之路 - 龙志能,时长:2 小时,课程主页 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 因果推断, 空间计量,寒暑假班等 | |
⭕ 数据清洗系列 | 游万海 | 直播, 88 元,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh