稳健性检验!稳健性检验!

发布时间:2020-07-23 阅读 6985

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 刘欣妍(香港中文大学)
    2020 Stata 暑期班 助教
E-mail: liuxinyan@link.cuhk.edu.hk


目录


1. 什么是稳健性检验?

论文中,我们常常要求要做稳健性检验,那么什么是稳健性检验呢?

根据百度百科的解释,稳健性检验考察的是评价方法和指标解释能力的强壮性,也就是当改变某些参数时,评价方法和指标是否仍然对评价结果保持一个比较一致、稳定的解释。

简单来说,当我们得出一个结论时,需要通过一系列方法来验证所得的结论是否可靠。当我们改变了一些条件或者假设发现所得结论依然不变,那么我们的结论就是稳健的,反之,所得结论有待商榷,我们需要找出使结论发生改变的原因并进行解释。

在较早的文献中,一般很少涉及稳健性检验,但近年来,大家对稳健性检验的重视程度越来越高,这也体现了大家对所得结论准确性的要求越来越高。做好稳健性检验,是使结论得到广泛接受的重要步骤之一。

遗憾的是,目前关于如果做稳健性检验并没有统一的标准,也没有一个明确的说明告诉我们在文章中我们到底应该要从哪些角度去做稳健性检验。因此,每篇文章根据自己的研究目的不同,稳健性检验的角度也会大不相同。比如当你的文章着重于研究方法的设计时,稳健性检验则应该更多关注于研究方法成立的前提条件和假设;而当你的文章数据处理时,则应该更多的关注于数据本身的稳健性。

为研究目前研究中稳健性检验常用的角度,笔者通过搜集经济研究、管理世界以及中国工业经济三个目前被广泛认可的期刊 2014-2020 年 共六年的文献,从中随机挑选了包含实证研究内容的文章共 117 篇,经粗略统计发现其中将稳健性检验作为单独一个章节的文献共 51 篇,占比达到 43.6% (注:许多文章在进行结论分析时会将稳健性检验放入结论讨论部分,但是这里笔者因为统计方便的原因并没有将其纳入统计中,只统计了单独将稳健性检验作为一个章节的文献,因此实际进行稳健性检验的文章远大于 43.6%,该结论需谨慎使用)。

根据总结发现,在这 51 篇文献中,常用的稳健性检验的角度包括变量替换法,改变样本容量法,分样本回归法,补充变量法等,下一章节中笔者将按照该角度使用的频率从大到小进行排序并进行介绍 (注:每个角度的使用频率仅根据这 51 篇文献里出现的频率进行粗略估计,并不能代表所有稳健性检验的情况)。

2. 为什么要做稳健性检验?

Seattle University 的 Nick Huntington-Klein 教授在他的文章 Robustness Tests: What, Why, and How 中写到:

当我们在课上学习到一个新方法时,老师会不断强调每个方法都有自己的假设和前提条件,而稳健性检验就是针对这些假设的。我们想要知道如果其中一个假设或者前提条件改变时,我们所得的结论是否依然可靠,这就是稳健性检验存在的意义。每当我们做稳健性检验时,我们应该思考以下问题:

  • 我的研究假设是 A.
  • 如果 A 不成立,那么我的结果 B 就可能出现有偏的估计 (可能估计值过高/过低/标准误过小/等等...)
  • 我认为 A 在我的检验中可能不成立,因为 C 或者,D 是判断 A 是否成立的条件;
  • 又如,D 是另外一种计量方法但是并没有 A 这个假设前提.
  • 如果我们发现 A 不成立,那么我们则应该在稳健性检验中用 E 方法重新检验.

举一个简单的例子,假如我们现在准备研究政权的更替对于经济发展的影响,我们建立了一个简单的 OLS 回归模型将经济发展作为被解释变量,政权的更替作为核心解释变量进行估计:

  • 我的分析假设是扰动项均值独立于所有解释变量,即变量外生,不受内部因素的影响,不存在遗漏变量的问题
  • 如果存在遗漏变量问题,那么在回归中政权的更替这一变量的估计值就会过高或过低 (取决于遗漏了哪些变量)
  • 我认为我们这个分析中存在遗漏变量问题问题,因为政权的更替通常会伴随着暴力事件的增加,而暴力事件的增加则会影响经济的发展,所以暴力事件是我们在随机扰动项中没有控制的变量
  • 那么,增加暴力事件这一变量作为控制变量是我可以进行的稳健性检验之一。
  • 如果我们发现,增加了这一控制变量之后,使得我的结果与原先的结果完全不同,那么我们之前的结果则是不稳健的,我们应该加入这一变量进行重新估计

本例中所提及的稳健性检验方法就是我们下文将要介绍的「补充变量法」。


下面,我们介绍文献中在稳健性检验部分常用的一些应对方法。


3. 变量替换法

在我们进行分析时,常常会选择自己最熟悉或者偏好的方法测量一个变量,而实际上一个变量的测量方法有很多种,我们根据以往文献研究或者依照自己数据可获得性选择的测量方法往往无法保证结论的可靠性。因此,在文献中,作者都会将变量替换法作为稳健性检验的方法之一,而在我们的统计中,变量替换法更是稳居检验角度第一名。变量替换法包括:替换因变量,替换主要自变量以及放宽变量条件等角度,下面将一一为大家介绍。

3.1 替换因变量

周京奎 (2019) 在研究农业生产率和农村家庭的人力资本积累关系时发现随着农业生产率提高,农村家庭倾向于进行教育投资,进而提升了家庭人力资本积累。在本文中作者首先采用家庭教育支出和家庭学杂费支出来衡量教育投资。在随后的稳健性检验章节中,作者将被解释变量替换为家庭教育支出占当年家庭收入的比例,考察农业生产率对教育支出占比的影响,进一步验证了农业生产率对人力资本投资影响的稳健性。

类似的文章可参考刘畅 (2017) 研究子女外出务工对农村父母身心健康的影响的文章,其中考虑到健康的多维性,采用了另外 6 个健康指标进行稳健性检验。

谭远发 (2015) 研究父母政治资本如何影响子女工资溢价的影响时,考虑到实际工资与保留工资正相关,因此将正文中子女的实际工资替换为保留工资进行稳健性检验。

李春涛 (2020) 研究金融科技发展对企业创新的影响时将企业的专利申请数量作为反映了企业的创新产出水平的衡量标准之一,随后作者进一步运用企业研发支出总额占销售收入的比例更替企业创新的度量指标进行稳健性检验。

此外孟美侠 (2019) 罗勇根 (2019) 陈强远 (2019) 顾夏铭 (2018) 等都采用了替换因变量的方法进行了检验。

这里需要注意的一点是,除了替换因变量,学者有时还会对因变量进行一些修正,比如王雄元 (2019) 在检验国际贸易增加如何影响企业创新行为时考虑到未取自然对数的专利申请量数据为离散型变量,且其分布中存在大量 0 值,可能不符合正态分布的假定,因此采用泊松模型回归处理被解释变量非正态分布问题。

3.2 替换自变量

蔡晓慧 (2016) 在研究地方政府基础设施和企业技术创新关系时,正文部分讨论中使用的地方政府基础设施的数据来自于金戈 (2016) 估算的省级基础设施资本存量数据,而在稳健性检验中采用了地级市市辖区道路密度代表基础设施资本存量。因为道路交通是重要的基础设施,也是企业通过扩大市场规模取得规模经济的前提,道路交通的密度在一定程度上也反应了基础设施的基本存量。

替换自变量的文章比比皆是,可参考刘怡 (2017) 李卫兵 (2019) 董香书 (2012) 周颖刚 (2019) 申广军 (2017) 孙传旺 (2019) 顾夏铭 (2018) ;梁斌 (2020) 于斌斌 (2015) 刘啟仁 (2020)

3.3 放宽因变量或自变量条件

除了替换自变量与因变量外,学者有时还会对因变量或自变量的选择条件进行放宽,例如陈仕华 (2015) 在研究国企高管政治晋升对企业并购行为的影响时,对被解释变量的衡量主要是基于董事长或总经理是否调任政府部门职位来判定高管政治晋升,考虑到董事长或总经理升任集团层面的董事长或总经理,或者升任集团层面的党委或党组书记时,国企高管的行政级别也得到了提升,因此在稳健性检验部分借鉴王曾等 (2014) 的测量方法,将高管职位变更去向出现以下情况时均视为晋升:平级或者更高级别的政府部门职位、集团层面的董事长或总经理、集团层面的党委或党组书记。以此替代变量进行测试。

上文中,我们介绍了稳健性检验的概念,目的以及常用的一个角度 (变量替换法) ,这篇文章我们将继续介绍稳健性检验的其他角度。从上篇推文可以看出,有些文章出现了不止一次,这说明,每一个稳健性检验的方法都是不是独立存在的,在一篇文章中学者可以根据自己的需要可以选择多个稳健性检验的方法,比如罗勇根 (2019) 在研究空气污染、人力资本流动与创新活力的关系一文中,一共采用了 8 种方法从多个维度来检验自己文章的稳健程度。

我们需要注意的是,稳健性检验的意义在于我们需要保证,文章得出的结论不会根据现在使用的数据的变化而发生巨大的变化,比如当其他人使用了一份相似的数据,或者当本文数据的样本量发生不同时,你的结论依然成立,这才能保证结论的可靠性。

4. 补充变量法

在上文讲述稳健性检验时,我们曾举到一个例子,当探讨政权的更替对于经济发展的影响时,我们会产生遗漏变量的问题,而遗漏变量问题是我们大多数研究中都会遇到的问题,我们只能尽可能多的在模型中加入我们能想到的以及之前文献研究过的对我们结果可能产生影响的变量。 因此,控制变量法和之前的变量替换法几乎成为每篇文献中都会使用到的稳健性检验方法。

4.1 加入遗漏变量

除了前文所举的例子以外,梁斌 (2020) 在探讨失业保险金对失业者求职努力的影响时,将失业者在日志日搜寻工作的小时数作为因变量,失业者领取到的失业保险金作为自变量,并控制了个体特征变量以及家庭特征变量,加入了省份虚拟变量后,在稳健性检验部分提出,失业保险金对失业者来说是确定性的收入,因此本文预期厌恶风险的失业者 (risk-aversion) 更可能领取失业保险金,也更可能为了日后稳定的收入而积极寻求工作,因此又将风险这一变量纳入了考量。

类似的加入更多控制变量的文章可以参考蔡晓慧 (2016) 陈仕华 (2015) 张龙鹏 (2016) 李春涛 (2020)

4.2 加入各类虚拟变量

需要注意的是,加入遗漏变量有时不仅仅指加入更多的变量,也包括控制其他层面的固定效应,比如施炳展 (2020) 在研究互联网对制造业企业分工水平的影响时提到,在前文中作者只控制了年份固定效应和企业固定效应,虽然大多数企业并不会更换省份和行业,但是这种可能性是客观存在的,因此如果不加入省份和行业固定效应,有可能遗漏省份和行业层面不随时间改变的重要变量,从而使估计结果有偏和不一致。为了避免这一问题,作者在保留年份和企业固定效应的基础上,进一步加入了省份和行业固定效应。

类似的文章可以参考柳光强 (2018) 孙传旺 (2019) 罗勇根 (2019)

5. 分样本回归法

由于不同的样本对于所得的结果具有不同的敏感性,因为在稳健性检验时,也常常进行分样本回归,常见的分类方法用按照人口规模分类,按照地理位置分类,按照城乡分类,按照性别不同分类等等。

比如,刘怡 (2017) 在研究婚姻匹配对代际流动性的影响时提出婚姻匹配是中国代际传递的重要机制,尤其是对女性而言,父代收入通过婚配市场作用于子代配偶的个人收入,形成代际传递,影响子代家庭收入。在稳健性检验中,作者根据子代的城乡分布,将子代样本划分为城镇和乡村样本,比较分析城镇和乡村地区的代际流动性及其婚姻匹配机制在代际传递中的影响,结果发现,城镇地区多依赖于婚姻匹配机制,而农村地区侧重于人力资本投资。

类似的分样本回归方法,可以参考杨仁发 (2013) 研究产业集聚与地区工资差距之间的内在联系的文章;蔡晓慧 (2016) 研究地方政府基础设施和企业技术创新关系的文章;刘畅 (2017) 研究子女外出务工对农村父母身心健康的影响的文章;申广军 (2017) 研究减税对中国经济的影响文章等。

6. 调整样本期

当我们在所得的整个数据集范围内进行分析时,常常会发现改变不同的时间段,得到的结论可能会完全不同。也许某一结论在某一时间段内得到的结果符合我们的预期,而当我们往后退 10 年,或者往前推 10 年再次回归,就会发现得到的结论完全不同!因此,选择正确的研究时间段也显得十分重要。在稳健性检验中,我们可以通过扩宽时间长度或者缩短时间长度来检验我们的结论。

6.1 扩展时间窗口

仇童伟 (2019) 在研究宗族代理人对村庄地权变更的影响时在第一个稳健性检验方法中提到,村庄的丧葬习俗表征了社区开放程度,在原文中采用了 2012-2014 的数据,而在稳健性检验中补充采用 1990-2014 年村庄丧葬习俗进行了处理。因为与仅采用 2012-2014 年丧葬习俗相比,采用 6 个时期的丧葬习俗可以规避单一时期测量造成的误差。类似的文章还包括朱晓文 (2019) 研究家族企业代际传承的文章中。

为了探讨长期的影响,除了扩展时间窗口外,陈冬华 (2018) 在研究产业政策与股价同步性的关系中提到,产业政策作为一种国家级政策,每五年发布一次,影响周期为五年。因此,作为一种长期政策,其对企业的影响可能存在长期性,文章的研究区间应该扩展至全年度而非短时间区间范围。基于此,参考错层事件双重差分方法,文章进一步探究了国家产业政策影响股价同步性的长期表现。

6.2 缩短时间窗口

李卫兵 (2019) 在研究空气污染对企业生产率的影响时在稳健性检验部分提到该文选定的样本期为 1998-2013 年,而大部分基于中国工业企业数据库进行研究的文献主要利用 1998-2007 年的企业数据,虽然该文对某些缺失的数据根据相关的会计准则进行了补齐处理,为避免处理后的数据干扰实证结果,作者将样本调整为 1998-2007 年,并重新进行 RD 估计。

缩短时间窗口的另一个好处是可以排除其他政策的影响,比如王雄元 (2019) 在研究“一带一路”如何影响企业创新行为的研究中提到,中国于 2013 年正式提出“一带一路”倡议,因此在样本仅保留 2013 年及以后开通“中欧班列”的样本有助于将本文的研究统一置于“一带一路”倡议的背景下,排除可能的其他政策干扰。 (注:另一种排除同时期其他政策的影响的影响是通过控制同时期政策带来的影响,比如齐绍洲 (2018) 在研究排污权交易试点政策是否诱发了企业绿色创新文章时提到,排污费征收政策与排污权交易试点政策并行,我们可以通过需要控制排污费征收政策对企业绿色创新的影响,进一步提炼排污权交易试点政策对企业绿色创新的因果关系。)

类似的缩短时间窗口的文章包括何欣 (2016) 孙传旺 (2019)

6.3 滚动窗口法

陈冬华 (2018) 在研究产业政策对股价同步性影响文章中提出,产业政策的影响是一个循序渐进的过程,因此在稳健性检验部分基于滚动窗口的实证研究方法对产业政策进行了动态研究。

7. 改变样本容量法

当我们选择好了时间之后,同时也要确定我们的样本是否最能体现我们所研究的问题,同时样本中有没有极端值会影响我们的结果。因此,在稳健性检验中,我们需要将个别离群值剔除,或者在样本中选择最适合我们研究目的样本 来检验我们的结论是否依然稳健。

7.1 选择子样本

鞠雪楠 (2020) 在研究跨境电商平台克服了哪些贸易成本时提出在跨境电商出口贸易中,中国向各个国家(地区)出口的分布并不均衡。其中,美国是中国最大的出口目的地;中国香港和新加坡是全世界重要的转口贸易地区,中国向这个两个地区的出口可能也有转而向其他国家出口。为了确保实证分析的结论不受特定国家(地区) 和转口贸易的影响,本文给出了剔除这三个国家以及地区的样本之后的实证分析结果。

同样的文章可以参考刘怡 (2017) 李卫兵 (2019) 蔡栋梁 (2018) 何晓斌 (2013) 叶迪 (2017) 申广军 (2017) 铁瑛 (2019) 李春涛 (2020) 罗勇根 (2019) 陈强远 (2019)

7.2 缩尾处理

在处理离群值时,我们要进行缩尾处理,陈强远 (2019) 在研究中国技术创新主要激励政策对企业技术创新质量和数量的影响时提到,由于控制变量如资产收益率与负债比率的测算存在极端值,尽管上文已对资产收益率与负债比率进行了 5%分位上双边缩尾。但为了进一步验证前文结论的稳健性,接下来本文对企业的资产收益率与负债比率进行了 1%分位上双边缩尾处理。

7.3 扩充样本容量

除了剔除部分样本进行回归之外,我们依然可以通过增加样本来进行稳健性检验。比如原文中只采用了省会城市进行分析,在稳健性检验部分则可以将样本扩大到所有地级市城市,这一方法有时也被称为降低数据维度。

比如李卫兵 (2019) 在研究空气污染对企业生产率的影响时提到,本文提取的 PM2.5 排放浓度来源于城市层面,同时由于大样本选择下更易带来显著的回归结果,为了证明回归结果的准确性,我们参考江艇等 (2018) 的处理方法计算出城市层面的 TFP,将区域层面的数据降低至城市层面。 (注:除了降低数据维度,我们同样可以提高数据维度,比如铁瑛 (2019) 在人口结构变动的影响时多个个体维度进行调整,分别加总至企业维度和城市维度进行稳健性分析)

8. 内生性问题

内生性问题是我们每个文章都要考虑到的问题,施炳展 (2020) 在分析互联网对中国制造业企业分工水平的影响时将大部分稳健性检验的篇幅都留给了内生性问题,可见内生性问题对我们研究的重要性。在处理内生性问题时,我们通常采用以下几种方法进行稳健性检验:

8.1 工具变量法

工具变量是解决内生性问题的一个重要方法,比如施炳展 (2020) 选择了中国建国初期各省份人均函件数量作为省份层面企业互联网普及率的工具变量,选择一个合适的工具变量可以对整个研究都有重要的影响,但同时也是十分困难的,我们可以通过大量的文献阅读积累来选择最合适本文研究的工具变量。

类似的利用工具变量克服反向因果关系的文献可以参考蔡栋梁 (2018) 周京奎 (2019) 梁斌 (2020) 刘啟仁 (2020) 张龙鹏 (2016) 罗勇根 (2019)

8.2 加入滞后变量

部分研究也会将自变量的滞后一期或者两期变量纳入模型中来解决内生性问题,比如孙传旺 (2019) 在研究交通基础设施与城市空气污染的关系时除了控制核心解释变量的内生性偏误,我们还担心其他控制变量也可能存在潜在的内生性问题。为了检验结果稳健并排除这一种担忧,将其他所有控制变量滞后一期;黄健柏 (2015) 到工业用地价格扭曲对企业过度投资的影响可能存在更长的时滞效应,把回归模型中的工业用地价格扭曲程度变量替换为滞后两期项, 重新进行回归分析;李春涛 (2020) 考虑到创新投入也是影响专利产出的重要因素,本文在控制变量中加入企业创新投入的指标,并采用研发支出总额占销售收入之比来度量。由于创新投入对创新产出的影响具有时滞性,本文使用滞后一期的创新投入指标。

类似的文章可以参考顾夏铭 (2018) 刘啟仁 (2020)

8.3 样本自选择问题

陈强远 (2019) 在研究中国技术创新主要激励政策对企业技术创新质量和数量的影响中提到,高新技术企业认定等技术创新激励政策可能存在自选择问题,即企业整体绩效较好的企业更容易享受优惠政策, 这可能导致估计结果存在偏误。为了解决这一问题,文章采用 Heckman 两步法进行了稳健性检验。类似的文章包括蔡晓慧 (2016) 周颖刚 (2019) 等。

注:因为内生性问题十分重要,也有一些文章不将其作为稳健性检验的一部分,而是作为正文当中的一部分,比如高晶晶 (2019) 韩永辉 (2017) 余吉祥 (2019)

9. 其它方法

9.1 验证前提条件

正如前文提到,稳健性检验就是为了检验回归方法中的前提条件是否满足,比如吕越 (2019) 在采用双重差分法研究“一带一路”倡议的投资对对外投资的影响时检验了 DID 的方法成立的条件,包括安慰剂检验,平行趋势检验等等,类似的文章周茂 (2019) 朱晓文 (2019) ;梁斌 (2020) ;陈冬华 (2018)

同样李卫兵 (2019) 也在使用 RD 估计时,辅助进行了 RD 检验的有效性检验。;类似文章还有梁若冰 (2016)

9.2 模型替换法

在上文中提到的蔡晓慧 (2016) 这篇文章中,作者依次在正文中采用线性概率模型进行研究后,在稳健性检验部分又依次采用 Logit 模型、Probit 模型进行估计基础设施对企业是否投入研发的影响;同样施炳展 (2020) 考虑到线性回归模型潜在的模型设定偏误,以面板 Tobit 模型替换线性回归模型后重新进行了回归;李春涛 (2020) 认为本文使用的专利数量有大量的零值,存在截尾数据的特征,因此使用 Tobit 模型进一步检验金融科技发展对企业创新的影响;祝树金 (2020) 用断点回归能较好的识别因果关系,这里使用这种方法对前文的 DID 回归进行稳健性检验。

9.3 更换新的数据源

何兴强 (2019) 在探讨房价收入比对家庭消费房产财富效应的影响时,为了增强研究结论的稳健性,分别使用了调查数据、宏观数据、和不同的家庭调查数据重新估计本文的主要回归。这种方法对于数据的要求较高,因此使用频率较低

10. 总结

在我们进行完稳健性检验后,我想大家可能跟笔者一样也经常遇到不稳健的结果,因此,这里想跟大家分享一下 Cristobal Young (2015) 在针对稳健性检验时提出的一段话:

学者总是在努力能够通过他的文章采用无懈可击的证据来讲述一个“完美”的故事,但实际上我们必须承认,不稳健的结论有时可以引发我们更多深入的思考,也许一个重大的发现就隐藏在我们不稳健的结果背后。在稳健性检验时,我们需要更多的耐心来面对我们不稳健的结果,同时我们也需要更多的动力来揭秘不稳健结果背后隐藏的秘密。

因此,最后希望大家在面对不稳健的结果时,不要感到无措或者恐慌,静下心来思考一下背后的原因,这才是研究的意义所在。

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD

热门资讯

08/29 专题课程 2429
03/12 计量专题 5153
01/01 工具软件 5523
09/22 专题课程 554
09/21 专题课程 1953
09/21 专题课程 78
09/20 Probit-Logit 57