Stata:IV-Lasso经典论文介绍

发布时间:2022-09-23 阅读 555

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:陈云菲 (上海大学)
邮箱cyfyeya17863928515@163.com

编者按:本文主要摘译自下文,特此致谢!
Source:Paravisini D, Rappoport V, Schnabl P, et al. Dissecting the effect of credit supply on trade: Evidence from matched credit-export data[J]. The Review of Economic Studies, 2015, 82(1): 333-359. -Link- -PDF- -Code-


目录


如果模型中有多个可用工具变量,或者不清楚工具变量与内生变量之间具体函数关系,我们该如何选择最合适的工具变量呢?本文将介绍一篇采用 IV-Lasso 方法的经典文献,来帮助我们选择最优的工具变量,避免遗漏变量偏误与模型过拟合问题,从而得到更加准确的因果效应。

1. 文章简介

银行在放大实体经济波动方面所扮演的角色一直是政府和学术界争论的话题。虽然国际商业银行被认为是资本逆转时期的一个重要风险传染源,但对银行信贷冲击的敏感性程度尚不清楚,这种敏感性背后的潜在经济机制也有待研究。

利用 2008 年金融危机导致的资本流动逆转作为一次信贷供给的外生冲击,作者采用银行对外资的依赖程度企业对不同银行信贷的依赖程度作为企业信贷供给的风险敞口,使用 Lasso 方法选择银行对外资的依赖程度变量与企业信贷之间最优的函数形式,得到最佳工具变量并进行估计,识别了信贷供给对秘鲁的企业同一目的地的同一产品出口量以及进入或退出某一出口品市场决策的因果效应。

作者发现信贷冲击对企业的出口量有显著的负向影响,但对企业进入或退出新出口品市场没有显著影响,作者分析信贷因素主要通过提高生产的可变成本来影响企业的出口行为。

2. 背景和数据

2008 年的金融危机通过两个主要渠道对秘鲁的经济产生影响:

  • 秘鲁出口产品的需求下降 (图 1a);
  • 流入秘鲁的投资组合资本减少,导致秘鲁银行的外资供给急剧下降 (图 1b)。

金融危机导致秘鲁银行业的国外资本急剧减少,尤其是外资占较高份额的银行,银行部门的可贷款资金迅速下降。

文章数据来源于三个数据集:

  • 秘鲁的银行层面数据;
  • 秘鲁国内银行部门的贷款数据;
  • 秘鲁企业的海关数据。

作者通过秘鲁海关总署 (SUNAT) 为征税编制的企业识别码将企业出口数据与信贷数据进行匹配。表 1 是秘鲁金融机构 (商业银行和储蓄贷款机构) 在资产、贷款、存款和外资方面的描述性统计。

表 2 面板 1 给出了在 2007 年 7 月到 2009 年 6 月之间至少出口一次的企业的基本情况,面板 2 是对出口商品的统计分析,这篇文章研究对象为金融危机前后均通过国内银行部门借款并具有出口业务的企业。考虑到估计结果容易受到出口需求和投入成本的影响,作者采用的是 “产品-目的地” 层面数据,根据协调制度 (HS) 定义了 4 位数的产品代码,在此基础上对出口量加总,而不是比较企业总出口的变化。

3. 实证模型

信贷供给对出口的因果效应可以表示为:

其中,

  • Xipdt 为被解释变量,公司 i 向目的地 d 出口产品 p
  • Hipdt 表示信贷供给以外的出口决定因素;
  • Cit 表示在 t 时期公司的所有末偿还信贷总额。需要注意是,Cit 是各种因素作用下的均衡结果,不仅取决于信贷供给 Sit,也与影响企业出口的因素有关,即 Cit=Cit(Hipdt,,Sit)

因此,为准确识别信贷供给对企业出口的影响,作者采用两种方式最大可能的排除混淆因素影响:

  • 构建企业受信贷供应冲击的工具变量;
  • 引入 “企业-产品-出口目的地” 的虚拟变量控制不可观测的异质性,并且引入 “产品-国家-时间” 的虚拟变量控制投入成本和出口需求的冲击。

基准回归模型设定:作者不是直接研究出口量的变化,而是关注出口对信贷的弹性,具体模型如下:

其中,

  • ηI 表示企业出口对信贷的弹性;
  • δipd 控制了企业 i 出口到目的地 d 的产品 p 的不可观测的异质性,例如,企业 i 的管理能力,或企业对目的地 d 产品 p 市场的了解程度;
  • αpdt 解释了 “产品-目的地-时间” 层面的冲击,例如,产品 p 到目的地 d 运输成本的变化,或目的地 d 对产品 p 需求变动。

工具变量的识别假设和机制:作者估计出口对信贷的广义边际弹性 (企业 i 开始/停止向目的地 d 出口产品 p,下文称出口对信贷冲击的进入/退出弹性) 的影响,构建如下线性概率模型:

其中,Eipdt 是一个指示变量:在进入弹性中,Eipdt=1 表示企业 i 在 t1 时期的产品 p 到目的地 d 的出口量等于 0,在 t 时期出口量大于 0;在退出弹性中,Eipdt=1 表示企业 i 在 t1 时期的产品 p 到目的地 d 的出口量大于 0,在 t 时期出口量等于 0。ηE 表示信贷供 1% 的变化引起的企业进入退出新出口品市场的概率的变化。

工具变量背后的假设是,在金融危机前更依赖外资的银行,资本流动逆转后信贷供给的收缩更大,基于以下模型对假设进行检验:

其中,

  • Cibt 是公司 i 在 [Pre,Post] 区间内对银行 b 的平均末清侩债务,Pre 和 Post 分别指金融危机 (2008 年 7 月) 爆发前、后 12 个月;
  • f() 是银行 b 在冲击前外资占比的递增函数;
  • Post 是虚拟变量,Post=1 表示金融危机爆发后时期;
  • β 表示商业银行的信贷供给如何随着外资变化。

Lasso 方法选择最优工具变量:作者利用企业借款银行的外资占比 (FDb),采用企业在每家银行的信贷占比加权 (ωib),作为衡量企业在信贷供给冲击下的风险敞口的工具:

进一步,将风险敞口与资本流动逆转的时间指标交乘:

采用 Lasso 方法选择 f() 的最优函数形式。

4. 信贷供应冲击对出口的影响

4.1 信贷供应冲击的识别

对工具变量的识别假设进行验证:

利用差分后的信贷数据消除 “企业-银行” 层面不随时间变化的固定效应,f() 采用非参数方法估计。图 2a 显示危机爆发后,对国外资金依赖较低的银行扩大了放贷总额,而对国外资金依赖较高的银行减少了放贷总额。图 2b 显示外资占比在 7% 至 10% 之间的银行信贷供给急剧下降。

由图 2a 和 2b 可以看出,银行的外资份额和与出口企业的信贷的关系 f() 可能是非线性的,作者假设两种函数形式进行估计:

  • 线性函数:f(FDb)=FDb
  • 示性函数:f(FDb)=D(FDb>FD¯),如果银行的外资份额超过 10% (商业银行的平均值),那么 f(FDb)=1

4.2 工具性变量选择

表 3 的结果表明银行的外资占比与其信贷供给的确实是负相关的,但这并不一定意味着从这些银行贷款的企业会遭受信贷短缺,因为这些企业可能通过从其他机构借款来抵消该银行的信贷供给不足。

因此,作者采用企业获得的信贷总量作为被解释变量进行验证,表 4 第 1 列和第 2 列结果显示该工具变量的系数显著为负,表明从外资占比较高的银行贷款的企业在危机期间的总信贷确实出现了下降。

作者采用 Lasso 方法选择工具变量函数形式,初始设定有:

  • 示性函数,外资占是否超过均值:
  • 多项式,银行外资占比的 1-8 次多项式:

Lasso 方法选择设定 1:

此外,作者为了检验结果的稳健性,排除设定 1 后,再次采用 Lasso 方法筛选,得到最优函数形式为银行外资占比的 3 次多项式,并在 4.6 部分重新估计。

4.3 出口量的信贷弹性

作者将基准模型进行一阶差分消除 “公司-产品-目的地” 层面不随时间变化的固定效应,得到的估计方程为:

表 5 第 (1) 列和第 (2) 列分别是 OLS 和 IV 的估计结果。采用 IV 方法估计的弹性是 0.195,说明信贷每减少 10 % 导致出口流量下降 1.95 %。

4.3.1 OLS 估计偏差:信贷需求与供给

从表 5 可以看到,IV 估计结果大约是 OLS 估计的 7.8 倍,IV 估计反映了信贷供给的影响,而 OLS 估计反映的是出口变化对由信贷需求和供应因素引起的总信贷变化的回归。通过计算,作者发现信贷需求变化可以解释约 87% 的信贷总变化,偏差大于 7,OLS 估计出现向零趋近的偏差。

4.3.2 出口连续性

采用上述模型估计的结果是局部平均处理效应 (Local Average Treatment Effect,LATE),作者通过构建变量连续出口的概率 (P^(Xipd Post >0XipdPre>0)) 即在金融危机爆发前出口量为正的条件下,危机后出口量仍然为正的概率,研究出口对信贷供给的弹性是否随着出口的连续性的不同有所差异。

首先采用 Probit 模型对连续概率进行估计,结果如表 5 第 (7) 列所示。其次,分别对连续概率分布的第 20、40、60 和 80 个百分位进行回归。可以看到,不同子样本的估计结果是相似的 (表 5 第 (3)-(6) 列,图 3),不能拒绝这样一个原假设,出口的信贷弹性对样本总体具有代表性。

4.4 广义出口信贷弹性

这一部分,作者研究信贷供应冲击是否影响企业进入或退出某一目的地某种产品市场,又被定义为广义出口信贷弹性。因为企业进退市场的决策反映了出口状态在 “企业-产品-目的地” 层面的变化,所以不能通过一阶差分方程来消除企业固定效应 δi

因此,作者控制公司不随时间变化的特征和 “产品-目的地-时间” 的虚拟变量 αpdt,直接利用水平方程进行估计。OLS 和 IV 估计结果均表明,信贷冲击对企业 “进入弹性” 和 “退出弹性” 均没有显著的影响 (表 6)。

4.5 信贷对货运特征和贸易信用的影响

当受到信贷冲击时,企业可能会调整与出口相关的其他方面决策,作者分别从以下五个方面进行估计:

  1. 企业的发货频率 (“产品-目的地” 层面) 变化;
  2. 在给定的出口量下,货物平均大小的变化;
  3. 在给定的出口量下,平均装运 (离岸价) 价值的变化;
  4. 采用空运 (相对于海运或陆运) 的年度货运价值 (离岸价) 百分比变化;
  5. 进口商预先支付的年度货运价值 (离岸价) 的百分比变化。

表 7 结果显示,信贷供应短缺显著减少了发货的频率 (第 1 列)。企业的发货规模 (价值和数量) 也受到信贷供给短缺的负向影响,弹性分别为 0.085 和 0.106 (第2、3列)。在保持产品和目的地不变的情况下,信贷冲击对企业增加空运方式 (相对于海运或陆运) 出口的份额没有显著的影响 (第 4 列 。虽然信贷供给冲击显著增加了进口商提前支付的货物价值,但影响较小,银行贷款减少 10% 会导致进口商提前支付的货物价值增加 0.24% (第 5 列)。

4.6 稳健性检验

作者从八个方面对研究的识别假设和实证结果进行稳健性检验,结果如表 8 所示。

  1. 替换被解释变量,采用离岸价格衡量的出口品价值估计;
  2. 替换被解释变量,缩小定义的产品范围,在 6 位数 (HS) 的产品编码水平上对产品出口量加总;
  3. 替换被解释变量,根据 Rauch (1999) 的产品分类,对同质商品的出口量加总作为被解释变量;
  4. 增加控制变量,通过引入一组可观察的企业和出口特征的前定变量,从而控制与银行从属关系相关的潜在冲击,包括在 “企业-产品-目的地” 层面上的出口平均单价,以外币计价的债务的平均比例,出口总额,产品的数量,以及公司层面的产品目的地数量;
  5. 扩大样本范围,将金融危机后期 (2008 年 7 月) 样本范围从 12 个月扩展为 24 个月;
  6. 更换工具变量,将工具变量中 2016 年 12 月银行外资占比替换为 2017 年 12 月 银行外资占比;
  7. 更换工具变量,将工具变量中函数形式替换为三次多项式;
  8. 安慰剂检验,假设金融危机发生在 2017 年,进行估计。

4.7 结果讨论

根据实证结果,作者认为信贷供给不仅影响固定投资或市场进入成本,更多的是影响生产的可变成本。主要基于以下两个原因:

  • 如果信贷只影响企业的固定投资成本或进入市场成本,实际影响将很小,因为资本是一个存量变量,它不会随着短期冲击而发生实质性变化;
  • 企业进入或退出出口市场而产生的边际出口流量相对较小,总出口主要由现有的大型出口商决定,相反,对可变生产成本的冲击会立即影响不同规模企业的生产和出口决策。

5. 可替代的实证方法

由于数据的缺乏,一些研究中依赖的假设识别未得到实证检验,这一部分作者采用文中的数据和实证模型对关键假设进行检验。

5.1 企业-银行之间的选择行为

在实证研究中,通常假设银行和企业的借贷关系是随机匹配的,但作者比较引入与不引入 “产品-目的地” 这一虚拟变量的估计结果 (表 9 第 1、2 列) 发现,如果忽视 “产品-目的地” 层面的冲击,结果是存在偏误的,说明银行和企业并非是随机匹配的。

例如,从风险敞口 (外资占比) 较大的银行贷款的企业主要出口受危机影响较小的产品和目的地,如果 “产品-目的地” 层面的非金融冲击没有被考虑在内,信贷冲击在解释出口变化重要性可能会被严重低估,得到信贷供给冲击对秘鲁出口影响不显著的错误结论。

5.2 特定出口品的信贷需求

作者引入产品的运输距离、运输方式和预付比例与信贷的交乘项,研究不同特征的出口对信贷冲击的敏感性,为避免 5.1 中证实的非信贷因素混淆,分别引入与不引入 “产品-目的地” 这一虚拟变量进行估计,结果如表 9 第 3-8 列所示。

考虑 “产品-目的地” 冲击时,交互项不显著,说明出口对信贷的弹性不随着距离、运费方式或支付方式的变化而变化 (第 4、6、8 列)。不考虑 “产品-目的地” 冲击时,支付方式和运输方式与信贷的交乘项变得显著,这将错误地说明如果通过空运运输 (第 5 列),出口对信贷冲击的敏感性增加,如果进口商提前支付商品费用 (第 7 列),出口对信贷冲击的敏感性降低。

5.3 行业异质性

不同行业外部融资依赖程度的异质性已被广泛用于识别信贷约束对长期增长和国际贸易的跨国模式的影响,这一因素是否也与短期信贷冲击的影响相关还有待于研究。作者采用非内部现金支持的总资本支出的比例衡量外部融资依赖程度,将其与信贷的交乘项引入模型进行估计。

表 10 结果显示,外部融资依赖程度没有显著影响出口对信贷冲击的弹性,说明企业出口对信贷冲击的弹性更可能与营运资本的短期需求有关。

6. 结论

这篇文章通过 IV-Lasso 方法选择企业面临的信贷供给的最优的工具变量。研究发现,信贷供给冲击对出口量有显著负向影响,对进入或退出出口产品市场影响不显著。作者还证明了如果研究信贷供给冲击对出口的影响时没有在 “产品-目的地” 层面控制银行信贷以外的出口决定因素,会导致严重的估计偏差。因此,应该谨慎分析加总的数据 (例如,公司或部门层面的加总) 的估计,因为危机可能对不同行业和国家产生异质性影响。

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh iv lasso, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh