FAQs答疑-2021寒假-Stata初级班-Day3-连玉君

发布时间:2021-01-28 阅读 910

连享会·课程答疑


Stata 初级班-Day3,任课老师:连玉君

Update: 2021/1/27 11:51

???? 课程主页:https://gitee.com/arlionn/PX
???? 板书和答疑

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course


目录


Q1. 请问老师,找控制变量的原则是对被解释变量有影响,且在相关文献中运用过吗?最后是否可以通过删减控制变量来使回归结果尽量显著?谢谢

A: 控制变量的选取,尽量选择权威期刊中运用过的,可以通过这些权威期刊的控制变量选择方式,让自己结果稳健些。其实找控制变量这个事显然是对你的结果会有很大的影响。首先是从理论分析入手,比如说我们做资本结构研究的时候,就有权衡理论有优势融资理论,这些理论里边都会识别出一些影响公司负债率的关键因素。很多基本的变量是无论如何都没有理由把它扔在你模型之外的,即使它在回归的时候不显著,你也应该把它放进去。那么还有一些领域,是比较新的话题。很多的变量在界定的时候没有足够的理论支撑,这时候就需要去查文献,根据文献里边他们确定的那些变量来确定你的控制变量,因为你通常是在他们的基础上又做了一些新的变量,放进去考察这个变量的边际贡献。所以归到根上,还是要去熟读前期文献。

Q2.对于 Logist 异方差性会产生什么问题以及怎么解决?

A: 考虑异方差的话,可以选用选项 Robust,具体可以 help logistic 。估计结果可能不是有效,得到的标准误存在差异。也可以考虑聚类调整后的标准误,因为聚类的标准误其实是包含了你对数据的特征的认知,考虑到在有些组内,比如说行业内我会允许干扰项有相关性,如果是面板数据,我会允许同一家公司内部各个年度上的干扰项有相关性。

Q3. 老师好,请问跑模型的时候,控制变量的选择依据,是根据模型本身去找,分析选择每个控制变量的理由,还是可以按照已有文献,说明引用哪些作者就行?(这一块知识点比较模糊)

A: 控制变量可以根据实际经济意义选择,最后再引用文献表明你选择的的确很有意义。每个控制变量的选择不需要分析的很详细,例如对公司绩效的影响,公司规模肯定是一个控制变量,这个可以不引用文献,但采用企业全要素生产率作为控制变量时,最好是引用权威期刊文献。

Q4. ols 假设中,e(xu)=0 如何推出 x 和 u 不相关?

A: 这个就是 OLS 的一个基本假设,你可能想要问我的问题,是我上课写的那个公式:E(xu)=0 正交。corr(x,u)=0 不相关。

Q5. 老师好,请问:加入某个重要控制变量,是否能作为一个稳健性检验,之前看到中国工业经济有文章这么做过,但是这种情况不多见,不知我们写文章的时候是否可以合理参考这样的稳健性检验方法?

A: 你可以这么想,如果一个变量是重要的,你为什么不在一开始设定模型的时候就把它放进去,还非得再做了一堆的结果以后在稳定性检验这个环节才突然想起来有个变量很重要?这本身就是一个逻辑上的悖论啊。如果你是为了让文章写的完整非要弄出一个变量来做稳定性检验,那你一开始就前面就做错了呀,对不对?这个逻辑很简单,我们一般在这个稳定性环节上去加一些控制变量,其实都是加一些直觉上没有那么重要的,比如说像加一些这个行业的虚拟变量啊,或者是两三年以前发表的一个 Top 期刊上,他放了一个很奇怪的篇章,他说那东西还蛮重要的,但是多数的文章包括后续的文章都没有放那个变量,那你可以去测一下,这个没有问题,因为在模型设定的时候,有些变量呢就纯粹叫控制变量。我多加一些无非就是让我的估计可能更有效率一些,但是它不会导致遗漏变量而产生的内生性的问题。

Q6. 如果有 10 个地区,是不是不要常数项只能加入 9 个虚拟变量?虚拟变量是单独加入还是得和其他变量做交乘,stata 上命令具体怎么实现?

A: 加入 9 个地区的虚拟变量主要是为了防止共线问题,自己加入后,Stata 也会随机删除一个地区的虚拟变量。当然在回归之前,自己可以手动删除一个地区虚拟变量。控制地区效应,一般加入地区虚拟变量,用法为:

 reg y x i.region,r //region为地区编号

Q7. 不同解释变量的系数不能直接比大小吧?

A: 如果你的解释变量是两三个虚拟变量,那就代表他们的量纲都是相同的,这个时候是可以比的。但是也要做假设检验。可以使用 test 命令。如果两个变量的是完全不同的量纲,就好像我们汽车价格那份数据里边,解释变狼既包含汽车的重量,又有汽车的长度,二者量纲不同,他们的系数是无法直接比较的,因为量纲不同。有一个办法是做标准化,每个变量都减掉自己的均值,除上自己样本内的标准差。标准化以后的系数的含义已经发生变化了:表示 X 变动一个标准差,Y 那边变成多少个标准差,这时候是系数之间是可以比较的。再有一个办法,就是我今天讲到的 R 平方的分解。因为 R 平方的分解到最后呢,就是每一个解释变量能够解释 Y 的变动的百分比,它本身是一个没有量纲的东西,那你当然是可以做比较了。我们在好几篇文章里面都用到了这个办法,具体可以参考一下推文:lianxh domin

Q8. 连老师好,请问 mutiple treated unit 的合成控制法现在是不是还需要自己编程序,因为在我的研究中处理组已经超过 25 个了。

A: 这种情况推荐使用 did。或者查下资料采用广义合成控制,好像 R 语言程序包公布了。

Q9. 在做宏观经济对身高的影响时,可以在做 trends and association 图时用 zscore 或者标准化值,但是在 regress 中用取对数的值做,也就是说两部分对数据不同的处理,请问可以这样操作吗?

A: 标准化后的值基本保留了原始数据特征,回归时,显著标准误不存在差异,而取对数数据特征发生了较大变化,推荐统一成一种处理方法。

Q10. 用面板数据做经济对身高的的影响,除了用固定效应,logit,还可以用什么方法吗?可以用 GEE(广义估计方程)做吗?这次老师会讲到 GEE 吗?老师有关于 GEE 的视频实操课推荐吗?谢谢连老师。

A: 这次讲课的内容是按照大纲进行的。那至于说用什么方法,我觉得固定效应、logit 就可以。但是我不知道你为什么要用 logit,你的身高是一个 0,1 的变量吗?除非你把身高给弄成高于平均值或者低于平均值、高于日本平均值或者低于日本平均值。我觉得固定效应模型就可以,你的身高是一个连续的变量嘛,无非就是可能要考虑一个动态面板,因为身高它本身是有一个序列相关性的。

Q11. 请问老师: 怎么理解 OLS 常数项去均值/中心化的作用呢?这个作用有什么意义呢?(是为了满足 OLS 的假设吗?)

A: 你如果模型不放常数项的话,它就相当于你人为的约束从原点出发(那个常数项就会跑到干扰项里面去嘛),不随时间变化的一些东西,有可能会和你的 X 是相关的。我觉得我今天上午画那个散点图是很清楚的,如果是 X 和 Y 是一条水平的带状的散点的分布,那你不放常数项的时候,你会发现一个非常显著的系数,不是说 X 的变动影响了 y,是你人为的约束了常数项等于 0。

Q12.拿到的问卷有的回答不在选项中,比如显示为 -2,179,那这些数据在初步处理时是把删掉吗?因为是官方数据,也无法知道调查中出现这些不正常值的原因。

A: 无法确定原因,直接删除。

Q13. 请问老师在异质性分析时,分组回归和使用交乘项回归的区别是什么?两种方法是否有各自的适用条件呢?

A: 参见连享会推文 Stata: 如何检验分组回归后的组间系数差异?

Q14. 老师,可以分享一下实证分析和论文写作的逻辑/结构吗?另外可以分享如何才能写好论文、讲好故事吗?谢谢老师。

A: 参见:

另外,在高级班的最后一天下午会讲这个问题的。你也可以到网上去搜一下,我之前有讲过这方面的内容(优酷上搜连玉君)。这可能跟你开车一样啊,你没开到一定的里程数,好多东西你没经历过啊,他就完全没感觉。我刚开始开车的时候,我的同事跟我讲说你不开。就没叫入门,我说我觉得我开了 1000 公里,我觉得开的挺好的嘛,后来有一次差点在校内撞到别人,就是因为在这个看不清前面转弯的路况的情况下还在踩油,从那以后我开车就很老实了。所以有些东西跟你智商没关系,纯粹是要交经验税,那背后的含义是什么呢?就是你一定要多读论文多写论文,然后要多跟别人讨论。讨论的过程实际上才会意识到你自己想的时候有些点想的不对或者方向都想错了。看大牛的论文的时候,你如果不动手去重现,你根本就没感觉,因为你会觉得他这个文章每一个环节都做的是天衣无缝的,但是你去重现的时候,你会发现它其实很巧妙的把某些东西都美化掉了。和走马观花一样,腿瘸了我就骑个马对不对?虽说要善于掩盖自己的缺点,但是从科学研究的角度来讲,你应该原原本本的把它呈现出来。

Q15. 管理领域公司层面的研究经常是控制行业、控制上市板块,比如说是创业板的某几个行业公司的全部样本,这个时候并不算是从母体(如果希望理论的一般性,母体应该所有公司,至少是上市公司)中随机抽取,因此 BoostrapJackknife 都无法适用?

A: 应该是研究主题不同吧,形成的样本就是母本。就像省级数据,包括东中西,也是随机抽取。要是研究创业板,bootstrap 就从创业板中抽取。

Q16. 在使用 bootstrap 抽样法时,从现有样本中可重复抽取 N 个观察值,这个 N 等于初始样本的数量吗,比如说 80 个初始样本, bootstrap 就是可重复抽取 80 个观察值,抽取 500 或 1000 次?

A: 你用 Bootstrap 去做抽样的时候,基本上我们目前的做法全都是抽的观察值的个数刚好等于原始样本的观察值的个数,因为做 Bootstrap 的时候是有放回的抽样。

参见连享会推文:

Q17.老师,我们在进行 t 检验的时候您设定的 H0 为什么是 β=0 呢?一般的话不应该是 H0 设定为 β 跑出来的值吗?

A: 检验的是否显著异于 0。β 跑出来的是 95% 置信区间中的一个估计系数,这个置信区间是否包含 0 ,包含 0 就是不显著的,所以检验是否显著异于 0 。我在高级班里面讲面板门限模型的时候,里面就会涉及到一个检验一下我估出来的门槛值,是不是等于真实值的检验,那就是你说的这种。那个一般做的很少,因为我们经济学家呀,都很粗暴地定性看一看 X 对 Y 有没有影响,影响的标准就是 β 是不是等于 0。

Q18. 不考虑 jackknifebootstrap ,就普通 ols 而言,se(B)生成的原理是什么?比如 auto.dta 样本数就 74 个, ols 内部会跑好几遍回归,得到不同的系数值?

A: 统计特性

在得到 OLS 估计式 b 之后,我们必须清楚地认识到:b 是一个随机变量,原因是其 表达式中含有 y 或者 从根本上说含有 ε :

为了对估计进行假设检验,我们必须明了 b 的统计特性,即 b 的累积分布以及与之相关的 统计量的分布,在 7.4 中对此将详细展开讨论。 高斯-马可夫定理(the Gauss-Markov theorem ) 6: OLS 估计式 b 是 β 的 BLUE(曼佳 线性无偏估计)。 通过式 (7-26),很容易得到:

有关 Bootstrap 和 Jackknife 的介绍,参见连享会推文:

Q19.刀切法计算标准误时对 E(Xε)0 (外生性假设) 的要求具体体现在哪里?

A: 你用 Jackknife 来做这个标准误的推断的话,其实前提假设也依然是模型里边的解释变量是外生的,如果没有这个条件你这个 Jackknife 也搞不定啊,因为 Jackknife 前提是说,你那估计量是个无偏的估计量。考虑到你样本里面有这种异方差的问题,所以采用这种反复抽样的方式构造经验样本来帮你去算这个系数的准确程度,也就是系数的标准误。无论你采用 jk 还是 BS,前提都是你目前得到的这个估计量是无偏的。因为你可以想一下啊,我每次采用刚才那两种方法去做一次经验抽样的时候,得到那个样本,放到那以后我还是用 ols 去估计的嘛,如果你拿到一个有偏的估计量去估的话,你就估他一万次算出来就是有偏的估计量的一个分布,那就不确定那个分布到底能不能反映真实的状况是吧。比如说打网球,五盘三胜制,如果每一盘在评分的时候裁判都偏向于费德勒,那你就是打 100 盘,大家仍然觉得这是一个不公平的比赛。

Q20. Bootstrap 每次随机抽样抽出的样本数 N 是多少呢?会随着研究问题改变而改变吗?

A: 其实在 Bootstrap 里面最关键的是抽样次数样本比较小的时候,你可以抽样的次数少一点,多的时候呢,抽样的次数就多一点,这个倒没有标准的准则啦。我觉得就是上市公司的研究啊,比如说 N 等于 3000 年、份等于 10 年,大概就 3 万笔观察值,你至少要做 2000 次以上的抽样,这个是在算系数的标准误。如果是算系数的置信区间,可能要做到 5000 次以上。如果你那个统计量特别复杂,可能次数还要增加,那做到什么程度为止呢?就变成说我做 8000 次跟做 9000 次跟做 12,000 次这三种情形下,我的系数呢都不会存在特别大的差别,也就是说你的结果不会因为你选择抽样次数而发生改变,这时候你就选一个差不多的抽样次数就 OK 了。

有关 Bootstrap 的介绍,参见连享会推文:

Q21.怎么判断回归中有没有异方差呢?

A: 异方差检验可以参考 B-P test,具体参考以下代码:

sysuse auto, clear
   reg price weight mpg turn foreign
   estat hettest, normal   /*B-P检验的原意,同方差假设*/

对于 G-Q test,参见 help gqhet,white 检验,参见 help whitetst

Q22. 请问累计异常回报率 car 怎么计算?在 Stata 里怎么实现?

A:- 专题:回归分析

Q23. Stata 中画出的散点图是不是没法显示每个观测点的具体数值?能否实现让它显示某些点取值?

A: 可以的,在 option 里面能设定。可以参考:

sysuse auto,clear
twoway (scatter price mpg, mlabel(price))

Q24. 在回归分析中,如何判断具体是哪几个变量存在多重共线性?同时,如果存在几组变量的多重共线性(即 va 和 vb 共线,vc 和 vd 共线),如何判断?谢谢。

A: 相关系数较大两个变量,存在共线。或者采用方差膨胀因子,VIF 较大共线存在:

sysuse auto,clear
reg price wei length rep78
estat vif

Q25. 如果随机扰动项不服从正态分布那么可能就需要用刀切法,但是实践中如何知道随机扰动项是否服从正态分布呢?

A: 这个统计学里面有很多方法来检验正态分布。比如说我直接看也是一个办法啊。画一个直方图或者算他的均值还有偏度、峰度这些统计量,你也可以输入 findit normal test 找相应的命令。

Q26. Stata 是否有从多份 excel 格式的年鉴数据中抓取所需数据的方法?

A: 我不知道你提到的「抓取」是什么意思,要给出清晰的界定才行。比如说,无论是从网上爬虫也好,通过 Python 去编程抓取也好,但凡提到「抓取」,一定要有一个预先的非常清晰的定义程序才能帮你去做,否则的话干不了。所以说你从 Excel,比如说每张 Excel 表格里边都会有 10 张子表,那你说我是抓第 5 张表还是说从这个 Excel 里面的所有子表里面,去扫描一遍抓包含特定的关键词(比如说包含货币政策这个关键词)把那些行或者那些列抓出来,你需要有一个清晰的定义就可以做。

Q27. 最高层级 cluster 的最高层级是什么意思?

A: 比如下面这个例子:我在模型里面既包含了公司层面的个体效应,又包含了行业层面的个体效应,就相当于我要去控制两组虚拟变量,可是我们知道多数的情形下行业是比公司更高层级的或者是更宽泛层级的一个分类,那么我在后面加 vce(cluster industry) 考虑剧烈调整后的标准误呢,我就应该加 industry。你既然在模型里面加入了行业的虚拟变量,实际上你就是认为同一个行业内部的公司是一组的嘛,那么这些组内的公司,每个公司下面又分了好多年,你认为这些观察值之间彼此是有相关性的。所以,你在考虑他们的干扰项的时候,就应该假设这种相关性存在。

reg y x i.idcode i.industry

参见:

Q28. 请问一下, dominA rank 这个命令是不是主要用在分析类似于“有哪些因素对于 y 有影响”这一类的研究问题上?如果对于只有两个解释变量的话用这个命令的意义是不是不大?谢谢。

A: dominA 这个命令没有做任何什么统计的计算,只是在 domin 的基础上让结果呈现的更符合我们在论文里面呈现的样子,所以即使没有这个命令也没关系,你无非就是花点时间去复制粘贴整理一下那张表格而已。

Q29.在什么情况下使用标准化后的系数,什么时候使用原始的系数?

A: 不影响统计推断地情况下社会学、管理学经常用标准化数据,经济学一般取对数。

Q30. 做 OLS 的时候出现 R2 和 adj-R2 为负: -0.27 和 -0.35,意味着什么呢?模型不能解释 y?这样的结果可以用吗?

A: 如果模型里面出现异方差等情形,你的 R 平方就有可能跳出 0~1 的范围,可能是小于 0 的或者大于 1 的。简单来讲,做非线性最小二乘的时候 R 平方你完全可以不用报告,因为没有什么意义。

Q31.老师,异方差处理一般用 robust、vce(cluster),什么情况下会用 JackknifeBootstrap呢?谢谢老师!

A: 用于构建面板门限模型,计算 F 统计量。 具体来说,通过 Bootstrap 产生经验样本,利用这些经验样本呢再算出 1000 个 F 值,通过计算机模拟的方式来去分析这 1000 个数构成的这个分布的特征。比如计算置信区间,标准误。之所以这么做是因为 F 统计量的值取决于一个未知参数,那个未知参数需要通过网格搜索的方法事先获取。也就是说得到一个统计量,它要分两步,第 1 步先要去搜索一个参数,第 2 步在基于这个参数构造统计量叫伴随参数的问题。这种情况下算出来这 F 统计量的分布是在理论上没有办法推导出来的。 另外如果数据从直觉上或者是前期文献的分析进行分析,存在很严重的和正态分布的偏离,就需要用 Jackknife 和 Boostrap 来获取标准误。比如说做专利的数据,那个专利的分布,它可能就不是一个正态分布,因为很多公司的专利的数值呢就是 0 或者一还有就是每年开车拿罚单的个数也是集中在 01 的这样的一些状况上,所以就可能需要考虑一方差或者过度分散的这种问题。

Q32.老师,昨天讲的常数项的作用是为了去均值,这里还是不太明白,如何体现出去均值呢?还有加入虚拟变量的作用是实现组内去心,也不是很清楚。

A: 保留了常数项的模型等价于去均值的模型,这两个是等价变换,所以说常数项的作用是为了去均值。 假如加入工会的虚拟变量,其效果等价于对于工会成员去掉工会成员的样本均值,对非工会成员去掉非工会成员的样本均值。

更正式的分析如下:

Q33.面板数据回归中,会经常看到在标准误计算上,有用 robust 的,也有用 cluster 的,请问这两种之间会有什么区别?用哪一种会更符合投稿要求呢?另外,老师上午说 cluster 里面用的是最高层级,但使用个体效应和年份效应时,cluster(id)?但我经常看到 cluster(id,year),这又该如何选择?

A: 对于 xtreg 的命令,robust 等价于 cluster; 个体效应

*-----------------
*-5.3.3 估计方法

  *-5.3.3.1 异方差-序列相关稳健型估计

      use "xtcs.dta", clear
      xtreg tl size ndts tang tobin npr, fe robust
      est store fe_rb

	*-等价于(在公司层面上的聚类调整标准误)
	  xtreg tl size ndts tang tobin npr, fe cluster(code)

	  *-含义:
	  * (1) 组内(公司内部)各年度的干扰项可以彼此相关;
	  * (2) 组间(不同公司之间)的干扰项彼此不相关(同期不相关,跨期也不相关)
	  * (3) 组间存在异方差 (A 公司干扰项的方差不同于 B 公司)

      * Q: cluster(industry), cluster(year), cluster(province) 分别是什么含义?

Q34.面板数据回归中,有用 reg Y X i.industry i.year,r;也有用 xtreg Y X i.year,fe r。是当 xtreg 回归显著时报 xtreg 的结果,不然就使用 reg 的回归结果?

A:

Q35.面板数据回归中,有时候除了会 i.industry 和 i.year 之外,还会 i.industry#year。请问什么情况下会 i.交乘项?另外,有文章只是 i.industry*yeari.area*year,没有放单独的 `i.industry、i.year 和 i.area,请问这又是在什么情况下会这么做?

A:

Q36.每个扰动项都是固定的,为什么说每个扰动项服从正态分布?另外,方差总残差估计,每个类别中,聚类的相关性是如何计算的?

A: 因为每个扰动项根据分析方法的不同,可以假设都来源于同一个分布,也可以认为来源于不同的分布。举例来说,班上有 200 位同学。 根据第 1 种分析方法,可以把大家分成男和女两个组。假设男生是从男性的这个总体里抽出来的。女生是从女性的总体抽出来的。那就只有两个不同的干扰项的分布而已。 根据第 2 种分析方法,假设在男生里边可以根据年龄来分组,分成 20 岁到 30 岁,30 岁到 40 岁,每 10 岁一个组别等,还可以进一步地把男生再拆出 5、6 个组来,每一个组都来自于一个不同的分布。因为 30 岁的男生和 40 岁的男生在很多行为上已经有一些差别了。 根据第 3 种分析方法,即使在 40 岁的这一组里边,你其实还可以再根据他的教育程度,根据还有几个小孩或者根据他开什么车就反映一个人的偏好再分组。 最后,如果按照这个逻辑的细分下去,其实可以把每一个观察值都当成来自于某一个特定的特征的母体的一个分布。那这样的话实际上可以给每一个观察值对应的那个干扰项都加一个下标,因为他们都来自于一个不同的分布。

Q37.组间系数检验的三种方法的区别及平时哪种方法用的多?

A: 第 1 种方法就是做一个 Chow 检验,是在模型里边加入虚拟变量和虚拟变量跟连续变量的交叉项。检验那个 θ =0 实际上是检验两组的斜率有没有差别。 第 2 种检验方法是采用 BS 进行检验。下设的是两组的,系数不存在。如果是这样的话,就可以把两个样本组的观察值混起来,然后进行随机的抽取。比如说 100 个观察值认为是第 1 组的,剩下的 100 个观察值呢就认为是第 2 组的,因为随机抽取的根据的是假设,但是这两组的观察这个系数不存在差别吗?我就可以随便抽吗?不是的。 抽 1000 次就可以做出 1000 个系数的差别,这 1000 个系数差别实际上就是一个统计量的 1000 次的观测。进一步的可以根据这 1000 次的观测有多少次是大于真实看到的那个系数差别计算概率。如果这个概率非常非常的高,那就代表真实看到的那个值是不太容易看到的。比如说真正看到的系数差别是 0.6,做了 1000 次最大值还只有 0.5,那代表说看到的那个差别是非常难以看到的一个事,那只能说原假设是错的,两个系数还是存在差别的。具体内容可以参考下方推文。

Q38.实证操作上的一个细节,就是中国上市公司的行业分类,在 2012 年证监会行业分类发生变化,在研究区间内有的公司行业会发生变更。请问,一个面板数据跨度在 2001-2019 年,里面既有公司的行业代码发生变更,在 12 年也会出现前后同一行业代码不一致的情况,那么在计算与行业相关的变量时怎么办,如计算行业财务杠杆的均值。是不是需要将 12 年前后的同一行业代码变成一致的,而行业发生变更就看成是这个公司分属了两个行业?但有时候发现行业变更正好在研究区间的最后一年,这种要不要更改公司的行业呢?

A: 通常不做改动,属于哪个行业就按哪个行业,因为中国很很多公司借壳上市, 所以行业变更有时候意味着变成了一家全新的公司。

Q39.请问什么时候用 lincom?

A: 建议看帮助文档。

Q40. 想问一下画图的问题:怎么用 histogram 将两个变量画出 byhist 的效果?试了一下 byhist 只能画一个变量,通过 by 分组;若是现在在数据库中已经完成分组,例如男女工资是分别的两个变量,怎么画出 byhist 的效果呢?

A:

sysuse "auto.dta", clear
twoway (histogram price if foreign==0) ///
       (histogram price if foreign==1)

Q41. tobit 回归分析数据时,有时候 R2 是负数,请问是怎么回事?结果不好汇报。

A: 不用报告了,R 平方也没什么意义。

Q42. 运行程序,说很多命令无法辨认,unrecognized,应该怎么把命令能进去?

A: 根据课件的指示把 ado files 放在相应位置就行了。

Q43. A2data 中第 348 行 sepby(code) noobs clean 是什么意思?

A: 看一下帮助文件。要是想测出他们的效果,可以把这几个选项一次一个一个地拿掉,可以看到屏幕上呈现的结果有什么变化了。

Q44.能否解释下 A4 regress 第 276 行结果中每个值的意义?

A:

Q45.能否分享搜狗短语定义配置文件,并介绍如何贴入我的配置文件?

A: 参考专题:

Q46.回归中的 R 方为负数的原因以及怎么处理?

A: R 平方通常都不会出现负数,一般的是调整后的 R 平方为负。主要是因为模型里面加入了很多不显著的变量,没有增加 R 平方,反而再惩罚你的模型,所以调整后的平方就变成小于 0 的数了。比如参加足球比赛,15 个人上场跟别人 10 个人踢,但是多出来那 5 个人水平不行啊,影响到正常 10 个人的发挥,导最终效果不如 10 个人。

Q47. 面板数据回归中,reg Y X controls i.industry i.year,r时,X 正向显著;xtreg Y X controls i.year,fe r时,X 负向显著。请问这是出现什么问题了呢?该如何抉择呢?

A: 因为加了行业的虚拟变量,实际上隐含的假设是同行业内部,各个公司的结局都相同。但是再混合 OLS 中,实际上是假设样本里面所有公司的结局都相同,这个假设如果合理,那就没问题。如果不合理,可能还是用固定效应模型更好。 合理就相当于是一个截面的差别。所以今天课堂上混合 OLS 和固定效应模型一条是红线,斜率为负,另外一条是三条蓝色的线,斜率为正,两个模型都没错,只是从不同的角度在看同一件事儿。比如=今天延迟下课,有的人认为他是个好事儿。一些人认为连老师很敬业,另一些人就不买账了。所以这个没有对错之分,就是看怎么从哪个角度去看这个问题。

Q48. 1605 行中产生了很多交互项,但是只有一个交互项显著,其他不显著的交互项是全部保留还是去掉呀?如果去掉交互项,它们的初始变量要不要去掉呀?比如去掉 A*B,A B 是不是也要相应去掉啊?

A:

A: 根据目的进行选择。如果目的是要检验有没有结构变化,那么模型里面假设有 5 个变量,其实只要任何一个变量产生了斜率的显著性的变动,就可以认为有结构变化。比如说改革开放中,发现生产函数里面有 K 和 L 这两个变量,不管是 K 那个系数资本的弹性发生了显著性的变化,还是劳动力的弹性系数发生了显著的变化,都认为改革开放是有效果的。所以这时候是一个联合检验,即使有一些变量不显著,但是他们整体上去检验的时候是显著,仍然可以拒绝没有结构变化的原假设。

如果目的纯粹是为了检验其中的一两个特别关心的变量有没有发生。比如我们在断点回归分析里面有一个拐点回归,目的是分析斜率有没有发生变化。如果发生变化就变成一个有拐点了的,就意味着在那个点后面斜率发生变化了。那时候其实还反而不会有这么多的交叉项,就只有一两个变量会和关心的那个政策的虚拟变量产生交叉。

Q49.老师请问咱们回归分析 1420 行的 noci scheme 是用来做什么的呀?谢谢!

A: scheme(s1mono) 这个是画黑白图形的。scheme(s2color) 这个设定的是画彩色图形。

     *-----------------------------图示-----------------margins--
	  reg wage hours i.D
	  margins D, at(hours = (5(5)80)) atmeans
      marginsplot, ytitle(Fitted Hourly Wage) //noci scheme(s1mono)
	 *-----------------------------图示---------------------------

Q50.老师请问我们第三课课件 402 中的 c(s)是什么意思呢?

A: column 的简写,按列呈现基本统计量。

Q51.连老师好,请问 mutiple treated unit 的合成控制法现在是不是还需要自己编程序,因为在我的研究中处理组已经超过 25 个了。有没有直接能拿来参考的?谢谢老师。

A: 可以参考在 Sata 里面输入命令 lianxh DID 倍分法

Q52.老师好 请问我们第三课课件 645 行 dis in g “*” _c可以再解释下嘛

A:

Q53.老师好 请问第三课 738 行为什么要建 local v 然后 insheet v 来导入文件,为什么不直接用循环语句导入呢?

A: 因为使用 local 命令在给变量命名时更简洁。

Q54.对于 Logist 异方差性会产生什么问题以及怎么解决?

A: 同 Q2。

Q55.我们大多数的数据都是面板数据,它会把不含时间效应的变量自动删除,但我们不可能把不含时间效应的变量都删除的,该怎么办?此时只能用随机效应模型吗?

A: 应该把时间效应的虚拟变量这个盒子给它拆开,然后将不含时间效应的变量单独的一个一个的放进去。 比如,αi 里边包含了所有不随时间变化的因素,比如要研究收入对消费的影响用的是个人层面的数据,αi 里边就包含了性别,出生地,星座,血型这些不随时间变化的因素。假设想研究星座对一个人的消费的影响。这就满足刚才说的这种情境,就是说这个变量,它是不随时间发生变化的。 因此应该把 αi 这个黑盒子呢给拆开。假设认为包含 5 个核心的主要的变量,比如说出生地血型星座,如果重点关注的是星座,就应该把出生地和血型这两个变量作为控制变量,作为一个 OLS 混合回归。可以用 i.born i.bloodtype i.star 刻画 αi

reg consume income x2-x5 i.born i.bloodtype i.star

参见:

Q56.如果个体效应和解释变量都高度相关,怎么再用随机效应模型呢?

A: 那就用固定效应模型。

Q58.将一个行业层面的变量作为核心解释变量,去估计企业层面的变量,在固定效应时可以固定到哪一层面,可以固定企业吗,以及,可以固定省份吗?

A: 省份那就看那个公司的注册地有没有发生过改变,如果发生过改变的话,就可以把那个省份效应放进去。如果一个公司的行业归属发生过时间上的变动,就可以把行业效应加入模型。但是根据经验,90%的公司行业归属在研究的样本区间里边都不发生变化,行业应该也是这样的。所以这种情况下,把固定效应加到公司层面就行了,因为它比行业层面来得更加细致。

Q59.老师好,请问是否可以再详细介绍一下 lincom 背后的含义呀,比如行 1461 的那行命令的语句,为何要这么做,以及检验结果如何解释。

A:

Q60.当设计柱状图的时候,老师可否演示一下过程,比如有 A=30,B=40,C=50,D=A+C+D+E,想要画出 ABC 的柱状图,并显示出百分比数据。自学了连享会上的那篇说柱状图的文章感觉还是挺复杂的,希望老师演示一下,谢谢!

A:

//基本柱状图
sysuse auto,clear
graph bar (percent), over(rep78)

//累加柱体,并显示百分数
sysuse educ99gdp, clear
generate frac = private/(private + public)
#delimit ;
    graph bar  public private, stack percent
      over(country, sort(frac) descending)
  blabel(bar, posi(center) color(white) format(%3.1f))
      title("Public and private spending on tertiary education, 1999",
              span pos(11) )
      subtitle(" ")
      note("Source: OECD, Education at a Glance 2002", span);
  #delimit cr

Q61.如果在控制变量里面同时有企业,行业和国家层面数据,在同时控制了企业,行业和国家层面的固定效应后,cluster 到哪个层面合适呢?还是行业层面吗?

A: 同时控制企业、行业和国家效应,在模型中需要引入这三组虚拟变量,多数情况下国家比行业级别更高,所以在国家层面聚类 vce(cluster industry) 。需要说明的是,研究的世界上所有国家的企业数据,国家层面 cluster ,但研究的是几个国家的上市企业,感觉 vce(cluster industry)

Q62.调节变量的系数有没有意义呢?

A: 调节变量反应的是调节变量 Z 对 X 影响 Y 关系的一种改变的程度。如果是正向关系的话,随着 Z 的增大,X 对 Y 的影响逐渐增大;如果是负向关系,随着 X 的增大,X 对 Y 的影响会逐渐减弱。之前画的鱼骨图以及 margins 形成的图形都在解释这个作用原理。例如,研究家庭小孩个数对夫妻关系的影响,随着小孩一个一个的出生,夫妻关系是加强还是减弱?这就反映在交叉项的系数里了。

Q63.交乘项:放入 z 之后交乘项的系数不显著时,若理论分析 z 会影响 y,那么模型里面就必须放 z 是吗?这个时候可以选择去中心化吗,若是去中心化之后还是不显著,那么该怎么解释呢?

A: 去中心化不影响估计系数的显著性,甚至都不影响交叉项的系数。只是做了中心化处理以后呢,便于解释交叉项之前和交叉之后的那个系数有一个可比性。 前一个问题而言,加入 z 以后交乘项的估计系数不显著,这个是做研究的一个基本问题。在理论上分析完以后,认为交乘项会改变 X 和 Y 的关系,就一定需要数据要支持?这个不一定需要,可能开始的理论分析本来就是错的。所以经常会发现国外的好多文章中,某一种政策实施以后,没有产生统计上显著的效果,这个本身就是文章的结论。

Q64.老师好,请问在 Stata 做回归模型时,聚类和虚拟变量有什么区别吗:cluster(industry)和 i.industry

A: 加虚拟变量就是变截距,如果探究其经济含义,以课程中的面试的例子就很好理解。有些 Y 的变动并不是 X 的变动导致,可能是 Y 本身就具有一些特质。如果从模型设定的角度来讲,就相当于你遗漏了一些不可观测的变量。例如评估学生分数这个例子,如果你遗漏了两组评审委员他们个体的特征。如果能够有一些办法观测到两组两组评审委员各自的特征,可以用变量衡量,那直接在模型里多加这个变量就可以解决,不至于去做cluster(industry)i.industry,其实是刻画干扰项的特征以及干扰项与解释变量,完全是两回事。

解释变量可以在前端控制一些东西,即使是不可观测的,也可以通过组内去心和组内差分等方式将其消除,而干扰项是完全不可观测的一些随机因素,只能假设它服从某种特征,例如假设它服从正态分布;假设今年的干扰项和去年的干扰项存在相关性。所以 cluster 的处理方式也是假设它的某种特征,例如 cluster(industry),实际上是假设同行业内部各个公司之间的干扰项遇到外界的随机冲击时,有一定的相关性。

计量经济学的本质都是在拆这个黑盒子(干扰项),这个干扰项不可观测,也成了最大的挑战。开始学的 OLS 假设 X 和干扰项不相关,假设干扰项服从正态分布同方差,这是最理想状况。然后,再开始学异方差、序列相关。实际上都是假设干扰项都有某些特征、异方差。就是说不通组别之间的方差不一样,序列相关也就是这一期和上一期受到的干扰项存在相关性。后续学习的 Garch、Var 等复杂模型都是将重点放到这个干扰项上。

Q65.残差过大的情况(怎么判断呢?),考虑异方差处理(white,jackknife,bs); 那么常数项过大的时候,该怎么处理呢?或者该怎么解释呢?

A: 残差过大最基本的办法就是先做一个 ols 回归,然后再算出残差,给他排个序,就可以看到残差谁大谁小或者画一个散点图。所以它里面有相应的命令直接画残差跟被解释变量,或者是残差跟某一个解释变量之间的散点图,这个都可以非常直观。

Q66.如果回归方程中同时加入一次项和二次项与调节变量 Z 的交互项,是否合适?回归结果应该如何解释呢?

A: 这个没有问题,可以加,而且觉得也不太难解释清楚。

Q67.请问老师能否在高级班补充讲一些 logitprobit 的模型?

A: 按计划这些内容就会讲了。

Q68.老师在讲固定效应时的例子时,如果用混合 ols 和虚拟变量与固定效应模型会有差别吗?

A: 这个差别是立竿见影的。今天讲的时候那条红色的线,斜率是负的三条,蓝色的线平行的斜率是正的,因为红色的线讲的是大公司和小公司的业绩差别,而三条蓝色的平行线是一家公司,随着时间的推移慢慢的从小变大成长的过程中,可以直观看到它的业绩怎么变动。

Q69.442 行表格中固定效应的 4 种估计方法,列式结果是不是不一样?(4)FE 的列式结果是什么,组内去心平均化之后怎么再体现每个行业的差别,组内去心的结果如何解释?

A: 结果在今天最后一个小时的时候特别的强调了。其实每次加 dummy 都相当于在做一些组内的区分,最基本的一个东西就是在模型里面只放一个常数项,这就是对样本做一个均值的去心,如果加两个虚拟变量,工会和非公会,那就分别对于工会成员做一个减掉工会成员平均值的去心,而针对非公会成员也做一个减掉非公会成员平均值的去心,如果是加 13 个行业的单位,就相当于针对每一个行业内部的公司,都减掉它所在行业的均值,即使加 1 万个公司层面的虚拟变量,也无非就是对这 1 万家公司,每家公司都减掉它自己的平均值。

Q70.实证研究中被解释变量是面板数据,核心解释变量是时间序列数据,比如用我国 GDP 对上市公司的某个财务指标做回归,这样得到 GDP 的回归系数可信吗(其他层面主要影响因素已放入控制变量)?

A: 这个可信不可信,不是我来回答的。这个本来就可以做。谁也没有要求说不能做,而且现在去看公司金融方面的研究,一个很重要的趋势就是大家会采用混合的这种数据来做,经常研究货币政策对公司的现金持有,公司的风险承担等这方面的影响。那被解释变量就是公司的负债率、风险承担,就是既随公司又随时间发生变化的,就是公司层面的变量。而解释变量,比如说货币政策的变动,它就是一个宏观层面的变量,这种文章特别多。比如说去看一看饶品贵,祝继高的研究,他们都做了好几篇这方面的文章,尤其是最近在做一些政策不确定性,EPU 的文章也都是属于这种类型的。

Q71.第 4 讲中 1579 行,下面回归结果中 union 怎么出来的?在这种情形下,怎么引用系数(如 D、D#c.hours 的系数)?使用 _b[x1] 的方法好像行不通了

A: 已经rename union D 显示的 D 下面的 union 表示为 1 的情形,不使用 rename 则继续显示 union。可以 _b[D##c.hours]

Q72.做双固定效应模型时,加入 i.year 效果差,改为加入时间趋势项 t 后回归效果稍好但仍不佳,尝试加入时间 t 和个体效应 dummy 的乘积之后效果不错,这样操作可以吗?

A: 加入 year dummy,加入时间趋势以及时间趋势和个体效应交乘,以及各自的含义。那你自己酌情去解释了。

Q73.请问老师 R squarePseudo R square 的区别是什么?如何解释呢?

A: Pseudo R square,一般的都是在离散的模型里边用到的,比如说。logit、probit, 如果想了解的话,得看一看这些 R 平方是怎么算出来的,其实它有时候是根据对数似然函数值的差异来构造一个统计量,它跟我们 OLS 回归里面基于方差分解算出来这个 R 平方完全是两回事。所以他叫伪 R 平方。

Q74.根据老师所讲内容,面板数据当中最好直接用 FE ,即使没有通过Hausman Test?主要是文献中看到很多还是进行 Hausman Test ,然后用 RE 的。

A: 我不做 Hausman 检验,上来直接固定效应,而且是双向固定效应。去做 Hausman 检验,只能暴露一个信息,就是刚学完计量,而且理解的比较肤浅。

Q75.实证回归发现解释变量和被解释变量呈现显著的 U 型关系,但是如果后面发现我们的数据样本区间仅仅覆盖了 U 型右侧的一部分区间,是否意味着我们基于这样的数据样本估计得到的 U 型关系是不可信的?

A: 即使是右半支也仍然可以分析,如果是这个 U 型曲线,它的斜率变化非常的明显,仍然可以用 margin support 那个命令去绘制它的边际效应的变化的趋势,应该会有非常明显的边际递增或者递减的效果。

Q76. i.id和命令语 fe 是一样的是吗,那么 i.yearfe 也可以是双向固定的写法吗。还有请问老师能讲一下聚类调整和固定效果模型的差异和使用吗?

A: yes

Q77. 面板数据分析中,时间趋势项和时间效应可以同时加入吗?

A: 肯定是不行,因为时间虚拟变量的线性组合刚好就是那个时间趋势,它们是完全共线性的,除非你把时间虚拟变量做成一个分段的,这估计也不行,因为其实在说一回事,只不过那个时间趋势是把时间虚拟变量做了一个高度的简化而已。

Q78. 麻烦连老师讲讲 5.4 内生性问题和 IV 估计吧,投稿时,很多审稿专家都会提出这方面的问题,谢谢。

A: IV 估计我在高级班的时候会稍微讲一下。

Q79. 在固定效应模型中,解释变量年度人均 GDP,有很强的时间序列相关,加入时间固定效应后就不显著。请问这时还需要一定加入时间固定效应吗?如果要加,应该怎么处理?

A: 这个我上课已经回答过了,我认为只要你的时间跨度比较长,而且在你研究的样本区间内,可能会有很多政策的冲击,就必须要加上年度的虚拟变量,否则的话审稿人过不了。

Q80. 老师,在跑 logit 回归的时候,经常会删掉好多诸如行业和年度的虚拟变量,是什么原因导致的呢?

A: 可能由于共线问题导致。

Q81. 老师,在控制行业后,再控制个体固定效应,行业一般都会被 omit,我可以理解为是个体层面的固定效应把行业吸收掉了吗?

A: 一般由于共线问题 Stata 会自动删除,如果行业一直不随时间变化,固定效应是无法估计的。

Q82. xtreg lnFVC lnPCDI lnheight lnweight P90 P97 P07 yr*, fe robust 请教连老师,1、做人均可支配收入对肺活量的影响,1985-2014 年的 31 个省的面板数据,其中学校体育课层面的数据无法获得,我可以讲 1990,1997,2007 年的学校体育学的三条有实质性措施的政策作为学校体育课层面的工具变量吗?2 以上三大政策既是学校体育的工具变量,也可以作为时间效应的控制,在论文可以这样描述吗? 3 我已经做了三大政策作为时间效应的控制,但是有些审稿人还要求做时间效应的控制,那么可以放入时间虚拟变量,然后将和三大政策产生共线性的时间虚拟变量删除,只保留部分,请问可以这样处理吗?

A: 第一个不知如何回答,需要说清楚内生性的来源是啥才能判断,请私下联系连老师下。第二个问题直接控制时间效应即可,毕竟控制时间效应范围更大。第三个问题,可以。(助教 李胜胜个人理解,可以具体私信下连老师。)

Q83. 请问 i.year i.indcd,vce(cluster id)这种写法合理吗 没有服从您说的最高层级去 cluster 但是现在很多也有这样用的 请问有问题吗?

A: 可以这样写,很多中文期刊都是这么用,结合上课的内容,自己酌情考虑,自己用可以考虑引用一些权威性代表性文献(助教李胜胜个人理解,不确定私信连老师)。

Q84. 老师,固定效应模型里边加入 SOE(国企还是非国企),会被删掉。但为什么我读有的论文,SOE 的回归结果是正常的呢?是我们数据结构不同,别人的 SOE 数据可能是随时间变化的,比如国企混改...

A: 应该是数据结构不同,别人的数据应该是 SOE 发生了改变,你的数据一直不变。

Q85. 请教连老师,如果做宏观经济对身体素质的影响,不对原始数据进行处理,例如取对数之类的,而是直接对原始数据做刀切法和自抽样法,这样可以吗,得出的结果也是稳健的对吗?谢谢连老师。

A: Jackknife / Bootstrap 来做这个标准误的推断的话,其实前提假设也依然是模型里边的解释变量是外生的。无论你采用 JK 还是 BS,前提都是目前得到的这个估计量是无偏的。前提成立,得出的结果当然稳健。

  • 整理人:艾卫冕、李胜胜、张瑞钰

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看

专题 嘉宾 直播/回看视频
最新专题 因果推断, 空间计量,寒暑假班等
数据清洗系列 游万海 直播, 88 元,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh