FAQs答疑-2021寒假-Stata高级班-Day1-连玉君-动态面板

发布时间:2021-01-31 阅读 48

连享会·课程答疑


Stata 高级班-Day1,任课老师:连玉君

Update: 2021/1/29 20:00

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course


目录


连享会·课程答疑


Stata 高级班-Day1,任课老师:连玉君

Update: 2021/1/29 16:50

???? 课程主页:https://gitee.com/arlionn/PX
???? 板书和答疑

Q1. 请教连老师,有6480个观察值的面板数据,做经济对身体素质的影响,可能有两种方案:1 原始数据取对数回归,fe robust ;2 数据不做任何处理,直接用bootstrap 。假如结果都显著,而我的目的不是做增长率,只要做出影响力,请问连老师我应该选择哪一种方案?为什么?

A: 两种方案都可以行。首先,取对数的好处在于很大程度上可以克服离群值对回归结果的干扰,有助于做定性的判断,比如X和Y的关系。但是要注意到取完对数以后,二者之间的关系已经变成一个弹性的概念,因此也可以把取对数的回归结果放到稳健性检验;其次,关于主回归结果在不取对数的情况下,可以做一些缩尾处理,比如用Bootstrap 方法考察异方差,稳健性的标准误等。

  • 整理人:王媛媛

Q2.

xtreg lnFVC lnPCDI lnheight  lnweight P90  P97 P07 yr*,  fe  robust

其中

  • P90 = 1, if year >1990;
  • P90 = 0, if not.
  • P97 = 1, if year >1997;
  • P97 = 0, if not.
  • P07 = 1, if year >2007;
  • P07 = 0, if not

请教连老师,

  1. 做人均可支配收入对肺活量的影响,1985-2014年的31个省的面板数据,其中学校体育课层面的数据无法获得,那么可以将 1990,1997,2007 年的学校体育学的三大重要政策作为学校体育层面的代理变量吗?

A1: 重点在于需要找一些证据说明学校真的是执行了这三个政策,且这些政策是强制执行的,比如说政策直接与中考入学,大学入学挂钩等,这样可以证明两者之间存在较强的相关性,否则就说明属于弱相关性。在弱相关性的情况下,就没有办法拿政策作为代理变量,因为三个政策很可能是政府层面摆pose的一个指标,并不能真正反映学生在做体育训练,这个需要在文章里面做一些篇幅来去讨论和论述政策的相关性。

  1. 以上三大政策既是学校体育的代变量,也可以作为时间效应的控制,在论文可以这样描述吗?

A2: 如果是我来做论文的话,我不会把事儿做的这么暧昧,同一组变量既可以担当A的责任,又可以担当B的责任,这个会让审稿人非常的迷惑,到底你这组变量想说什么事呢?按照你这个逻辑,这三个变量又可以代表学校体育锻炼的程度,又在探讨宏观上时间的一些效应,那你估出来的系数到底在说谁的效应呢?是随着时间的推移,大家对体育越来越重视呢,还是学校让学生加强体育锻炼带来的后果呢?很难区分到底是谁带来的效应,这个是做统计推断或者政策效应识别的时候特别棘手的问题。

  1. 已经做了三大政策作为时间效应的控制,但是有些审稿人还要求做时间效应的控制,那么可以放入时间虚拟变量,然后将和三大政策产生共线性的时间虚拟变量删除,只保留部分,请问可以这样处理吗?

A3: 参考A2答案,重点还是在于很难识别政策效应。

  • 整理人:王媛媛  

Q3.

xtreg lnFVC lnGDP lnGDP2 lnheight  lnweight P90 p97 P07 yer*,  fe  robust

其中,GDP2=GDP^2 平方项。

请问如何控制了其他变量条件下做GDP对心肺耐力的边际效应图?直接用xtavplot GDP GDP2,这样可以操作吗? 试了一下好像不可以。老师可以告知具体的命令吗?临近毕业,手头有两篇paper,着急发出去,此外,在请教你们之前我也做了不少搜索,还是没整明白,所以报了寒假班想请高人指导一下,谢谢连老师。

A: 命令是 margins, help marginsplot

  • 整理人:王媛媛  

Q4. 请问连老师:学位论文的主题是以社会生态理论为基础,做经济环境、自然环境、政策、社会人口等对身体素质的影响,用FE做呢,自然环境等个体效应无法显示,用RE做,您上课也讲了,假设条件太强,98%的论文不用RE,请问如果我必须做这个研究,我还有别的方法可以选择吗?感谢答复。

A: 在固定效应模型中,固定效应类似一个黑箱子,它体现了所有不随时间变化的因素,既包括可以观测到的变量,也包括那些不可观测的变量。所以根据你的研究没有必要非得去用一个固定效应模型,因为你的研究目的主要在于把这些要素识别出来。

. reg y x1-x5 e  social i.minzu   

其中,αi=[e,social,i.minzu,无法观察的个体因素]

  • 整理人:王媛媛  

Q5. 老师您好,请问我们在静态面板中使用fe而在动态面板中主要选择gmm的原因是什么呢?

A: GMM本身就是一个固定效应类的估计方法。系统GMM 不是一个模型,只是一个估计方法。目前主流的三个估计方法有:一是最小二乘法;二是广义矩估计方法( GMM);三是最大似然估计方法(MLE)。GMM 估计方法本来就是应对内生性问题的,即使不是做动态面板模型,只要存在一个或者多个内生变量,就可以基于理论的分析找出它对应的矩条件,即在假设干扰项不存在相关的前提下,可以构造相应的矩条件,再对模型展开估计,所以是否采用 GMM 估计与你模型本身有没有动态关系无直接关联,重点在于确认解释变量是内生还是外生,进而构造相关矩条件。

  • 整理人:王媛媛

Q6.1、研究中IV与 yit 有互为因果的嫌疑,且找不到合适的工具变量,这种情况怎么破呢?2、面板数据里,想控制性别这种不随时间改变的变量,用固定效应模型会被自动忽略掉,怎么办?

A1: 参考以下专题:

另外一个办法就是,如果数据时间跨度较长,比如时间上长度超过6年,可以考虑做一个面板VAR模型。

A2: 性别等不随时间变化的变量已经在个体固定效应包括了,如果所关心的系数所对应的变量不随时间变化的话,那么控制个体固定效应后就不需要控制不随时间改变的变量了。

  • 整理人:王媛媛

Q7. 在心理学领域,当我们处理截面数据的时候会用到中介效应模型,研究A通过影响B,然后影响C这一路径的系数。但在宏观经济学的研究中,当我们使用面板数据时,似乎在已有的文献中,中介效应的思路比较少见。我的问题是,使用面板数据时,是否能使用中介效应的方法?比如研究人力资本存量、产业结构、以及经济增长这三者的关系,是否能够首先使用人力资本存量对产业结构进行一个回归,然后进一步将人力资本存量与产业结构的回归式带入产业结构与经济增长的关系式中,算出一个中介效应的系数?以上是我的问题一,我的问题二是基于问题一提出的:由于宏观经济环境下的一些变量经常存在互为因果的关系,通过动态面板数据的估计方法可以从一定程度上解决这一问题。那么是否存在这种可能,即在PVAR的估计方法下,实现中介效应的检验呢,具体例子与上面提到的类似,即研究人力资本存量促进产业结构升级,从而促进经济增长?

A: 参考以下专题:

  • 整理人:王媛媛

Q8. 为什么不能通过判断 模型残差和工具变量相关性,判断工具变量外生呢?例如,(1)ivreg2 y (x=z), 预测残差e(2)然后回归reg e z 如果z系数不显著就能证明工具变量的外生性

A: 这样做会导致一个鸡生蛋蛋生鸡的问题。首先,预测残差是第1步做的工作,这里面依赖于一个假设,即要保证所找的工具变量是外生的,此时得到的残差才是一个无偏估计。其次,在做第2步的时候,是依赖于第1步的,由于工具变量是外生的,如果拿残差去检验你的工具变量是不是外生的,在逻辑上有点绕。重点在于至少要有两个以上的工具变量,才可以去检验工具变量是不是外生,做法是只能假设其中有一个是好的工具变量,再检验另外一个工具变量所得到的结果是不是一致,反之亦然,这也是过度识别检验里边大家普遍面临的问题,到现在也没有解。

  • 整理人:王媛媛

Q9. 请问一下,我的解释变量和被解释变量(日股票收益)都是日度数据,可是控制变量比如(roa, roe, pe)这些都是年度数据,该怎么merge这些数据呢?比如一家公司在2019年roa的值是0.8,那是否可以把这家公司2019年每一天的roa都看作是0.8然后进行面板回归?接着我还打算看看我的解释变量是否对被解释变量产生滞后效应该用什么模型呢?谢谢

A: 首先,关于合并数据问题的做法是没问题的,即每一天的roe都对应当年的roe。其次,关于滞后项使用问题,根据你所建立的回归分析背后的理论基础是什么?如果你根据CPM模型或者是3因子、5因子模型的话,可能未必需要加入年度收益率,如果非要选择放的话,模型就变成考察去年的roe会不会影响今年每一天的股票收益。但是,我们目前一般是反过来做,比如2020年的 JFE 就专门有一篇文章做这方面研究,他是通过探讨市场上股价的表现,进而得出股价表现是否有助于预测未来一年两年甚至到第5年 roe的变动。ROEit+s=α0+β1M/V+uit

当然,你的模型设定从操作上将是可以的,但是困难在于理论基础的解释,即背后的经济意义是什么?

  • 整理人:王媛媛  

Q10. 老师您好,请问GMM为什么要先进行fd去除个体效应,不进行fd好像也不违背GMM的两个假设。

A: 不进行fd不违背理论GMM的两个假设,但是经常我们做panel的时候会面临很多个截面资料,如果不去除个体效应的话,就需要用一个搭配的方式。另外,在动态面板的相关理论文献里,也不太区分个体效应 到底是固定效应还是随机效应,如果把个体效应当成干扰项的一部分,那会导致模型存在内生性问题,所以标准的作做法是先做一阶差分,把个体效应去掉。

  • 整理人:王媛媛

Q11.听了连老师深入浅出的讲解,我感觉 GMM 相比 2SLS 来说,有更一般的假设,因为它允许 ZError Term 相关,似乎更加灵活、也更容易满足实际情况。那么想问一下这是不是说明 GMM 是更优的估计方法呢?如果不能一概而论,那么 2SLSGMM 分别适用于什么情况呢?

A: 我的观点是:如果你能够非常肯定地确认,你的那个工具变量是严格外生的,例如 Angrist 他们做的那篇讲教育回报的文章,用小孩出生的季度(哪个月出生的)的虚拟变量来作为教育的工具变量,已经可以确认这个工具变量的是严格外生的,那就用 IV 或者两阶段最小二乘法就可以了。 GMM 其实更多的时候会用在一些两阶段最小二乘根本没有办法搞定的问题上,比如说我们做欧拉方程时候,里边会有一些非线性的关系,但是我们从从 GMM 的角度,我们就是找一些矩条件,即使那个矩条件是非线性的,只要能写出一个谁和谁正交的矩条件,我们就可以去估计里面的参数。 另外呢,就是涉及到多方程估计的时候,普通最小二乘法此时也搞不定。但是对于多方程估计,如果我们用GMM 其实就不困难,就像今天大家看到的动态面板一样,我们可以给每一期有不同的工具变量,只需要把那些工具变量都收集起来,放到一个大的 Z 矩阵里,那个 Z 矩阵就是工具变量的矩阵集合,然后,再让它去跟那个干扰项构成的向量去做正交,然后取期望,我们就可以把里面的所有参数全部都估计出来,但是这个你用两阶段最小二乘根本搞不定,对不对? 下面呢,我觉得你就可以去找几本书啊,把 GMM 和两阶段最小二乘交叉着去看一看,这样你对于你这个问题就会有更清晰的答案啊,我刚才给您的回答也已经把多数的要点都给覆盖到了。

  • 整理人:倪克金

Q12.请问老师,论文中主回归没有 yit 的滞后项,内生性检验有无必要使用动态面板 GMM 检验呢,这样的话需要人为加一个因变量的滞后项,是否与原模型冲突呢?另外,回归时自变量一定需要滞后吗,控制变量也需要滞后吗,还是只需要 X 滞后,CV 和因变量保持同期即可,课上展示的 GMM 模型中我看 xit 和 yit 也是同期(许多论文中 XY 都是同期,再内生检验说明,但是导师非要滞后,我觉得很矛盾)

A1: 首先你的第1个问题,就是你的模型等号右侧没有出现被解释变量的滞后项,那就相当于你的理论分析认为,被解释变量的一阶之后,将不会对当期的这个被解释变量产生影响,也就是整个模型系统的变量之间的变动关系里边,不存在一个动态的关系。你在内生性检验这个环节上突然就引进来一个动态关系,那是不是代表说你前面那些分析都是错的,这样的话,就不单单是一个内生性检验的问题了。通常来说,内生性检验是在你主体模型的架构里面,可能会怀疑其中某一个解释变量是内生的,你再去分析它内生性是怎么导致的,是因为遗漏的变量,还是因为样本选择,还是因为有一些变量衡量的不准确,比如说像能力呀等等这些,你就要有针对性的再去多做一些处理。因此,从你的描述来看,你这纯粹是给自己找事儿啊,弄一火坑跳进去,我还不知道你能不能出得来。

A2: 第2个问题就是解释变量要不要放滞后?这个就看你分析什么问题了。譬如说,我做那个资本结构的研究,我们模型中的那些解释变量实际上是在解释目标资本结构的变动。那公司的财务报表,你可以看到对手的季报,就是每隔三个月,你可以看到一次,所以这时候呢,你放同期的可以解释过去,因为在年底的时候去看,我虽然不能够看到你第四季度的财务报表,但是前三季度的财报我都能看到,所以同期呢,我根据对手的信息来做决策,或者跟我自身的信息来做决策,是有道理的。但是你放上一期的解释变量也可以说的通,就相当于这个公司的CEO,在决策的时候,重点关注的是去年的表现,然后我来确定今年是什么样子的。也有些文章就只能放同期的,比如说,我在研究同行业内部公司的同行效应,那我一般是盯住它当期的表现,我来做决策或者是这种博弈的事情,那你放滞后一期的肯定就说不通了,所以我觉得到底是放当期的,滞后一期的还是把二者都同时放在模型里边,跟你前面的理论分析有很大的关系,你要确定整个的决策是基于一个什么样的信息集合做出来的,这才能进一步的确认模型里面到底是放当期项还是滞后项。另外一个途径就是看前期文献啊,要找这个Top期刊的文章,看他们是怎么设定的,那个风险呢就会相对小一点,但是我觉得主导的决策还是依赖于你自己的一个理论分析。

  • 整理人:倪克金  

Q13.老师您好,请问企业性质分组回归( if soe==1 )和与 x 交乘( i.soe##c.x )结果上如何解读 soey 的影响?这两种算法是否等价,有什么区别呢?

A: 这个我们在初级班里已经讲过了,昨天下午答疑的时候也说过这个问题,你可以翻一下昨天的答疑记录。下面这篇推文对这个问题讲得非常非常的清楚。

Q14.为什么在动态面板序列自相关检验时,不直接验证一阶差分残差的一阶自相关是否等于伍德里奇所证明的-0.5?

A: 我觉得有一个最大的挑战就来自于统计学的这个问题啊,0.5跟0.56 0.43 0.42在统计上我们都只能是假设自己有一个犯错的概率,所以你平时做假设检验的时候,也只是说在5%的水平上10%的水平上,你给自己留了一些犯错的余地。所以你要想去检验你得到那个系数,比如说-0.65,它跟0.5之间有没有显著的差别,你可能是设定一个足够灵敏的统计量,才能抓住这种差别,否则的话干不了。 换句话讲,按照你说的这个思路呢,肯定是可行的啊,可以去做,但是犯错的概率要比我们去看差分项的二阶的相关系数,要大得多,所以大家还是选择了一个相对保守的做法,因为从工作量上两者是差不多的。还有一件最重要的事,因为那个一阶序列相关的东西你能看到吗?你只能看到一阶差分的干扰项跟他的滞后一期的相关系数,但是你没有办法看到水平的干扰项的这个一阶相关系数啊,看不到。只能看到 Corr(Δεit,Δεit1),但看不到 Corr(εit,εit1)

  • 整理人:倪克金

Q15. 在使用 xtarsim 时,连老师使用的gamma (0.6)beta(1.3)\rho(0.2)/// one (corr 3) sn(9) seed(1234)都有些什么含义?比如我自己使用自己的数据的时候应该或者可以使用什么样的数值做gamma, beta, rho等?

A: 我上课用这个命令,只是产生一组模拟的数据来演示动态面板模型的估计,也就是 xtabond 的那个命令。你自己真正做的时候啊,你得拿一笔真实的数据去做,你不能拿模拟数据做一篇文章去发表吧。那至于说那里边那些参数的含义,你要看一下那个命令的帮助(Stata help)文件,它其实就是数据生成过程里边的一些基本设定,所以我觉得你可能也没有必要去看它,就是我告诉你说产生的数据里边你最关心的那个 gamma 的系数,我告诉你它的真实值是0.6,这是我为什么要做我们看的模拟,我们知道真实的参数是多少,我才有判断的基准,这样才可以去评判手头的这三种估计方法哪一个表现的最好。

  • 整理人:倪克金

Q16. 有如下几个问题:

  1. 如果原始数据没有通过单位根检验,需要一阶差分后平稳,那么在这种情况下还能使用动态面板,用 GMM 估计吗?如果可以,如何解释系数呢?比如,当期汇率对前一期汇率,还有一堆 x 做回归,而汇率是非平稳序列,此时应该如何处理呢?
  2. 对于 δyt1 工具变量的选择,可以是 yt2,yt3...,或者是这些 IV 的组合,比如工具变量选择 yt2 和 δyt2,这两个变量在2sls中第一阶段中对δyt1进行回归时,不存在共线性问题吗?

A1: 应该是不行了,这时候如果你用原始数据去做,因为它本身是非平稳的序列,那你就得考虑这个面板协整误差修正模型要探讨长期的和短期的关系。那你要坚持用动态面板,你就只能用对数差分的变量来去做了。这时候就不能看这个变量的水平值的变动,而是要看它的增长率了。也就是说,我们讲的这个动态面板都是针对于序列平稳的情形来做的,非平稳的时候全都跑到了协整那个圈里面去做了。

A2: 贡献性你只能说那个你那两个变量有一个比较高的相关性,但是只要不是完全贡献性或者严重的贡献性,对我的估计结果,也不会产生什么实质性的影响。我给你举那个例子呢,我就代表说 δyt2 也可以做工具变量,但你可以选择不用假设你手头的数据足够的长,你为什么不用 yt3,yt4作为工具变量非要跑去用δyt2做工具变量呢?Emm,通常这种贡献性呢不用特别担心,因为我们做动态面板的时候,多数的样本都是截面的数量特别大,时间相对比较短。

  • 整理人:倪克金

Q17.不同领域的研究一般都是用什么软件会方便呢?例如研究宏观一般就用 Matlab

A: 我根据我看到的内容,我猜了一下,你应该是想问不同领域都用什么软件是吧?或者是用什么语言?我觉得这个无所谓,反正你就是缺啥补啥呗,我觉得我用Stata 大多数的问题都足够能应对啊,有的人像我有一些同事他们好多数据处理,他就用Excel搞定,因为他对Excel那些高级的函数Excel里面写程序他非常的熟练,还是 CFA 出身,那也没问题啊,反正我们也照样可以合作,所以呢,你就看你做什么东西了,如果你去做可计算一般均衡 DSGE 那套东西,我估计 Stata 是可以搞一部分,但是,就没有那几个专业的软件那么方便。

  • 整理人:倪克金

Q18.请问 FD-GMM 和系统 GMM 怎么选择?分别在什么情况下使用呢?现在是不是基本都在使用系统 GMM

A: 假设估计模型为 yi,t=δyi,t1+αi+εi,t,在用 xtabondFD-GMM 估计时,当 δ 低于 0.8 时,FDGMM 是比较理想的估计方法,当 δ 高于 0.8, 接近 1 时,建议使用 SYS-GMM 估计, 因为 FD-GMM 会出现弱工具变量的问题。0.8 是我的一个经验,看了很多文献之后觉得 0.8 是个比较合适的值,你可以看一下 Flannary(2013) 这篇文章模拟分析的部分,他们有对比,在 ρ 不同的数值的情况下,FD_GMM 和 System_GMM 的差别。你在自己文章里边写的时候呢,我反正建议就是 ρ 偏大的时候,比如说 大于 0.8,那你就应该同时出现两个结果,而且从刚才那篇 2013 年的文章我们都这种情况下更相信系统 GMM 的估计结果。(回答:连老师)

  • 整理人:倪克金

Q19. xtabond, robust中,聚类稳健假设同一个id下的不同时间自相关,那与动态面板序列相关假设不矛盾吗?

A: 查了一下帮助文件 help abondhelp vce_option在 Stata 里输入 xtabond y x, robust 是计算 Huber/White/sandwich estimator 标准误,这与 xtreg y x, fe robust 中的 robust 的含义还是不同的。后者等价于 cluter(id)

  • 整理人:倪克金

Q20. 连老师,您好!想请教一个自己研究中的问题:论文中计算出一个儿童综合发展指数(称为A指数)。计算A指数的一级指标有四个,其中每个一级指标下面包含两个2个变量,因此这个A指数就是由8个变量得来的,方法采用主成分分析法。审稿人问A指数的信度和效度如何体现,请问我应该如何回应?

A: 不太懂。

  • 整理人:丁晨

Q21.老师能不能讲解一下 逻辑回归和逐步回归法的理论背景 谢谢

A: 你有没有查过资料去看过这两种方法,如果你说的逻辑回归是logit回归,我感觉这两个没法放在一起比,逻辑回归的被解释变量是一个01变量。 而逐步回归法实际上是筛选变量的一种方式,比如说我手头有30个变量,我不太确定哪些应该放到模型里,可以把30个变量全丢模型里看下,哪些特别不显著,比如说第1轮确定P值大于0.5的删除,然后进一步的把剩下的25个放进去,把P值大于0.2的全部删掉,重复该步骤,保留下来你设定的显著水平的那些变量。

  • 整理人:丁晨

Q22. 在使用pvar2这一方法和命令的时候,一共可以加入几个变量?如果加入10个的话,中间的因果检验关系链条会不会过多?还是说其中可以有3个主要变量,剩下几个默认它不存在互为因果的关系?

A: 目前就我看到的文献最多的是处理6个变量,程序内部好像超过6个变量会跑不出来。这个就回到了经济学建模的一个理念的问题。假如一个画家画的跟那真人没有任何差别,我觉得可能就失去了作为一个画家最重要的东西,表达一种精神或者思想,如果皮肤毛孔都画得超级气质,那要相机干什么呢?以前宫廷作画,画皇帝,那是因为没有相机,所以要画的像,但是中国的画家历代也是以写意为主,除了类似工笔画的宋徽宗那类。而现在有相机以后,大都转向印象画派去了。做模型跟这个是一个道理,要是你能通过几个最关键的变量,非常骨感的一个模型,把这个问题的本质给说清楚。不用胡子眉毛一把抓,所以你在模型里边,不是放的变量越多越好。它反映不出问题的主线条来。如果你有10个变量,可以从理论上分析,哪些变量是最核心的,留下来那么3、4、5个变量来重点分析,其它那些可以不用放进来。

  • 整理人:丁晨

Q23.长面板如何单位根检验,是否有必要检验?

A: 看你做的领域,如果是做公司金融会计和财务这些领域,对象都是一些财务比率,比如说公司的负债率、盈利能力等一些指标,这些指标呢长期来讲都不可能出现单位根过程,你所谓那个单位根过程都是水平值,像人均GDP,人均财政支出这一类,它可能有通货膨胀、经济增长带来的自然往上走的过程,如果是换算到人均GDP增长率,也不可能出现单位根。所以像公司金融这个领域,大家都不做单位根,你做了大家反而觉得很奇怪,可是你如果研究的问题是区域经济学财政,经常面临人均GDP或人均GDP的自然对数,这种指标你就得做单位根。这个是非常有必要的。另外一个判断标准,就是看你前期文献这些大牛学者,他们在处理你研究的那些变量的时候采用什么样的手法和手段。遵守行规就是最安全的一个办法。

  • 整理人:丁晨

Q24.学习Latex老师有推荐/建议吗?

A: 学任何一个工具都是为了用的,所以你得想清楚你学了这个有没有用,如果你写的东西经常要涉及很多数学公式,你本身又是个处女座,对于排版又有非常高的要求,我强烈建议你学一下。其实你花了一周的时间学了一下,后来不用它,它也会带来一个特别重要的好处,就是提高你的审美能力。 相反,你以往对于写代码这种东西就一直很头疼,我觉得你还是花点心思找本word排版的书把它搞明白,我可以用word排出接近于Latex的效果,因为我看过台湾的一个教授的书《word的排版艺术》,用word也变得得心应手,当然有另外一个原因是我之前折腾过很长一段时间Latex,所以我大概知道我想要一个什么样的效果。 如果目标的问题解决了,你去学这个东西的动力自然就有,百度一下,有各种各样的视频和资料,最好就跑到论坛,有现成软件安装包和模板直接套着用一下,两三天应该可以排出一份文档,后面你再学一下数学公式怎么敲,这问题基本上就解决了。 你看现在都不用重量级的Latex的排版,现在全都是Mark down,花个5分钟记一些简单的标记就可以了,这个文档等一会儿弄完以后稍微排一下就可以输出成PDF格式,也可以转成word格式,所以有可能你学Markdown反而比学Latex更实用一些。

  • 整理人:丁晨

Q25.老师可否再讲一下冲击反应函数中命令611行生成的图,图中置信区间那没太搞明白。

A: 嗯,这问题分两层,如果你不太清楚执行期间怎么看这个问题就很简单,执行期间上下限的符号要一致就代表它是显著的,如果两个符号都是正的,就代表包住的那个政策效果统计上显著为正,如果执行期间上下限都是负的,那就代表政策效果是显著为负。 第2层的问题,可能就在于我们那个置信区间是怎么算出来的?这个呢就要花点精力了,详细的见下图推导。

  • 整理人:丁晨  

Q26. B1b中474行lag(2)的结果中(不是dofile中所列示的结果)发现了x是y的Granger因,y也是x的Granger因,意思是互为因果?

A: 格兰杰因果不是真正的因果关系,格兰杰因果是指在控制了自己的滞后项之后,看另外一个变量的滞后项是否对我有解释能力,用来解决的问题就是如果你认为某一个变量的历史数值对另一个变量现在的变动有解释力,那么就可以做一个政策建议。

  • 整理人:丁晨

Q27.请问老师,xtivreg2回归所报告的弱工具变量检验F特别大,甚至有e的5次方或6次方,远大于Stock Yogo 10%的临界值,这种情况是否正常,如何才能使F检验值减小?

A: H0:corr(x,z)=0 弱工具变量检验,原假设是,内生解释变量与工具变量不相关。 你的F值远远大于临界值,所以可以说在一定程度上,模型不存在弱工具变量问题。

  • 整理人:丁晨

Q28.冲击反应函数中,研究x对y的影响,变动的是回归方程误差项的标准差还是x的标准差?

A: 冲击反应函数中,研究x对y的影响,是指x受到一个单位标准差的冲击对y造成的影响,详细的分析,也可参见推文

  • 整理人:丁晨

Q29.请问在做倒U关系的时候,可以做一个门槛模型作为稳健性检验吗?

A: 我觉得可以,但是怎么感觉你做稳健性检验搬了个坦克,你的主部呢,只是开了个小轿车是不是后面我给你检验用的武器太重型了?要是我做的话,我可能直接一上来就做一个门槛模型。好像文献里有你这种做法,应该是可以的,因为它俩本质上就在干相似的事情。

  • 整理人:丁晨

Q30. 使用门槛模型运行数据的时候,第一个门槛值不显著,第二个门槛值显著,这种情况正常吗?应该怎么处理这种问题呢?

A: 从检验的角度来讲确实会出现这种情况。考虑了各种情形,确实就是这样,我觉得我会留出第2个门槛,第1个门槛我就不要了,就把这个模型就化成一个单一门槛模型。那我所谓的考虑各种情形就是如下的几种状况:

  • 第1,我明天上午还会讲,算门槛值时,要求每个期间有足够多的观察值,假设是算单一门槛模型,就分成两个区间,要求门槛值左侧和右侧观察值的数量不小于100个。这种就可以保证你不会去找出那些特别极端的门槛值,因为那样的话,即使检验通过,它在经济上的含义呢,也会受到质疑。就像探讨高超过1米93的人,他的收入跟我们一般的人有什么差别,如果是从篮球运动员的角度去探讨没有问题,但是对于普通大众,1000个里面没有几个超过1米93,没有普遍意义。
  • 第2,在正式搜索门槛之前,离群值可能对你的结果仍然有很大的影响,所以你需要把模型里边的被解释变量,控制变量,尤其是你的门槛变量,可能存在的离群值要预先把它处理掉,比如通过缩尾处理。
  • 整理人:丁晨

Q31. 在门槛模型中,对于门限值的选取可以网格搜索,但如何确定门限变量?只能通过理论文献或者对现实的思考得来吗?

A: 对,我觉得只能通过门槛理论分析来确定,当然有可能是前期理论分析,你认为四五个变量都可能影响这个Y和X的关系,就是有一些备选的门槛变量,你可以在初步研究的过程中,把这5个变量全都测一遍,看哪一个变量统计上有更为显著的门槛效应,它的结果在逻辑上更容易解释,再把它留下来,这跟警察排除嫌疑人是一个道理,通常都是大胆假设,小心求证。

  • 整理人:丁晨

Q32.工具变量一般多少合适呢?内生变量和外变量滞后多少期合适呢?系统GMM能讲讲吗?看文献中,系统GMM比差分GMM用的多,谢谢老师。

A: 工具变量的个数、具体滞后期数,可以看「过度识别检验」和「现有文献」做法。GMM可以参见推文

  • 整理人:丁晨

Q33.门槛模型中我们如果知道有两个门槛,可以采用二维棋盘搜索,但如果我们不知道有几个门槛,这时候怎么办呢?

A: 这个等我明天上午讲吧,我们会去搜,按逻辑,如果搜了一个门槛,发现它统计上显著,先把这个门槛固定住,再去搜第2个门槛,以此类推。有可能搜出10个门槛,但实际应用中,文章一般都是单门槛模型或者是双重门槛模型,如果门槛超过三个以上,样本就会被划分成4个区间,分析起来就非常非常困难。

Q34. 为什么不能直接估计水平方程?是因为有归递归特征吗?FD去掉的alpha_i加一个individual FE不就可以解决了吗?

A: 同Q10

  • 整理人:丁晨

Q35. 2SLS中MC和SMC都是等于0的,而GMM中MC=0,但SMC!=0?老师可不可以解释一下?

A: 2SLS 和 GMM 都假设工具变量是外生变量,即与扰动项无关,但是 GMM 对工具变量的外生性容忍度更高一些,实际情况中,往往无法满足SMC=0,详细参见高级班第一个视频回放2:10分的位置,“连玉君-幻灯片-动态面板-批注板书-2021.1.29”第15页。

  • 整理人:丁晨

Q36.为什么这里是beta=argmin 而不是gamma=argmin,我们的Instrumental variable不是y的滞后项吗?

A: 好问题,确实是gamma。

  • 整理人:丁晨

Q37.这里的gamma不是0.6吗?

A: 严格按照注释的说明,是设成0.6,这里是生成数据用的,gamma的数值可以自己定义。

  • 整理人:丁晨

Q38.在进行面板PVAR时,做GMM之前,还需要做协整吗?谢谢老师。

A: 同Q16。面板PVAR前,需要做平稳性检验。如果变量不平稳,就需要跑到协整那一类模型去做。

  • 整理人:丁晨

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看

专题 嘉宾 直播/回看视频
最新专题 因果推断, 空间计量,寒暑假班等
数据清洗系列 游万海 直播, 88 元,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。

连享会主页  lianxh.cn
连享会主页 lianxh.cn

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh