关于内⽣性问题中寻⼯具变量思路⼿册
⼀、内⽣性来源
避税方法在讲OLS的假设时说过(OLS及其假设),假设对于得到参数的⼀致估计⾄关重要,该假设意味着解释变量与扰动项不相关。事实上,该假设是OLS能够成⽴的最为重要的条件。但与此同时,该假设⼜过于严格或者过于理想化,实际的经济问题研究中经常会发现解释变量与扰动项相关。由于会导致参数估计不⼀致,因此,解释变量与扰动项相关便产⽣了我们常说的内⽣性问题。⼜由于在实践中很难得到满⾜,因此,内⽣性问题是⼀个⼤家都普遍⾯临和绕不开的问题。
⼀般来说,存在以下三种情况会使得:
1. 变量的测量误差
变量的测量误差可以分为被解释变量的测量误差和解释变量的测量误差,这两者产⽣的后果是不⼀样的。当被解释变量存在测量误差时,并不会对模型中估计参数的⼀致性造成任何不利影响,但也并⾮全然⽆害,它会增⼤渐进⽅差。⽽当解释变量存在测量误差时:,也就是说,实际观测到的是,真实⽆偏差的却是,当对模型进⾏估计时,测量误差项会进⼊扰动项,进⽽使得,因此,解释变量的测量误差会导致内⽣性。陆铭⽼师以前特意写了个短评,强调对于核⼼解释变量⼀定要能够准确地度量,不要似是⽽⾮含糊不清,更不要⽤“⽤xxx来代理核⼼解释变量”。
2. 遗漏变量偏误
经济关系错综复杂,影响被解释变量的因素可能成千上万,我们往往难以将那些重要的影响因素⼀⽹打尽,因此遗漏变量偏误问题似乎也在所难免。不过,遗漏变量也可以分为遗漏了与解释变量不相关的变量,以及遗漏了与解释变量相关的变量。对于前者,由于遗漏变量与解释变量不相关,因⽽遗漏的变量进⼊扰动项后,扰动项仍然与解释变量不相关,即解释变量参数估计的⼀致性不受影响。对于后者,遗漏的变量进⼊扰动项后则会导致。
3. 反向因果
反向因果是说X在影响Y的同时(在这个模型中,Y是被解释变量),Y也会对X产⽣影响(在这个模型中,X摇⾝⼀变为被解释变量)。很显然,这个时候有。在实际做论⽂的过程中,反向因果问题应当是最需要重点关注和考虑的内⽣性问题了,这⼀点在公司财务问题研究中表现得似乎更为明显,主要是因为财务报表⾥的各项基本都相互联系和影响。
⼆、
⼯具变量法介绍
之前说过,内⽣性问题⼏乎不可避免,⽽当⾯临内⽣性时,⼯具变量法则是最为常⽤的应对⼿段。今
三月三的朋友圈说说天给⼤家简要说⼀说⼯具变量法的基本原理。
1. 内⽣性的来源
假设真实的模型是:
由于T本⾝不可观测或者其他原因,我们实际估计的模型是:
此时被遗漏的变量T进⼊扰动项,从⽽有:。对于模型(2),变量X的参数估计值为:,将模型(1)中真实的Y代⼊到这个表达式⾥有:。
蔬菜产地在上⼀篇推⽂⾥说过,遗漏变量分为两种,⼀种是与解释变量不相关的遗漏变量,⼀种是与解释变量相关的变量。从上式可以发现,当遗漏的变量T与X⽆关时,即时,有,此时解释变量X的参数⼀致性不受影响。反之,当遗漏的变量T与X相关时,有。
2. ⼯具变量法解决内⽣性
为了得到参数的⼀致估计,我们需要利⽤⼯具变量法。什么叫⼯具变量法呢?可以这样直⽩地理解:通过⼯具变量
为了得到参数的⼀致估计,我们需要利⽤⼯具变量法。什么叫⼯具变量法呢?可以这样直⽩地理解:通过⼯具变量(IV)以及某种⼿段,以切断内⽣变量与扰动项的相关性为⽬的,从⽽得到参数⼀致估计的⽅法。那⼯具变量⼜是什么、某种⼿段⼜是什么呢?下⾯⼀个个讲。
简单地说,⼯具变量Z就是满⾜了⼀些特定条件的寻常变量,⾔下之意就是,任何⼀个普通的变量只要满⾜了特定的条件就可以充当⼯具变量。这些特定的条件主要有以下两个:
(1)相关性,即⼯具变量与内⽣变量相关,要有;
(2)外⽣性,或者叫排除限制条件,即⼯具变量与扰动项不相关,要有
。该条件意味着,⼯具变量只能通过内⽣变量对被解释变量产⽣影响,⽽不能有其他的路径或渠道。
为了直观地感受⼯具变量在获得参数⼀致估计中的运⽤,下⾯还是以遗漏变量偏误的那个例⼦简单推导⼀下(这⾥假设遗漏变量与解释变量相关)。
由于我们实际估计的是模型(2),因⽽OLS估计是有偏的。现在我们灵光乍现脑洞⼤开,为内⽣变量X到了⼀个⼯具变量Z,则有:
意难根据外⽣性条件有,从⽽,当⼯具变量的相关性满⾜时(保证分母不为0),有下式成⽴:。将模型(1)中真实的Y代⼊到这个表达式⾥,我们便可以进⼀步得到:
结合第1部分和第2部分有,OLS估计量为:,⽽⼯具变量估计量为:
。通过对⽐我们可以得到⼏点结论:
(1)若⼯具变量与内⽣变量⽆关,即,则⽆法定义⼯具变量法;
(2)当⼯具变量Z就是解释变量X本⾝时,也就是说当变量X本来就外⽣时,OLS估计量将完全等同于⼯具变量估计量;
(3)不论内⽣性是否真的存在,使⽤⼯具变量法始终能得到参数的⼀致估计。该思想也是Hausman检验的基础。
3. 两阶段最⼩⼆乘法(2SLS)
在谈到⼯具变量法时,我们听得最多的应该就是两阶段最⼩⼆乘法了,这⾥的2SLS就是第2部分中提到的“某种⼿段”。通过2SLS,我们可以将内⽣变量与扰动项的相关性斩断,从⽽使得内⽣变量“不再内⽣”。具体来说,2SLS包含以下两个阶段的回归:
第⼀阶段:内⽣变量X对⼯具变量Z进⾏OLS回归,并得到内⽣变量的拟合值;
第⼆阶段:被解释变量Y对第⼀阶段中得到的内⽣变量的拟合值进⾏OLS回归,从⽽得到两阶段最⼩⼆乘估计量。
为了理解得深刻⼀点,下⾯还是通过式⼦说明⼀下。
对于模型(2):,
在第⼀阶段,我们有,进⾏OLS回归之后得到X的拟合值。因为⼯具变量Z与扰动项v不相关,从⽽拟合值也与扰动项v 不相关。在第⼆阶段时,我们有,此时便能得到⼀致估计。
事实上,2SLS是把内⽣变量X分解为了两部分:外⽣的部分以及余下的与扰动项相关的部分,然后被解释变量仅对外⽣的部分进⾏回归。这⼀逻辑还可以这样理解:
其中,X由两部分组成:,这时有:
显然,此时可以得到参数的⼀致估计。
显然,此时可以得到参数的⼀致估计。
关于2SLS,有⼀点要特别强调的是,尽管该⽅法的逻辑看上去很简单,但是不可⼿动直接去进⾏两次
北电艺考放榜回归,⽤Stata的命令直接做就⾏,不然会出错的,原因在于第⼆阶段回归时所得到的残差有变化,对具体推导感兴趣的可以本⾼级计量的书看⼀看。
三、寻⼯具变量的思路
内⽣性是实证研究中不得不⾯对的问题,寻⼯具变量以克服内⽣性的影响是实证研究中不得不纠结的问题。纠结的原因主要有两个,⼀是⼯具变量⽐较难,⼆是即便到了效果也不⼀定好。关于效果好不好暂且不表,⾸先得要到⼯具变量,因此今天和⼤家交流⼀下寻⼯具变量的思路。
就我个⼈的使⽤经历和总结⽽⾔,⼤体有以下四个⽅向可以考虑:
1)对于⾯板数据,可以考虑使⽤内⽣变量的滞后期作为⼯具变量。⼀⽅⾯,内⽣变量的滞后期⼀般与当期的内⽣变量相关,⽽且往往是⾼度相关,因⽽相关性条件得以满⾜。另⼀⽅⾯,内⽣变量的滞后期由于已经发⽣,可能与当期的扰动项也不相关,因⽽外⽣性条件得以满⾜。要注意的是,这⾥只是说可能,需要根据研究情况具体讨论。⼤家所熟知的系统GMM就是⼤量使⽤滞后期作为⼯具变量的。
2)使⽤更⾼层级的变量作为低层级变量的⼯具变量。为了说明这⼀点,举⼀个实例。有⽂献研究个体的⾦融知识与创业选择,⾦融知识在增加创业概率的同时,也可能会反过来受到创业活动的影响,因⽽⾦融知识是内⽣变量。为了克服内⽣性,作者选⽤同⼀个社区其他居民的⾦融知识平均⽔平作为个
体⾦融知识的⼯具变量。类似的例⼦还有很多,⽐如研究企业避税问题时,⽤同⼀⾏业其他企业的平均避税程度作为该企业避税的⼯具变量。
3)利⽤相关的外⽣政策冲击构造⼯具变量。关于这个⽅向,以前推荐过的陈斌开⽼师的⽂章《减税是否能提振中国经济——基于中国增值税改⾰的实证研究》⼀⽂做了较好的⽰范。在⽂中,增值税税负是内⽣变量,由于增值税转型改⾰会显著影响企业的增值税税负,因⽽陈⽼师他们基于这次改⾰构造了⼯具变量,效果很好。
4)在历史、地理、⽓候等因素上花⼼思,这⼀个⽅向是最难也是最具有艺术性的。历史因素的逻辑和滞后期的逻辑⽐较类似,即过去会影响现在,但与当期的扰动项可能不相关。⽐较典型的是为制度寻的⼯具变量,有城市的开埠通商历史(董志强等)、1919年基督教教会初级⼩学的注册学⽣⼈数(⽅颖等)、历史上的殖民者死亡率(Acemoglu 等)等等。关于如何在这个⽅向到⾃⼰想要的⼯具变量,既取决于个⼈的⽂献积累,也取决于个⼈的历史、地理等相关知识。就⽬前⽽⾔,⽐较切实可⾏的办法就是⼤量读相关⽂献,看别⼈⽤了什么⼯具变量,从中有所启发,甚⾄可以直接拿过来⽤。
最后,列举⼏个使⽤⼯具变量的例⼦供⼤家参考:
四、⼯具变量发的相关检验
与注意事项
我们知道,⼀个合格的⼯具变量应该同时满⾜以下两个条件:
1)相关性,即⼯具变量应该与内⽣变量相关;
2)外⽣性,即⼯具变量应该与扰动项不相关。
如同使⽤DID时我们要关注共同趋势假设是否成⽴,在使⽤⼯具变量法时我们也要对以上两个条件是否满⾜给予⾜够的重视,否则得到的结果便不具有说服⼒。那怎么来检验好不容易寻到的⼯具变量是否较好地满⾜了这两个条件呢?
对于相关性条件,这个条件是可以直接验证的。⼀般来说,可以通过第⼀阶段回归中⼯具变量的显著性以及F值来判断,如果⼯具变量与内⽣变量显著相关,且F检验值⼤于等于10,则认为相关性条件得到了较好的满⾜。本质上,相关性考察的是弱⼯具变量问题。回忆⼀下⼯具变量估计量的公式:cov(Y,Z)/cov(X,Z),如果⼯具变量与内⽣变量完全不相关,即分母为0,则根本就定义不了⼯具变量法;⽽如果⼯具变量与内⽣变量仅微弱地相关,即分母趋近于0,则会使得⼯具变量估计量的渐进⽅差变得很⼤,导致估计不准确和统计推断失效。既然我们能到⼀个⼯具变量,相信⼯具变量
⼯具变量估计量的渐进⽅差变得很⼤,导致估计不准确和统计推断失效。既然我们能到⼀个⼯具变
量,相信⼯具变量与内⽣变量⼀定是相关的,问题便在于相关的程度上了,因此,对相关性条件的检验其实就是对弱⼯具变量问题的检验。
如果不幸地发现可能存在弱⼯具变量问题,⽐如第⼀阶段的F值⼩于10,这时候有⼏种可以尝试的办法,⼀是去寻相关性更强的⼯具变量(各种开脑洞和看⽂献);⼆是可以使⽤受弱⼯具变量影响较⼩的有限信息极⼤似然法(LIML)进⾏估计;三是可以使⽤Anderson-Rubin检验;四嘛,放弃吧。
对于外⽣性条件,或者称之为排除限制条件,在恰好识别的情况下(⼯具变量的个数等于内⽣变量的个数)是⽆法进⾏统计上的检验的,这就意味着,我们需要花费较多的篇幅来从理论和逻辑上为⼯具变量的外⽣性进⾏辩护。⽽在过度识别的情况下(⼯具变量的个数⼤于内⽣变量的个数),则可以进⾏过度识别检验(Sargan test),该检验的原假设为:所有的⼯具变量都是外⽣的。如果结果拒绝了该原假设,则说明⾄少有⼀个⼯具变量不是外⽣的。不过要注意的是,拒绝原假设只是表明存在着⽆效的⼯具变量,却⽆法告诉我们哪些⼯具变量是⽆效的。
如果处于恰好识别的情况下(这应该是很普遍的,到⼀个合适的⼯具变量本来就不容易了),我们应该怎么来为⼯具变量的外⽣性进⾏辩护呢?外⽣性意味着⼯具变量与扰动项不相关,其对被解释变量的影响只能通过内⽣变量来实现,⽽不能有其他的渠道。因此,严格⽽⾔,需要出⼯具变量影响被解释变量的所有其他可能的渠道,然后⼀⼀予以排除,最后只剩下内⽣变量这⼀个路径。之前推荐
过⽅颖⽼师2011年发表在《经济研究》上的⽂章,在⽂中⽅⽼师便是如此做的,实为我们学习的范例,建议⼤家细读和总结。
关于⼯具变量法的stata命令,推荐⼤家使⽤ivreg2(截⾯数据)以及xtivreg2(⾯板数据),这两个命令在进⾏回归估计的同时给出了相关的统计检验量,可以直接据以对⼯具变量的相关条件进⾏判断验证。贵阳景点排行榜
最后,再提及⼏点使⽤⼯具变量法时应该注意的问题:
1)确定⽂章要使⽤⼯具变量法后,应该要详细说明内⽣性的来源,并对⼯具变量的有效性进⾏论证。
2)在使⽤2SLS时,不要⼿动分两阶段进⾏估计,不然会出问题,原因在于第⼆阶段中的标准误有变化,直接⽤stata命令进⾏回归就⾏。
3)如果想要⼿动分两阶段进⾏练习,应该保证第⼀阶段估计中的控制变量与第⼆阶段中的控制变量完全⼀致。
4)结果汇报时,应该要同时给出OLS与IV的估计结果,并对两者的差异进⾏分析说明。
5)结果汇报时,应该要给出第⼀阶段的估计,⽐如F检验值、⼯具变量的估计系数和显著性等。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论