python包怎么做双重差分did分析_数据分析学长送给学弟们的经验之谈...
python包怎么做双重差分did分析_数据分析学长送给学弟们的
投诉处理技巧经验之谈
导读
以下是我在近三年做各类计量和统计分析过程中感受最深的东西,或能对⼤家有所帮助。当然,它不是ABC的教程,也不是细致的数据分析⽅法介绍,它只 是“总结”和“体会”。由于我所学所做均甚杂,我也不是学统计、数学出⾝的,故本⽂没有主线,只有碎⽚,且⽂中内容仅为个⼈观点,许多论断没有数学证明,望统计、计量⼤⽜轻拍。
北⼤数据分析⽼鸟送给学弟们的经验之谈
袁世凯银元图片及价格关于软件
对于我个⼈⽽⾔,所⽤的数据分析软件包括EXCEL、SPSS、STATA、EVIEWS。在分析前期可以使⽤EXCEL进⾏数据清洗、数据结构调整、复杂的新变量计算(包括逻辑计算);在后期呈现美观的图表时,它的制图制表功能更是⽆可取代的利器;但需要说明的是,EXCEL毕竟只是办公软件,它 的作⽤⼤多局限在对数据本⾝进⾏的操作,⽽⾮复杂的统计和计量分析,⽽且,当样本量达到“万”以上级别
时,EXCEL的运⾏速度有时会让⼈抓狂。
SPSS是擅长于处理截⾯数据的傻⽠统计软件。⾸先,它是专业的统计软件,对“万”甚⾄“⼗万”样本量级别的数据集都能应付⾃如;其次,它是统计软件⽽⾮专业的计量软件,因此它的强项在于数据清洗、描述统计、假设检验(T、F、卡⽅、⽅差齐性、正态性、信效度等检验)、多元统计分析(因⼦、聚类、判别、偏相关等)和⼀些常⽤的计量分析(初、中级计量教科书⾥提到的计量分析基本都能实现),对于复杂的、前沿的计量分析⽆能为⼒;第三,SPSS主要⽤于 分析截⾯数据,在时序和⾯板数据处理⽅⾯功能了了;最后,SPSS兼容菜单化和编程化操作,是名副其实的傻⽠软件。
STATA与EVIEWS都是我偏好的计量软件。前者完全编程化操作,后者兼容菜单化和编程化操作;虽然两款软件都能做简单的描述统计,但是较之 SPSS差了许多;STATA与EVIEWS都是计量软件,⾼级的计量分析能够在这两个软件⾥得到实现;STATA的扩展性较好,我们可以上⽹⾃⼰需要 的命令⽂件(.ado⽂件),不断扩展其应⽤,但EVIEWS就只能等着软件升级了;另外,对于时序数据的处理,EVIEWS 较强。
综上,各款软件有⾃⼰的强项和弱项,⽤什么软件取决于数据本⾝的属性及分析⽅法。EXCEL适⽤于处理⼩样本数据,SPSS、 STATA、EVIEWS可以处理较⼤的样本;EXCEL、SPSS适合做数据清洗、新变量计算等分析前准备性⼯作,⽽STATA、EVIEWS在这⽅⾯ 较差;制图制表⽤EXCEL;对截⾯数据进⾏统计分析⽤SPSS,简单的计量分析SPSS、STATA、EVIEWS可以实现,⾼级的计量分析⽤STATA、EVIEWS,时序分析⽤EVIEWS。
关于因果性
做统计或计量,我认为最难也最头疼的就是进⾏因果性判断。假如你有A、B两个变量的数据,你怎么知道哪个变量是因(⾃变量),哪个变量是果(因变量)?
早期,⼈们通过观察原因和结果之间的表⾯联系进⾏因果推论,⽐如恒常会合、时间顺序。但是,⼈
们渐渐认识到多次的共同出现和共同缺失可能是因果关系,也可能是由共同的原因或其他因素造成的。从归纳法的⾓度来说,如果在有A的情形下出现B,没有A的情形下就没有B,那么A很可能是B的原因,但也可能 是其他未能预料到的因素在起作⽤,所以,在进⾏因果判断时应对⼤量的事例进⾏⽐较,以便提⾼判断的可靠性。
有两种解决因果问题的⽅案:统计的解决⽅案和科学的解决⽅案。统计的解决⽅案主要指运⽤统计和计量回归的⽅法对微观数据进⾏分析,⽐较受⼲预样本与未接受⼲预样本在效果指标(因变量)上的差异。需要强调的是,利⽤截⾯数据进⾏统计分析,不论是进⾏均值⽐较、频数分析,还是⽅差分析、相关分析,其结果 只是⼲预与影响效果之间因果关系成⽴的必要条件⽽⾮充分条件。类似的,利⽤截⾯数据进⾏计量回归,所能得到的最多也只是变量间的数量关系;计量模型中哪个变量为因变量哪个变量为⾃变量,完全出于分析者根据其他考虑进⾏的预设,与计量分析结果没有关系。总之,回归并不意味着因果关系的成⽴,因果关系的判定或 推断必须依据经过实践检验的相关理论。虽然利⽤截⾯数据进⾏因果判断显得勉强,但如果研究者掌握了时间序列数据,因果判断仍有可为,其中最经典的⽅法就是进⾏“格兰杰因果关系检验”。但格兰杰因果关系检验的结论也只是统计意义上的因果性,⽽不⼀定是真正的因果关系,况且格兰杰因果关系检验对数据的要求较⾼ (多期时序数据),因此该⽅法对截⾯数据⽆能为⼒。综上所述,统计、计量分析的结果可以作为真正的因果关系的⼀种⽀持,但不能作为肯定或否定因果关系的最终根据。
科学的解决⽅案主要指实验法,包括随机分组实验和准实验。以实验的⽅法对⼲预的效果进⾏评估,可以对除⼲预外的其他影响因素加以控制,从⽽将⼲预实施后的效果归因为⼲预本⾝,这就解决了因果性的确认问题。
关于实验
在随机实验中,样本被随机分成两组,⼀组经历处理条件(进⼊⼲预组),另⼀组接受控制条件(进⼊对照组),然后⽐较两组样本的效果指标均值是否有差异。随机分组使得两组样本“同质”,即“分组”、“⼲预”与样本的所有⾃⾝属性相互独⽴,从⽽可以通过⼲预结束时两个体在效果指标上的差异来考察实验处 理的净效应。随机实验设计⽅法能够在最⼤程度上保证⼲预组与对照组的相似性,得出的研究结论更具可靠性,更具说服⼒。但是这种⽅法也是备受争议的,⼀是因为它实施难度较⼤、成本较⾼;⼆是因为在⼲预的影响评估中,接受⼲预与否通常并不是随机发⽣的;第三,在社会科学研究领域,完全随机分配实验对象的做法会 涉及到研究伦理和道德问题。鉴于上述原因,利⽤⾮随机数据进⾏的准实验设计是⼀个可供选择的替代⽅法。准实验与随机实验区分的标准是前者没有随机分配样本。
通过准实验对⼲预的影响效果进⾏评估,由于样本接受⼲预与否并不是随机发⽣的,⽽是⼈为选择的,因此对于⾮随机数据,不能简单的认为效果指标的差异来源于⼲预。在剔除⼲预因素后,⼲预组和对照组的本⾝还可能存在着⼀些影响效果指标的因素,这些因素对效果指标的作⽤有可能同⼲预对效果指标的作⽤相混 淆。为了解决这个问题,可以运⽤统计或计量的⽅法对除⼲预因素外的其他可能的影响因素进⾏控制,或运⽤匹配的⽅法调整样本属性的不平衡性——在对照组中寻⼀个除了⼲预因素不同之外,其他因素与⼲预组样本相同的对照样本与之配对——这可以保证这些影响因素和分组安排独⽴。
随机实验需要⾄少两期的⾯板数据,并且要求样本在⼲预组和对照组随机分布,分析⽅法就是DID(倍
描写庐山的诗句
差法,或⽈双重差分法);准实验分析⽤截⾯数据就 能做,不要求样本在⼲预组和对照组随机分布,分析⽅法包括DID(需两期的⾯板数据)、PSM(倾向性得分匹配法,需⼀期的截⾯数据)和PSM- DID(需两期的⾯板数据)。从准确度⾓度来说,随机实验的准确度⾼于准实验和⾮实验分析。
关于分析⼯具的选择
如果根据理论或逻辑已经预设了变量间的因果关系,那么就⽆需使⽤实验⽅法。我对⾮实验数据分析⼯具的选择原则如下。
因变量为连续变量,⾃变量⾄少有⼀个连续变量,进⾏多元线性回归;
因变量为连续变量,⾃变量全部为分类变量,进⾏⽅差分析;
因变量为分类变量,⾃变量⾄少有⼀个连续变量,使⽤Logit模型或Probit模型;
因变量为分类变量,⾃变量全部为分类变量,进⾏交叉表分析和卡⽅检验;
因变量在某个闭区间内分布,并且有较多样本落在闭区间的边界上,使⽤Tobit模型;
因变量不唯⼀,如多产出问题,进⾏数据包络分析(DEA);刘德华黑社会电影
因变量为整数、数值⼩、取零个数较多,使⽤计数(Count)模型;
数据具有层次结构(嵌套结构),使⽤多层线性模型(HLM)。
随着统计和计量经济学的发展,各种前沿分析⼯具层出不穷,但我认为最靠谱的分析⼯具不外乎以下四种:DID(针对随机实验),多元线性回归,固定效 应变截距模型(FE,针对⾯板数据),Logit模型或Probit模型(针对分类因变量数据)。其他⽅法或适⽤条件苛刻,或分析过程折腾,或⽅法本⾝不可靠(尤其是聚类分析、判别分析,超级不靠谱),因此能⽤以上四种⽅法分析问题时,不必为“炫⽅法”⽽瞎折腾。
梅花的诗句关于拟合优度、变量选择原则及估计值绝对⼤⼩的意义
在⼈⼈的“数据分析”⼩站中,某同学提出这样⼀个问题:“多元回归分析中,怎么选择⾃变量和因变量,可以使R⽅达到80%以上?”
很显然,问这个问题的同学要么没学好计量,要么就是犯了功利主义的错误,或者⼆者皆有。拟合优度的⼤⼩很⼤程度上取决于数据本⾝的性质。如果数据是时序数据,只要拿有点相关关系的变量进⾏回归就能使拟合优度达到80%以上,但这样的⾼R⽅根本说明不了什么,很可能使分析者陷⼊伪回归的陷阱,严谨的做 法当然是做平稳性检验和协整检验;如果是截⾯数据,根本没必要追求R⽅到80%的程度,⼀般来说,有个20%、30%就⾮常⼤了。
如果⼀定要增⼤R⽅,那么最应该做的的确是对纳⼊模型的变量进⾏选择。选择纳⼊模型的原则我认为有三条。第⼀,从理论和逻辑出发,将可能影响因变量的变量作为⾃变量纳⼊模型,即理论上或逻辑上能影响因变量的⾃变量必须纳⼊模型,即使该⾃变量的回归系数不显著。第⼆,奥姆剃⼑原则——如⽆必要,勿增实 体,即理论上或逻辑上不能影响因变量的⾃变量不能纳⼊模型,即使该⾃变量的回归系数显著。第三,防⽌纳⼊具有多重共线性的⾃变量。
前⾯说了,对截⾯数据进⾏计量分析,R⽅能达到20%、30%是⾮常了不起的事情。但是,如果拟合优度(或类似拟合优度的指标)在20%、30%或 更低时,回归系数只具有定性或定序上的意义,强调其绝对数值的⼤⼩没什么意义。譬如lnY=alnA+blnB+…+zlnZ+c回归的R⽅为20%,a 为0.375,b为0.224,且⼆者的T检验显著,那么我们可以说,A、B对Y有影响,也可以说⼀百分点的A变化对Y的影响⼤于⼀百分点的B变化对Y的 影响(控制其他因素的情况下),但说⼀百分点的A变化对Y的影响较⼀百分点的B变化对Y的影响⼤0.151%,就没什么意义了。
其他⼀些建议或忠告
⽤⼼思考变量间的因果关系:是A影响了B还是B影响了A?A、B之间是否真的有因果关系?是否存在C,使C既影响A⼜影响B,⽽A、B本⾝⽆直接关系?
仔细选择⾃变量,不要遗漏重要变量,否则会造成内⽣性问题。如果遇上了内⽣性问题,先不要忙着
寻⼯具变量或使⽤2SLS,寻被遗漏的变量才是最 重要的事情。如果被遗漏的变量即使到却囿于各种困难⽆法纳⼊分析,⽽你⼜忽然想到了⼀个绝佳的⼯具变量,那么恭喜你,你可以在核⼼期刊发⽂章了!
⼀定要控制其他可能对因变量产⽣影响的因素,并认识到对回归系数和偏相关分析结果的解释都是建⽴在“其他条件不变”的情况之下。看到R⽅很⼤时不要忙着⾼兴,如果F检验显著⽽T检验不显著,很可能存在多重共线性。看到t值很⼤时,也不要忙着⾼兴,因为这很可能是伪回归的产物;如果此时DW值很⼩(⼩于0.5),那么伪回归的可能性进⼀步变⼤。
均值⽐较虽然简单却考验分析者的严谨性。两个看似不同的平均数、中位数或⽐率是否意味着⾼下有别?样本取⾃独⽴总体还是相关总体?⽅差“齐”或“不齐”?⽐较的是平均数、中位数还是⽐率差异?
样本量限制了所能做的分析,⼩样本时请珍惜⾃由度;不要⽤⼩于30个样本的数据进⾏计量分析(尤其是时序分析)和复杂的统计分析;不要以为能从⼩于或等于5期的数据中看出什么“发展趋势”;不要没有依据的使⽤复杂的模型和分析⽅法;不要将⼀⽬了然的简单问题故意复杂化。
最重要的,不要!不对数据本⾝,也不对分析结果!数据分析前可以进⾏⼀定的清洗,将奇异值去掉,也可以尝试对未预料到的分析结果进⾏探讨和解释,但如果去改数据改分析结果,那还有什么必要进⾏数据分析呢?直接编⽂章编报告不就得了?某些“诡异的”、不合常理的数据分析结
果,很可能就是研究最重要的所得。
致富种植
以上,如有错误,敬请指正;如有补充,欢迎留⾔。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。