凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
前些日,咱们引荐了“CSMAR所有的数据产品均可免费下载!”,受到金融财务管理领域学者的欢迎。金融领域三大中文数据库, CSMAR, CCER, Wind和CNRDS,其中CSMAR数据库于2月29日就会停止免费服务,因此要使用这一数据库的学者得加快进度了。2月19日,咱们又引荐了“疫情期EPS数据库向全社会免费开放!附细致使用指南!”,受到海内外经管学者的一致好评,其工作人员发送了“EPS最新版本使用手册”。2月20日,给各位学者引荐了三门计量课程,系统讲解了最新因果推断,时间序列,面板数据等及在Stata中的实现过程(详见,疫情期计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用)。2月21日,给各位学者引荐了二个数据库的使用指南疫情期Wind资讯金融终端操作指南和CEIC数据库操作指南,参考一下“清华北大经管社科数据库有哪些? 不要羡慕嫉妒恨!”。2月22日,引荐了“估计具有两个高维固定效应的泊松回归模型”,里面包括面板泊松回归、面板负二项回归、控制函数法CF、受限三次样条等等。
上一日,咱们引荐了顶刊上出现的样本选择偏差vs自选择偏差问题及其处理方式汇编,从中了解了一些与样本选择相关的自选择问题(self-selection bias)。当存在自选择偏差时,我们首先想到的是一些匹配方法,比如PSM(1.PSM倾向匹配详细步骤和程序, 让Match进行到底,2.执行PSM的标准操作步骤, 不要再被误导了,3.PSM,RDD,Heckman,Panel模型的操作程序,4.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器,5.PSM-DID, DID实证完整程序百科全书式的宝典,6.分位数DID, PSMDID, 政策前协变量平衡性检验操作步骤和案例,7.PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王,8.广义PSM,连续政策变量因果识别的不二利器,9.PSM匹配后如何保留配对样本? 1:1, 1:4或更多情况呢?),NNM(1.处理效应模型选择标准,NNM和PSM,赠书活动),CEM(1.粗化精确匹配CEM文献推荐, 程序步骤可复制,2.无需检查协变量平衡性的CEM匹配, 到底有多神气和与众不同),GM(1.PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王)等。不过,匹配方法只能处理依可观测变量基础上的自选择问题,对于不可观测变量基础上的选择问题就显得力不从心。
对于不可观测变量基础上的自选择问题,匹配方法失去效力,此时需要用到的计量方法是“处理效应模型”,即处理变量为0-1的政策评估模型。假设,我们想要评估是否上大学对将来工作薪酬的影响,其中,“是否上大学”为0-1政策变量,“个体工作薪酬”为结果变量。不过,我们担心“是否上大学”变量存在自选择偏差,即有能力的(天资聪颖的)个体更有可能进入大学读书。在这个模型中,“是否上大学”是个内生二元处理变量,因为存在不可观测的能力与“是否上大学”和“将来工作薪酬”都相关。
此时,解决办法通常参照Heckman(1979)样本选择模型的传统,直接对处理变量进行结构建模,之后使用Heckman两步法进行估计。需要注意的是,这一处理效应模型要求结构方程中存在合理的工具变量(或结果方程与选择方程扰动项服从二元正太分布)。这相当于,为0-1处理变量寻找一个工具变量,从而缓解其不可观测变量基础上的自选择偏差。在本文的模型中,需要为“是否上大学”找一个工具变量,该变量与是否上大学相关,但不会直接影响个体工作薪酬。借鉴既有文献,我们使用“家庭到就读(中小)学校的距离”(distance)作为“是否上大学”的工具变量。其合理之处在于,到就读学校的距离与是否上大学相关,但却不会直接影响个体在将来的工作薪酬。为了使审稿人相信我们的推断,可以就到就读学校的距离与是否上大学做些简单的描述性统计。例如,可以比较一下到就读学校近的个体上大学的比例,是否显著高于到就读学校远的个体上大学的比例。
论证了工具变量的合理性后,需要使用Heckman两步法对结构模型进行估计。在第一阶段,我们以“上大学”为因变量,将那些影响个体上大学的因素作为自变量进行Probit回归,并得到逆米尔斯比例lamda(lamada衡量存在多大程度的自选择行为)。在第二阶段,我们需要将第一阶段估计得到的lamda代入结果变量的回归方程中。
一个简单的code:
gen treatment=(x1==1)
local covariate “x2 x3 x4”
etregress y covariate' i.year i.province, treat(treatment=distance
covariate’ i.year i.province) two first
outreg2 using “etreg.xls”, bdec(4) sdec(4) rdec(4) bracket replace
etregress y covariate' i.year i.province, treat( treatment=distance IV1
covariate’i.year i.province) two first
outreg2 using “etreg1.xls”, bdec(4) sdec(4) rdec(4) bracket append
注:其中IV1是另一个工具变量。
下面这几段话清楚地展示了自选择效应的表达式,其中式(4)是结果变量Y的表达式,式(5)是处理变量的表达式,Ω为两个式子的方差协方差矩阵。
上述通过工具变量处理自选择问题的方法,与常见的工具变量法解决内生性问题框架一致。区别在于内生变量是二值非连续变量,若强硬将其作为连续变量采用2SLS会让统计推断失效。
基于此,主要采用极大似然估计方法估计上述模型的参数,包括FIML(完全信息极大似然法)和LIML(有限信息极大似然法)。与FIML估计值相比,LIML估计值更稳健,但有效性更低。FIML是渐近有效的,但它依赖于选择方程的误差项和结果方程的误差项之间的联合正态性的附加假设。
在内生处理效应下,研究者可能确信(或更感兴趣)处理效应表现为截距效应(intercept effect)。在这种情况下,我们假设所有其他协变量会独立于处理变量,去影响结果变量,因此,处理效应只是回归曲线的上下移动。然而,在内生转换条件下,研究者认为处理效应是由其他解释变量传导的,因此也涉及到斜率效应(slope effect),因此,处理效应会使回归曲线的斜率发生变动。与内生处理效应模型相比,这种转换回归模型当然更灵活,因为它允许系数估计值在不同的分组之间变化,从而估计每个外生因子X对结果的异质性影响。关于内生转换模型,各位学者可以参看Heckman模型out了,内生转换模型掌控大局。
转换回归模型也可以看作是一种“双样本选择”问题,因为研究者可以通过两个Heckman样本选择过程,分别用模型估计处理组和控制组的系数。此时,若研究者首先关注一个子样本的观测数据并估计模型(6a)和(7),他之后可以关注另一个子样本的数据并估计模型(6b)和(7)。虽然采取这种方法是可行的,但事实上只利用了在子样本内的变化信息,与同时估计整个模型的方法相比,仍然是一个效率较低的过程。此外,执行两个Heckman样本选择程序实质上意味着假设参数图片为零。
比较OLS,IV,内生处理效应,内生转换模型的回归结果:
长按以上二维码阅读全文
拓展性阅读精选文章
前些日,咱们引荐了①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向,⑤2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!,②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授,③Python, Stata, R软件史上最全快捷键合辑!,④关于(模糊)断点回归设计的100篇精选Articles专辑!,⑤关于双重差分法DID的32篇精选Articles专辑!,⑥关于合成控制法SCM的33篇精选Articles专辑!⑦最近80篇关于中国国际贸易领域papers合辑!,⑧最近70篇关于中国环境生态的经济学papers合辑!这些文章受到了各位学者的欢迎和热议,博士生导师纷纷将其推荐给学生参阅。
内生性问题的拓展性阅读
0.看完顶级期刊文章后, 整理了内生性处理小册子;1.“内生性” 到底是什么鬼? New Yorker告诉你;2.Heckman两步法的内生性问题(IV-Heckman);3.IV和GMM相关估计步骤,内生性、异方差性等检验方法;4.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题;5.毛咕噜论文中一些有趣的工具变量!;6.非线性面板模型中内生性解决方案;7.内生性处理的秘密武器-工具变量估计;8.内生性处理方法与进展;9.内生性问题和倾向得分匹配;10.你的内生性解决方式out, ERM独领风骚;11.工具变量IV必读文章20篇, 因果识别就靠他了;12.面板数据是怎样处理内生性的;13.计量分析中的内生性问题综述;14.工具变量IV与内生性处理的解读;15.一份改变实证研究的内生性处理思维导图;16.Top期刊里不同来源内生性处理方法;17.面板数据中heckman方法和程序(xtheckman);18.控制函数法CF, 处理内生性的广义方法;19.二值选择模型内生性检验方法;20.2SRI还是2SPS, 内生性问题的二阶段CF法实现;21.内生变量的交互项如何寻工具变量;22.工具变量精辟解释, 保证你一辈子都忘不了。
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
2年,计量经济圈公众号近1000篇文章,
Econometrics Circle