凡是搞计量经济的,都关注这个号了
投稿:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
前些日,咱们引荐了①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向,⑤2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!,②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授,③Python, Stata, R软件史上最全快捷键合辑!,④关于(模糊)断点回归设计的100篇精选Articles专辑!,⑤关于双重差分法DID的32篇精选Articles专辑!,⑥关于合成控制法SCM的33篇精选Articles专辑!⑦最近80篇关于中国国际贸易领域papers合辑!,⑧最近70篇关于中国环境生态的经济学papers合辑!⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!⑩最近50篇使用系统GMM开展实证研究的papers合辑!这些文章受到了各位学者的欢迎和热议,博士生导师纷纷将其推荐给学生参阅。
correction: "如何选择正确的自变量(控制变量),让你的计量模型不再肮脏"标题应该是选择正确的自变量(控制变量)。
正文
当一个变量的作用取决于另一变量的值时,就会发生交互效应。交互效应在回归分析,方差分析和设计的实验中很常见。在此文中,我们将解释交互效应,如何在回归中解释它们,以及如果不将其包括在模型中将面临的问题。
在任何研究中,无论是味道测试还是制造过程,许多变量都会影响结果。改变这些变量会直接影响到结果。例如,在味道测试中改变食物中的调味品会影响其整体带给我们的享受。以这种方式,分析人员使用模型来评估每个自变量与因变量之间的关系。这种效果称为主效应。但是,仅评估主效应可能是错误的。
在更复杂的研究领域,自变量可能会相互影响。交互效应表明,第三个变量会影响自变量和因变量之间的关系。这种影响使模型更加复杂,但是如果现实世界确实以这种方式运行,则将其包括到模型中就显得至关重要。例如,调味品和味觉享受之间的关系可能取决于食物的类型,正如我们将在本文中看到的那样!
具有类别自变量的交互效应的示例
我们认为交互效应就是“取决于”效应。您会明白为什么!让我们从一个直观的示例开始,以帮助你从概念上理解这些影响。
想象一下,我们正在进行味道测试,以确定哪种食物调味品产生最高的味觉享受ͣ��,ͣ��。我们将执行方差分析,其中我们的因变量是味觉享受(enjoyment)。我们的两个自变量都是分类变量:食物(food)和调味品(condiment)。
具有交互效应项的方差分析模型为:
味觉享受enjoyment=食物food调味品condiment
为简单起见,我们在分析中将仅包括两种食物(冰淇淋icecream和热狗hotdog)和两种调味品(巧克力酱chocolate和芥末酱mustard)。
给定示例的细节,交互效应就不足为奇了。如果有人问你:“你喜欢在食物中加入番茄酱或巧克力酱吗?” 毫无疑问,你会回答:“这取决于食物的类型!” 这就是交互效应的“取决于”性质。在不了解有关交互效应术语中其他变量更多信息的情况下,你不能回答问题。
这就是概念。现在,我将向你展示如何在模型中包括一个交互项以及如何解释结果。
如何解释交互效应
让我们进行分析。所有统计软件都允许您在模型中添加交互项。
下面输出的p值告诉我们,交互较硬(食物调味品)在统计上是显著的。因此,我们知道你从调味品中获得的味觉享受取决于食物的类型。
但是,我们如何解释交互效应并真正理解数据在说什么呢?理解这些影响的最佳方法是使用特殊类型的图——交互图(interaction plot)。这种类型的绘图在y轴上显示因变量的拟合值,而在x轴上显示第一个自变量的值。同时,各条线代表第二个自变量的值。
在一个交互效应图上,平行线表示没有交互作用,而不同的斜率表明可能存在一个。以下是食物调味品的图。
图中的交叉线表明存在交互作用,而从食物调味品的p值也可以得到确认。该图显示,当食物为冰淇淋时,巧克力酱的味觉享受水平更高。相反,当食物是热狗时,芥菜的味觉享受较高。如果将芥末放在热狗上的冰淇淋或巧克力酱上,你不会高兴!
哪种调味料最好?这取决于食物的类型,我们使用统计数据来证明这种效应。
忽视交互效应是危险的!
当你具有统计学上显著的交互效应时,如果不考虑交互效应就无法解释主效应。在前面的示例中,如果不知道食物的类型,就无法回答哪种调味品更好的问题。同样,它“取决于”。
假设我们想通过选择最好的食物和最好的调味品来最大化味觉享受。但是,想象一下我们忘记了交互作用,而只评估了主效应。我们将根据以下主效应图做出决定。
根据这个图,我们会选择巧克力酱和热狗,因为它们各自都能带来更高程度的味觉享受。尽管主效应显示出来他们各自都能带来最高的味觉享受,但这不是一个好的搭配选择!当你进行具有统计学分析时,如果不考虑交互效应,就无法解释主效应。
考虑到我们这个愚蠢示例的直观性质,一眼就可以看出忽略交互效应的后果。但是,情况并非总是如此。
具有连续自变量的交互效应示例
在下一个示例中,我们将在制造过程(manufacturing process)的回归模型中评估连续自变量。自变量(加工时间time,温度temperature和压力pressure)影响因变量(产品强度strength)。
在回归模型中,我将包括温度压力作为交互效应。结果如下:
如你所见,交互项在统计上显著。但是,你如何解释回归方程中的交互项系数?你可以尝试在回归方程式中输入值,然后将它们拼凑在一起。但是,使用交互关系图要容易得多!
在上图中,变量是连续的而不是类别的。为了生成该图,统计软件会选择一个压力高值和一个低值,并将它们与温度值范围一起输入方程式中。
如你所见,温度和强度之间的关系会根据压力改变方向。对于高压,温度和强度之间呈正相关,而对于低压,则呈负相关。通过在模型中包括交互项,你可以捕获基于另一个变量的值而变化的关系。
如果你想最大程度地提高产品强度,并且有人问你该过程应该使用高温还是低温,则你必须做出回答,“这取决于情况”。在当前这种情况下,产品强度取决于压力。如果不知道压力值,就无法回答有关温度的问题。
交互项的重要注意事项
虽然这些图可以帮助你理解交互项的影响,但可以使用假设检验来确定这种影响是否具有统计学意义。图表可以显示代表随机样本误差而非实际效果的非平行线。P值和假设检验可帮助你理清噪声的实际影响。
本文中的示例是双向交互,因为每个交互项中都有两个自变量(食物 调味品和温度 压力)。用两种方式解释这些影响同样有效。例如,以下变量之间的关系:
味觉享受和调味品取决于食物。
- 味觉享受和食物取决于调味品。
您可以进行更高阶的交互。例如,三向交互效应在交互项中具有三个变量,例如Food Condiment X。在这种情况下,味觉满意度和调味品之间的关系取决于食物和X。但是,这种效果很难解释。在实践中,我们很少使用它们。但是,在某些模型中,可能需要提供适当的拟合。
最后,当具有统计学上显著的交互效应时,不要在不考虑交互效应的情况下尝试解释主效应。如本文所示,你可能出错误的结论!
关于交互项,我们引荐了很多相关文章,比如:
1.计量回归中的交互项到底什么鬼? 捎一本书给你,2.计量经济学中"交互项"相关的5个问题和回应,3.实证机制分析那些事,机制分析什么鬼?,4.政策评估中"中介效应"因果分析, 增添了文献和Notes,5.内生变量的交互项如何寻工具变量, 交互项共线咋办,6.因果中介效应分析出现在顶刊, 是时候使用新方法了,7.中介和调节效应自助法检验,针对非正态截面数据,8.面板数据中介效应的计算程序, 打开面板这扇门,9.中介和调节效应操作指南, 经典书籍和PPT珍藏版,10.中介效应分析的四种方式, 原则方法和应用综述,11.中介效应分析的方法和模型, 一篇听说必须看的文献,12.多重中介效应的估计与检验, Stata MP15可下载,13.具有调节变量的中介效应分析, moderated mediation,14.具有调节变量的中介效应程序和数据, 独家解读相关结果,15.有限混合模型FMM,异质性分组分析的新筹码,16.省份/行业固定效应与年份固定效应的交乘项固定效应,17.面板数据中去中心化的交互项回归什么情况,18.面板交互固定效应是什么, 白聚山教授推动了最前沿的研究,19.广义合成控制法gsynth, 基于交互固定效应的因果推断,20.一个完整的实证程序, 以logit或ologit为例,21.跨数据比较回归系数技巧,22.U型, 倒U型, 还是线性关系, 你平常的做法不靠谱,DID中行业/区域与时间趋势的交互项, 共同趋势检验, 动态政策效应检验等。还有很多文章,各位学者可以自行搜索公众号内容。
图片
拓展性阅读
就内生性问题及其解决方法,咱们为各位学者引荐了很多文章,例如:看完顶级期刊文章后, 整理了内生性处理小册子;1.“内生性” 到底是什么鬼? New Yorker告诉你;2.Heckman两步法的内生性问题(IV-Heckman);3.IV和GMM相关估计步骤,内生性、异方差性等检验方法;4.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题;5.毛咕噜论文中一些有趣的工具变量!;6.非线性面板模型中内生性解决方案;7.内生性处理的秘密武器-工具变量估计;8.内生性处理方法与进展;9.内生性问题和倾向得分匹配;10.你的内生性解决方式out, ERM独领风骚;11.工具变量IV必读文章20篇, 因果识别就靠他了;12.面板数据是怎样处理内生性的;13.计量分析中的内生性问题综述;14.工具变量IV与内生性处理的解读;15.一份改变实证研究的内生性处理思维导图;16.Top期刊里不同来源内生性处理方法;17.面板数据中heckman方法和程序(xtheckman);18.控制函数法CF, 处理内生性的广义方法;19.二值选择模型内生性检验方法;20.2SRI还是2SPS, 内生性问题的二阶段CF法实现;21.内生变量的交互项如何寻工具变量;22.工具变量精辟解释, 保证你一辈子都忘不了。除此之外,还有很多与此相关的文章,因此建议学者根据自身需要搜索相关内容。
之前,咱们小组引荐了1.DID运用经典文献,强制性许可:来自对敌贸易法的证据,2.连续DID经典文献, 土豆成就了旧世界的文明,3.截面数据DID讲述, 截面做双重差分政策评估的范式,4.RDD经典文献, RDD模型有效性稳健性检验,5.事件研究法用于DID的经典文献"环境规制"论文数据和程序,6.广义DID方法运用得非常经典的JHE文献,7.DID的经典文献"强制许可"论文数据和do程序,8.传销活动对经济发展影响, AER上截面数据分析经典文,9.多期DID的经典文献big bad banks数据和do文件,10.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?,11.AER上因果关系确立, 敏感性检验, 异质性分析和跨数据使用经典文章,12.第二篇因果推断经典,工作中断对工人随后生产效率的影响?,13.密度经济学:来自柏林墙的自然实验, 最佳Econometrica论文,14.AER上以DID, DDD为识别策略的劳动和健康经济学,15.一个使用截面数据的政策评估方法, 也可以发AER,16.多期DID模型的经典文献,big bad banks讲解",",17.多期DID的经典文献big bad banks数据和do文件,18.非线性DID, 双重变换模型CIC, 分位数DID,受到博士生导师普遍欢迎,并分享给其指导的学生学习。
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
2年,计量经济圈公众号近1000篇文章,
Econometrics Circle