倾向值匹配法就是将各个受测单元多维度的信息,使用统计方法简化成一维的数值,成为倾向值,然后据之进行匹配,匹配的目的就是要找寻实验组和对照组样本中拥有相同(或者相似)倾向值的样本,它们之间的差异,就是因果关系。这个原理非常简单,但聪明的读者肯定会问,什么是多维度的信息?如何简化它?这都是倾向值匹配法*为关键也是*容易发生问题的地方。《倾向值匹配法的概述与应用:从统计关联到因果推论》的第1章将简要介绍为什么要对多维信息进行降维处理,而第2章将进一步讲解这背后的理论背景。第3章选择了4篇学刊论文,对其中倾向值匹配方法的使用进行解析。第4章则就“应用R软件和STATA软件实现倾向值匹配法”进行说明。
2005年春天,我在纽约大学Adam Przeworski教授的课上,第一次接触到倾向值匹配法,从此便与它结下了不解之缘。十年之后,“社会科学研究方法·前沿与应用”丛书召开第一次编写会,与会青年学者须各选择一个方法作为自己的主题,我当下就决定介绍这个方法。十年之前,倾向值匹配法在美国社会科学学界正处于上升期,许多学者认为因果推断有了新的解决方法,他们如获至宝,纷纷投入此一方法的使用,并为这个方法编写各类软件,以致坊间各式各样的“倾向值匹配方法”相关软件,一度如雨后春笋般层出不穷。不过,就如同Przeworski教授在那堂课后发表的工作论文中所指出的,这一方法在解决因果推断问题上存在局限性。学者们对这个方法的憧憬,其实是个美丽的误会;之后的数年间,也即我攻读博士期间(至2009年),我几乎见证了“倾向值匹配法”在学术界发展变迁的全过程。一方面,其所依据的理论不断产生新的突破和改进,学者提高了应用这个方法的标准和范式;然而,另一方面,他们的努力却为“倾向值匹配法”敲响了丧钟,它的绚烂,仿若一颗陨落的新星,暗淡了下来。正如学术研究中的许多方法一样,它们从最初喧嚣夺目、令人趋之若鹜的热闹,逐渐趋于平静和理智,这一过程让身处其中的我不禁扼腕叹息,同时又赞叹.于学界专家学者们永无休止的探索精神,这或许正是“方法”和一切学术研究的魅力所在吧!在这本书的前两章,我尽可能以由浅入深的方式,向你们介绍这个定量方法中一闪即逝的流星。
我想我可以下个定论,即倾向值匹配法在社会科学学界的盛行,与其隶属的因果推断理论有高度关系。20世纪以来,社会科学学者越来越希望能像自然科学学者一样,说因道果,确立研究的“科学性”与典范性,尽管他们的研究往往发现的是关联性,而非因果关系,不过他们依然为此付出了巨大的努力,不断挑战与审视自己的做法和观点。例如,早在1959年,美国社会学大师Seymour Martin Lipset博士即挑战了现代化理论,他认为关联不等于因果,现代化理论所主张的经济发展与民主化的关系,并不能构成因果关系。正是这样坦诚直面问题核心的精神,催促着社会科学学者们不断探究解决因果关系新的研究方法,同时也注定了“倾向值匹配法”这个宣称可以解决因果推断基本难题的研究方法,可以于21世纪初在社会科学学界横空出世!
如果读到这里,你打算合上这本书,从此远离倾向值匹配法,那你正好错过了这个在当代定量方法中最值得学习的方法。如果说倾向值匹配法是以最保守的方式进行变量间的因果推断,那么它的不足之处,同样也是其他方法推断因果受限的地方。所以,如果说学者对于这个方法的审慎规范,摧毁了这个方法的普适性,那么它的陨落同样也给其他研究方法带来本质上的)中击。简言之,我们再不能天真地认为回归分析结果就能给我们因果关系,甚至据此获得的关联性都有可能是错的,是谬误的(请详见本书关于共变量重合的讨论)!
第1章 因果推论理论概述
1.1 潜在结果模型
1.1.1 因果态与实验分组
1.1.2 因果推论的基本难题
1.1.3 平均处理效用
1.2 社会科学研究中的因果推论
1.2.1 处理变量的可操作性
1.2.2 单元同质性假定
1.2.3 可忽略的处理分配假定
1.2.4 控制混淆共变量
1.2.5 稳定单元处理值假定
1.2.6 共变量分布平衡与重合的要求
1.2.7 勿控制处理分配后的变量
1.3 小结
第2章 使用倾向值匹配法估计因果效用
2.1 倾向值
2.1.1 倾向值的性质
2.1.2 估计倾向值
2.2 匹配法
2.2.1 精确匹配法
2.2.2 最近邻匹配法
2.2.3 区间匹配法
2.2.4 核匹配法
2.2.5 马氏距离匹配法
2.2.6 贪婪匹配法与最佳匹配法
2.3 匹配后的检验
2.3.1 共变量分布不平衡分析
2.3.2 共变量分布不重合分析
2.3.3 选择性偏差与敏感性分析
2.4 匹配后估计平均处理效用
2.4.1 使用回归模型估计平均处理效用
2.4.2 平均处理效用的标准误差
2.4.3 非二元处理下的平均处理效用
2.5 小结
第3章 社会科学案例选读
3.1 案例评析重点
3.2 教育学案例:计算机的使用对中学生数学成绩的影响
3.3 心理学案例:独生和非独生子女情绪适应的差异
3.4 政治学案例:候选人议题立场与选民投票抉择
3.5 经济学案例:企业贸易形态与工资水平
第4章 应用R软件和S7A了A软件实现倾向值匹配法
4.1 R程序包
4.2 STATA程序插件
4.3 使用R进行倾向值匹配分析LaLonde数据
4.4 使用STATA进行倾向值匹配分析LaLonde数据
参考文献
表目录
表1.1 因果推论的基本难题
表1.2 二元处理下的虚拟实验数据
表2.1 儿童血铅水平的敏感性分析结果
表4.1 LaLonde数据中的变量
《倾向值匹配法的概述与应用:从统计关联到因果推论》:
我们再通过一个国际经济学的例子来说明违反稳定单元处理值假定的情形。核心的因果问题是“出口导向”的发展模式是否能够促进一国的经济增长?“出口导向”发展模式为“处理”,受测单元为世界各个国家与地区,通过比较采用“出口导向”发展模式的国家(实验组)与不采用“出口导向”发展模式的国家的经济增长率,可以得出“出口导向”发展模式的处理效用。从世界经济发展史中可以了解到,拉丁美洲的巴西采用“出口导向”的发展模式,乃是受到东亚的韩国、中国香港、新加坡和中国台湾等国家与地区的启发,所以巴西领导人在选择发展模式时,势必度量国内经济发展的多项要素,并仔细研究东亚各国与地区操作该模式的经验,正因如此,即便巴西经济有所增长,我们也无法得出“出口导向的发展模式有助于经济发展”的结论。
……