统计学在社会学中的应用1950-2000一个简要的回顾.doc-道客多多

资源描述

1、统计学在社会学中的应用1 Yanlong Sept.2003统计学在社会学中的应用1950-2000：一个简要的回顾Adrian. E. Raftery12001 年 2 月 15 日1 Adrian. E. Raftery，华盛顿大学统计学和社会学教授，统计学和社会科学研究中心主任。Email: rafterystat.washington.edu， Web: www.stat.washington.edu/raftery。作者感谢 Mark Becker, Mark Handcock, Don Rubin, Michael Sobel, Tom Snijders, Rob Warren,

2、 Yu Xie 以及 Kazuo Yamaguchi 给予本文的宝贵评价，这些评价对与本文的改进起到了极大的帮助作用。统计学在社会学中的应用2 Yanlong Sept.2003概要统计学方法在社会学中的运用已经成功地走过了半个世纪，它对提高社会学这门学科的科学研究水平做出了巨大的贡献。根据研究者所使用的数据类型的不同，我将战后统计学方法在社会学中的应用过程分为三个层叠的时期。第一代统计方法起于 1940 年代晚期，研究者主要运用交互表(cross-tabulations) 的方法，同时对关联测量 (measures of association)和对数线性模型(log-linear mo

3、dels)倾注了许多心血，可以说这是社会学对统计学贡献最大的一个领域。第二代统计方法始现于 1960 年代，这一时期的研究者主要面对的是个体层次的调查数据，同时他们将注意力集中在具有线性结构关系(LISREL)的因果模型和事件史分析(event history analysis)上。第三代统计方法在 1980 年代晚期就已经初现端倪，研究者所处理的数据已经不能简单地归入上文所述的任何一个范畴。一方面是因为这些数据都具有与众不同的形式，比如文本和口述，另一方面是因为在与空间的和社会网的数据联系时，依赖性已经成为一个至关重要的方面。尽管有许多新的挑战，但用统计学方法研究这一领域的条件已经成熟，最近

4、，几个主要的研究机构已经开始在统计学和社会科学领域展开新的探索。统计学在社会学中的应用3 Yanlong Sept.2003目录1 引言 42 第一代统计方法:交互表(Cross-Tabulations) 62.1 分类数据的分析(Categorical Data Analysis)62.2 潜在类别模型(Latent Class Model) .82.3 假设检验和模型选择(Hypothesis Testing and Model Selection).83 第二代统计方法:个体层次的调查数据(Unit-Level Survey Data) 93.1 对职业地位的测量(Measuring

5、Occupational Status) 93.2 结构方程模型的诸多应用(The Many Uses of Structural Equation Models) .103.3 事件史分析(Event History Analysis) .123.4 二分因变量(Binary Dependent Variables) 133.5 其他有限因变量(Other Limited Dependent Variables) 143.6 多层次模型(Multilevel Models) 153.7 缺省数据(Missing Data) 163.8 因果关系(Causality) .174 第三代统计方法

6、:新数据,新挑战,新方法(New Data, New Challenges, New Methods) .194.1 社会网络和空间数据(Social Networks and Spatial Data) 194.2 文本和定性数据(Textual and Qualitative Data) 204.3 叙述和序列分析(Narrative and Sequence Analysis).214.4 仿真模型(Simulation Models) .214.5 宏观社会学(Macro-sociology) .225 讨论 22参考文献 24统计学在社会学中的应用4 Yanlong Sept.200

7、31 引言为了纪念千禧年的来临，美国统计学会月刊(Journal of the American Statistical Association)刊登了一个由大约 50 篇短文组成的连载，每篇短文都着力概括统计学中的某一领域在即将过去的一个世纪所取得的进展。这一计划的初衷在于将统计学中一些最优秀的成果做一总结，并且突出未来研究中的具有潜力的领域。我写作了有关统计学在社会学中应用的那篇论文(Raftery,2000)。其他几篇相关的论文或许会对那些对社会学方法论感兴趣的读者有帮助，这些文章涵盖了列联表(contingency table)，对数线性模型(Fienberg,2000)，因果推理在社

8、会科学中的应用(Sobel,2000)，人口学(Xie,2000)，政治学方法论(Beck,2000) ，计量心理学(Browne,2000)，经验方法在法律科学中的应用(Eisenberg,2000)等诸多领域。在我这篇论文的初稿问世后，许多同事都对我的文章发表了评论，其中有许多评论正确地指出了我在文章中不慎遗漏的该领域的一些重要发展。然而，由于美国统计学会月刊给我的篇幅有限，我不可能将这些遗漏的部分全部补充进来。幸运的是，社会学方法论(Sociological Methodology)编辑 Michael Sobel 和 Mark Becker 请我撰写一篇在此基础上有所扩展的专题论文，或

9、许这篇论文能够为这一不断发展的研究领域提供一个更为合适的概括。社会学起源于十九世纪中期，孔德（他首先引进了“社会学”一词），马克思，韦伯和涂尔干围绕着工业革命后新出现的社会，写下了一系列具有奠基意义的著作。社会学从一开始就使用了定量的研究方法。孔德，这位学科的奠基人，清晰的意识到这门学科应该以统计数据为基础。而涂尔干的自杀论更是成为了广泛运用统计数据的典范。然而，在二战以前，可供研究的数据都显得支离破碎，统计方法也比较简单，仅仅停留在描述性统计的层次上。经过仔细的考证 Camic 和 Wilson(1994)认为，Franklin H. Giddings 是美国定量社会学之父。 Giddin

10、gs 于 1894 年在哥伦比亚获得社会学教授职务，1931 年逝世，他将社会学界定为研究集体层面社会现象的一门学科。他认为在很大程度上社会学中的统计分析是将诸多的个体分成不同的类别，同时发现每一类别的平均特征。从现代统计学角度来看，缺乏对变化的考察是他著作的一个最为显著的特征。从那以后，研究用的数据变得越来越复杂，同时统计方法也在不断发展，以适应数据分析的需要。这时期的统计学方法的发展，有许多是要归因于社会学家而非统计学家的努力。Clogg(1992)以及他文章的评论者们有力的论证并且记述了这一点。这种情况部分反映了一个事实，即致力于研究社会学问题的统计学家的数量相对较少。更多的统计学家倾向

11、于关注药物学，工程技术以及生物科学方面的问题。这或许反映了在二十世纪后半期不同学科间研究资金分布的不平衡状况。然而，最近有迹象表明这一情况正在发生变化，我将在本文的结尾论述这个问题。在过去的五十年中，社会学总的趋势是向更为严格、清晰的假设；更大更详细的数据集合发展；为了拟合数据，统计模型变得越来越复杂；主要社会学期刊所发表文献的统计分析水平也在不断提高。统计方法在社会学领域成功地走过了半个世纪，使得该学科研究的科学水平有了极大的提高。社会学中广泛的使用了各种各样的统计学方法和统计模型。在这里，我将集中考察那些由社会学家发展的，直接由社会学问题所引致的，或者首先在社会学期刊上发表的那些统计学成就

12、。许多其它的方法，比如逻辑斯蒂回归等适用于有限数量的因变量的方法，虽然也广泛的应用于社会学研究，但是他们是首先在其他的学科中为解决其学科自身的问题而发展出来的。有鉴于此，尽管这些方法很重要，但我们在这里也仅对他们做一简要介绍。统计学在社会学中的应用5 Yanlong Sept.2003对于从计量经济学而不是从统计学中引入到社会学研究中的统计方法，本文省略了与其相关的讨论。这或许对从另一个角度来讨论这一问题有所帮助。计量经济学对社会学方法论产生了非常重要的影响，甚至有些人说这种影响比来自统计学本身的影响更为强大，但是在这里除了个别情况，我将不对这种重要的影响发表评论。为了避免引起争论，我将根据社

13、会学中不同的统计方法所针对的数据类型，而不是根据这些方法本身对他们加以分类。我将区分出战后统计学在社会学中应用的三个不同的阶段。每一阶段的划分都是根据他们通常所适用的数据类型做出的：交互表，单位水平的统计数据，以及种种新的数据形式。就像现实中的代际一样，这三代统计方法前后层叠，而且它们之间的界限也并非十分明晰。虽然这些方法代表着不同的成熟水平，甚至关于他们的起点也并没有一个统一的界定，但是今天这些方法都依然保持着活力。在二战后开始的这一时期，社会学家们所使用的许多数据都是在调查和普查的基础上以交互表的形式呈现的。我在文中所要讨论的第一代统计方法就是以这种方式处理数据的。通常说来，这类交互表都只

14、包含很少的变量，例如性别，年龄组以及职业分类。社会流动表可以称得上是这种方法中的经典之作。这一领域或许是社会学家对统计学贡献最大的地方。实际上，我们可以说是社会学家们主导了这一分支领域，他们发展出来的这些方法已经超出了社会学领域渗透到其他的学科的研究工作当中。Schuessler(1980)所作的调查在很大程度上反映了第一代方法所取得的成就。1960 年代早期，社会学家已经不必再依赖于计数的交互表了，来自含有多个变量调查的个体层次的数据越来越容易获得。计算能力也已经发展到能够轻而易举地处理这些数据的水平。第二代的统计方法正是针对处理这类数据而发展出来的。Blau 和 Duncan 的有广泛影响

15、力的著作美国的职业结构(The American Occupational Structure)，为这一代的统计方法披上了金色的外衣，而 1969 年社会学方法论(Sociological Methodology)以及 1972 年社会学方法与研究(Sociological Methods and Research)等发表窗口的建立，更为这一方法增光添色。Edgar Borgatta 一手创立了这两份刊物，当他创立第二份刊物时，社会学方法论已经远不能满足日益增多的投稿和发表的需要了。这些发展标志了社会学定量研究方法的新时代的到来。1980 年代晚期，社会学家们勾画了一个雄心勃勃的计划，就是对

16、那些难以符合标准交互表和数据矩阵要求的数据类型进行统计分析（尽管在有些情况下，这些数据也可以被强行归入这些类别中）。这些数据包含了文本(text)或叙述(narrative)，以及依赖性很强的数据，比如社会网的数据和具有空间参照特性的数据。这其中还包含了一些含有多类型变量的数据集，比如卫星图片，人种学的纪录和其他一些定量测量数据。第三代的统计方法正是为了处理诸如此类的数据而发展出来的。或许是每一个新事物的优点，迄今为止，这一代方法保持着它们的活力，包含了大量的令人激动的想法和进展，但是他们还未形成前两代统计方法所具有的成熟、完备的形式。我对社会学中所应用的统计学方法的分类是根据不同方法所处理

17、的数据类型做出的，而不是以方法本身的类型为标准，但这并不意味着目前研究生课程的编排有什么问题。或许为了训练的方便和有效，社会学的主要方法倾向于按照不同的类别组织在一起，比如回归模型(regression model)，有限因变量模型(limited dependent variable model)，对数线性模型(log-linear model)，结构方程模型 (structural equation model)，事件史分析等等。然而，我发现要分辨统计学方法以往的发展趋势以及构想未来的发展，从最初引致这些方法产生的数据的类型入手或许是一条捷径。过去的五十年间，我们已经走过了一条漫长的道路。

18、今天，许多社会学研究都是以巨大的高质量的调查样本为基础进行再分析的。他们较多的利用在公共基金资助下收集的或者是对研究者公开的数据库，这些数据库通常都有着 5000 到 20000，甚至更大的样本规模。统计学在社会学中的应用6 Yanlong Sept.2003这为复证结果提供了一条简便的道路，同时也有助于社会学建立起可以与自然科学或医药科学相媲美甚至高于这些学科的科学标准。或许受以上因素的影响，社会统计学在最近成为了一个迅速扩展的研究领域，许多重要的研究机构也都在最近几年开始了他们对这一领域的探索。2 第一代统计方法:交互表(Cross-Tabulations)2.1 分类数据的分析(Cate

19、gorical Data Analysis)定量社会学家们分析的许多数据最初都是以交互分类表的形式出现的，所以毫不奇怪这一领域成为了社会学家对统计学贡献最大的地方。交互表分析中的经典的例子是社会流动表，这类表格通常具有两个维度，即应答者的职业类别与应答者父亲的职业类别，而职业类别的数量通常在 5 个到 17 个之间。最初的研究焦点是关联程度的测量，在社会流动领域他们称之为流动指数(Glass, 1954; Rogoff, 1953)，然而这些指数不能对结构流动与交互（或称为循环）流动进行区分。为了解决流动表分析中的这一关键问题，研究者需要为这些交互表建立一个清晰的概率模型。为此，Birch 针

20、对观察值x ij提出了一个对数线性模型, (1)(12)(2)(1)log( ijjiij uuxE其中，i 代表行，j 代表列，u1(i)和 u2(j)分别代表行和列的主效应，u12(ij)是交互项，用来测量对独立性的偏离。这一模型为所有需要对社会流动表和相似表格进行严格的分析的研究提供了一个总体的框架。然而，模型(1)的原型在分析社会流动和其他相似的交互表时遇到的困难是参数的数量过大，以至于不能进行推论和解释。比如美国的数据库通常使用的分类有 17 个，因此交互项中就包含了 16=256 个参数。要改进这一模型，就要使模型的交互项尽量简约（即含有较少的参数），同时又使模型能够拟合数据。在

21、这方面，Duncan(1979)和 Goodman(1979)提出了一个成功的解决方案，即关联模型(association model) ：, (2)Mmimjiij ju1)()()(12 )(其中，若 i=j，则 (i,j)=1；若 ij，则 (i,j)=0 。在模型(2) 中， i(m)是第 i 行在第 k个维度上的取值， j(m)是在第 j 列的对应值。这些值既可以事先具体化，也可以从数据中估计出来。最后一项允许在对角线方向上有不同的关联强度。（模型(2)是未经确认的书写形式，可能还有各种各样的确认条件）这个模型常被称为 RC(M)模型。目前的应用中大多数情况下都是 M 为 1，而在

22、社会学实际应用中最早在模型中取 M1 的是 Clogg, Eliason 和Wahl(1990)进行的对劳动市场经历和劳动力成果的研究。Goodman(1979)最初发展这一模型时，是将其作为用本地优比(Local Odds Ratio)描述关统计学在社会学中的应用7 Yanlong Sept.2003联程度的一种方法。Goodman(1985) 表明这一模型与规范的相关和对应分析有紧密的联系，并且为这些方法提供了一个颇具发展潜力的框架。在对类别进行排序时，在 i= i=I 的条件下，这个标准的关联模型是一个有用的分析起点(Haberman,1979)。在这个模型中，所有的 22 子表的优比都

23、相等，因此当 = k 时，这可以被看作二元正态分布的一个非连续的近似。表 1：观察频次来源于美国社会流动最大规模的研究，期望频次来源于自由度为 4 的Goodman 关联模型。样本规模 19，912。来源：Hout(1983) 。子代职业高级非体力劳动低级非体力劳动高级体力劳动低级体力劳动农业劳动父代职业 Obs. Exp. Obs. Exp. Obs. Exp. Obs. Exp. Obs. Exp.高级非体力劳动 1414 1414 521 534 302 278 643 652 40 42低级非体力劳动 724 716 524 524 254 272 703 698 48 43高级体

24、力劳动 798 790 648 662 856 856 1676 1666 108 112低级体力劳动 756 794 914 835 771 813 3325 3325 237 236农业劳动 409 386 357 409 441 405 1611 1617 1832 1832表 1 展示了一个简化后的美国社会流动研究的真实案例，拟合数据都是通过关联模型得到的，该模型解释了表中 99.6%关联性，因此它的成功是显而易见的。Hout(1984) 扩展了这一模型的适用范围，在职业类别的性质等问题上，他使用模型(2)把取值(score)和对角项(diagonal terms)转换成取值的和或者协

25、变量的积。这是对 Birch(1965)的线性交互模型(linear-by-linear interaction model)的一个扩展。这种方法也将研究者的以简洁和可解读的方式，模拟相对更高维度和类别更多的交互表的愿望变成可能。并且它还成就了许多重要的发现，其中包括 Hout(1988)得到的美国社会的流动性近年来在不断增加的发现。这一个细致的发现是在具有复杂性质的数据基础上做出的，如果没有使用关联模型的方法这一成果将是很难获得的。Ganzeboom、Luijkx 和Treiman 的研究进一步证实和推进了这一实质性的成果，这一研究依据的是从同一时点的不同国家收集的几百个社会流动表，研究者发

26、现，在二十世纪后半期工业化国家的社会流动性在以每年 1%的速度增加。Biblarz 和 Raftery(1993)以及 Biblarz，Raftery 和 Bucur(1997)将这一模型应用到更高维度的流动表中，用以研究不完整家庭的社会流动性。他们所用的流动表包含有父亲职业、子代职业、性别、种族、年代等 5 个维度，共计约 7000 个单元。在这种情况下，标准的对数线性模型不能获得任何信息，但是使用关联模型并且对以前模型进行扩展后，却可以得到可解读的结果，参数估计和结论。他们的研究表明，不完整家庭(nonintact family)的职业相似性比完整家庭的职业相似性弱，在不完整家庭中，由工作

27、的单亲母亲抚养的子女在职业继承方面平均说来要优于其他类型的不完整家庭中的子女。从 1960 年代到 1990 年代，尽管家庭结构，职业分布，两性和种族之间的关系，及其职业和劳动力的地位等方面都发生了许多变化，但是这种流动模式在本质上保持了稳定。其他一些应用对数线性模型和与统计学在社会学中的应用8 Yanlong Sept.2003它相联系的模型的重要案例包括了对性别区隔的分析(Charles and Crusky,1995)和对同等地位群体内部的婚配问题的研究(Kalmijn,1991)。从社会学开始，关联模型的使用已经逐渐扩展到其他的学科中，例如流行病学的研究(Becker,1989)。对二

28、维以上的交互表进行分析的一个基本原因是要评估二维的关联性如何依照第三个（或其他几个）维度变化的。Yamaguchi(1987)和 Xie(1992)提出了高维度关联模型的具体形式，而 Goodman 和 Hout(1998)在此基础上进行了综合和扩展。后一种方法的一个十分吸引人的特点是它能以图形的形式展现结果，这为解读分析中所出现的更为复杂的数据和模型参数提供了方便。这些模型适用于对不连续的独立变量进行分析。而在分析由连续的独立变量组成的交互分类的依赖性方面，Sobel(1981,1985)的对角流动模型(diagonal mobility models)或许是最为成功的。这一方法被广泛的应用

29、于各个领域，比如对婚姻生育(marital fertility) (Sorensen, 1989)，文化消费(De Graaf,1991)，和投票行为(Weakleim,1992)的研究。模型(1)和模型(2) 背后所潜藏的基本原理，可以通过另一个直观的方式表达，这一方式是根据边缘分布(marginal distribution)而不是根据模型(1) 中的主效应进行的。由此产生的边缘模型(marginal model)为研究边缘分布和优比开辟了道路，这为非对数线性的联合分布提供了一个新的模型(Lang and Agresti, 1994; Becker,1994; Becker and Yan

30、g,1998)。这类模型在社会学中的首次应用便是为了模拟社会流动(Sobel, Becker and Minick,1998)。2.2 潜在类别模型(Latent Class Model)解决类似的纷繁复杂问题的另一个途径是使用潜在类别模型(Lazarsfeld,1950;Lazarsfeld and Henry,1968;Goodman,1974a,b)。它的基础形式可以被看作是一个有限个分布的集合体，该集合体中每一个分布所包含的不同的变量都是独立的。这种模型被用来分析可观察的多变项离散数据的关联性，这种方法的最初的动机与用因子分析来处理多变项连续数据的想法相类似。Hagenaars(198

31、8,1990)扩展了潜在类别模型的使用范围，使得在那个多分布集合体中的每一个组成部分都不独立。这一模型的应用实例已经有相当的数量。Clogg(1995)对这一研究领域进行了总结。最近，Roeder，Lynch 和 Nagin(1999)用这一模型完成了一项有趣的犯罪学方面的研究。这一基础模型已经在其他的情况中被使用和简化。Chickering 和 Heckerman(1997)在潜藏了一极后将它简化为 Bayesian 图示模型。这种简化式使得用潜在类别模型研究多变量关系时比较容易做出估计，同时它可以方便地在某些个体含有缺失数据的情况下对模型进行估计，此外它还能够对缺失的数据做出推断。Cele

32、ux 和 Govaert(1991)使用了同一个基础模型来聚合多变项离散观察值，从而为分析大量变量做好了准备。2.3 假设检验和模型选择(Hypothesis Testing and Model Selection)社会学家通常所使用的样本所包含的个案规模都在数千个左右，因此他们较早碰到了一个问题，即标准的 p 值在样本量相当大的情况下也可能意味着对无差异假设的拒绝，甚至当原模型在理论上看有意义，而对数据考察却不能揭示任何有意义的差异时也是如此。这一问题与下面两个问题结合在一起，首先在通常情况下存在很多模型而不仅是在进行显著性检验时我们所正视的那两个模型。其次我们是用逐步比较法还是用多项比较的

33、方法对模型进行筛选(Goodman,1971) 。到 1980 年代早期，为了解决这一问题，一些社会学家在当基于 P 值的检验得到的结果看起来有悖于直觉时，索性忽略这一结果。另外一些研究者则统计学在社会学中的应用9 Yanlong Sept.2003更多地使用模型筛选的方法，而不再对模型和数据之间的不一致进行理论性的思考或非正规的评价(Fienberg and Mason, 1979; Hout, 1983, 1984; Grusky and Hauser,1984)。后来有人指出，使用模型筛选比用 Bayes 因素法能更有效的处理这一问题(Ragery, 1986a)。研究者可以通过选择 B

34、IC(BIC=Deviance-自由度*log(n)值比较小的对数线性模型，用近似的方法解决这一问题(Schwarz,1978;Ragery,1986b)。对于嵌套的假设，这种做法可以被看作是在确定一个检验的显著性水平，这以显著性水平将会随着样本规模的扩大而减小。从此以后，许多社会学研究在使用对数线性模型时都应用了这一方法。Kass 和 Wasserman (1995)表明在对模型参数进行估计时使用的 Bayes 先验分布是个体信息先验分布时，即与一个“典型”观测包含了同样多信息的一个有限分布时，这种近似方法还是十分精确的。而 Raftery(1995)则阐明了将这种方法拓展到其他更多的模型

35、中的策略。Weakliem(1999)对 BIC 的使用做了批评，他认为在实际中 BIC 所对应的个体信息先验分布过于分散，如果在此基础上使用 BIC 的话，将会导致 BIC 在多数情况下对无差异假设有利。然而，Raftery(1999)指出个体信息先验分布的确为调查者已知的先验信息了一个合理的代表，尤其在当调查者事先有一些，但不是很多关于他所估计模型的参数值信息时更是如此。如果调查者有更多的信息的话他将有一个更为紧凑的先验分布，这样他就有了一个在用 BIC 不能拒绝无差异假设时，拒绝该假设的基础，但这要建立在先验信息而不是数据的基础上，同时在任何一篇报告中这一点都要被明确的指出来。BIC 提

36、供了一个保守的评价标准：人们可以对任何效果的实际意义更有信心，证明这些实际效果存在的信息都受到 BIC 的有利的支持。Weakliem 的论述可以被看作是在暗示如果真实的先验信息确实可资利用的话，它就应该被利用，对此我表示赞同。在先验信息反映实际可用信息的基础上使用 Bayes 因素法时，这样做可以使对数线性模型以及其他的普通线性模型的应用变得简单。3 第二代统计方法:个体层次的调查数据(Unit-Level Survey Data)第二代统计模型是在个体层次的调查数据出现的基础上应运而生的，这些由独立的个体层次的数据构成巨大的数据矩阵。线性回归模型和由它拓展成的通径模型，结构方程模型，广义线

37、性模型和事件史模型是分析此类数据的大多数成功模型的基础。但是，在仅对变量的分布而不是他们的估计值进行研究时，非参数模型则更为有效(Morris,Bernhardt and Handcock ,1994;Bernhardt, Morris and Handcock,1995; Handcock and Morris, 1998,1999)。我们将从回顾职业地位测量的发展开始，因为这一领域的研究为第二代统计方法的成长提供了强大的推动力。3.1 对职业地位的测量(Measuring Occupational Status)职业地位是社会学中的一个重要的概念，这个研究领域的标志性的成就便是发展出一套实

38、用的，对职业地位进行连续测量的方法。这对于社会统计学方法的发展具有十分重要的意义，因为从 1960 年代开始，一些学者对工作给人们所带来的可资利用资源和社会后果十分感兴趣，他们在研究这一问题时广泛地使用了回归模型和其他相关的模型。这些方法论的取向迅速扩展到该学科的其他研究领域当中。当 1940 年代对职业地位的全国性调查刚刚开始时，职业地位这一概念被等同于职业声望。然而，这类调查仅能对每十年进行一次的人口普查中的上百项职业分类中的一小部分进行测量。为了填补 1960 年的人口普查中其他职业分类的声望值的空白，Duncan(1961)选统计学在社会学中的应用10 Yanlong Sept.200

39、3择了 45 种职业进行了声望值的回归分析，因为在这些职业类别中能够测量出完成了高中学业的在职者比例和收入在一万美元以上的在职者比例。他发现预测结果非常好(R 2=0.91)，两个预测因素有着几乎相同的权重值。在此基础上，他对 1960 年普查中区分的所有职业都赋予了一个声望值，这一数值被称为 Duncan 社会经济指数(SEI)；SEI 后来被认为是一个优于声望值本身的，能够衡量各种社会成就(social outcome)的预测值。后来 Duncan 根据几次人口普查分类数据对他最初的结论做了数次修改(Featherman and Stevens,1982; Nakao and Treas,

40、1994；Hauser and Warren,1997)，但是最近这一结论在概念和经验的基础上都受到了批判(Hauser and Warren,1997; Warren, Sheridan, and Hauser, 1998)。在许多社会科学研究中，尤其是在经济学中，当前的收入被用来作为社会成就的一个预测因素，但是有更多的论据表明应该使用职业地位这一因素进行预测。职业地位已经被证明是一个具有良好性质的预测诸多社会成就的因素。因为工作和职业可以被精确地测量，相比之下收入或者财富的测量因为受到拒答、回忆和可靠性等问题的影响而变得不准确。在职业和代际之间，职业地位比收入更能保持长时期的稳定性。这意味

41、着职业地位在作为指示长期或者永久性收入因素时，比当前收入本身更有代表性。此外，职业地位在时间维度上和在不同的国家之间都保持了相当的稳定性(Treiman,1977)。3.2 结构方程模型的诸多应用(The Many Uses of Structural Equation Models)图 1 展示的是 Blau 和 Duncan(1967)的职业获得(occupational attainment)基本通径模型的核心部分。可参见 Duncan(1966)。Wright(1921)引进了通径分析， Blalock(1961)针对社会科学研究的需要对这一分析进行了拓展，插入了因果推理的分析。结构方

42、程模型的一个重要的用途和目的就是将总影响分解为直接影响和间接影响。Alwin 和 Hauser(1975)在尝试将这一方法应用到对社会学数据的分析的工作中扮演了重要的角色。对这一方法的批评参见Freedman(1987)和 Sobel(1998)。下文的第 3.8 节详细介绍了有关社会科学中因果推理的讨论。图 1：一个著名的通径分析模型，即对 1962 年美国社会分层的过程的研究。从一个变量指向另一个变量的箭头上的数字是回归系数，V 和 X 之间的相关系数为 0.516。没有起点的箭头上的数字是残差。来源：Blau and Duncan(1967)。我们常常不能直接观察因果模型中我们所感兴趣的

43、变量，但是其他的可观测的变量可统计学在社会学中的应用11 Yanlong Sept.2003以被视为是那些不可测量变量的间接测量或者结构因素，例如偏见(prejudice)，疏离(alienation)，保守主义 (conservatism)，自尊(self-esteem)，歧视(discrimination)，动机(motivation)或者能力 (ability)。Joreskog(1973)用一个含有潜在变量的结构方程模型的最大似然估计来解决这一问题。这通常被称为线性结构关系(LISREL)模型，这一名称来自Joreskog 的软件。 Duncan(1975)在向社会学界介绍这些想法的工

44、作中扮演了重要的角色，Long(1984a,b)和 Bollen(1989)提供了一个适合于社会学家使用的出色文本。图 2 展示的便是应用此种方法的一个典型模型；这一分析的目标在于检验和估计图中以粗箭头代表的无法观测的潜在变量间的关系强度。像图 1 和图 2 这样的图表已经被证明对社会学家分析理论和假设，建立因果模型来说十分有帮助。图 2：用以检验假设的结构方程模型的一部分，该假设认为，通过学习得到的关于过失的定义导致了过失行为的发生。主要目的是为了检验和估计图中粗箭头所代表的关系。研究者所关注的定义与过失行为之间的关系不能被直接测量，但是却可以对方框中的变量进行测量。来源：Matsueda

45、and Heimer(1987)。对线性结构关系框架的扩展和应用已经超出了这一方法的最初目的。Muthen(1983)将它扩展到对分类变量的研究中，Muthen(1997)展示了如何在纵贯数据的分析 (longitudinal data)，增长曲线模型和多层次数据(multilevel data)分析中应用这一方法。Kuo 和Hauser(1996)采用来自双胞胎的数据来控制未被观察到的可能影响其社会经济成就的家庭方面的因素，并且他们将得出的随机效果模型(random effects model)插入到一个线性结构关系框架中。Markov 图表模型(graphical Markov model

46、)是在用条件独立性而不是类回归关系(regression-like relationship)的方法对结构方程模型进行简化的基础上产生的。它对于多变量独立性分析十分重要，尽管在社会学家看来它的解释力有限。但在通过一个因变量系统生产其他变量的信息，以得到关于其他不能观测变量的信息方面，这一方法很有帮助。例如，在组建医疗诊断专家系统等一些类似应用中这一方法显得十分需要。但是在社会研究中这些方法至今还很少被应用于推断和建模方面。这或许是由于社会学的假设多是用回归或因果关系，而不是用变量间的条件独立方式表达的原因造成的。Markov 图表模型和结构方程模型之间的关系已经开始为人们所了解(Koster,

47、1996, Spirtes,1998)。同时，线性结构关系看起来也比较适合于 Gibbs 抽样和马尔可夫链之蒙特卡罗方法(Markov chain Monte Carlo method, MCMC) (Gilks, 1996)，这似乎给这一框架的应用提供了一个很大的空间(Raftery,1991; Arminger,1998; Scheines, Hoijtink and Boomsma,1999)。?“小过失并不会真正伤害到别人”“警察对儿童的小过失不予深究”“笨蛋就应该受到捉弄”定义过失行为打架偷车盗窃恣意破坏m统计学在社会学中的应用12 Yanlong Sept.20033.3 事件史

48、分析(Event History Analysis)个体层次的调查数据通常包含或者允许进行生活史的重构。其中含了某些重大事件，比如结婚，离婚，出生，入狱和出狱，工作变化以及进入和脱离福利保障的发生时间。1972 年以前，在分析一个事件(比如死亡) 发生的时间分布和它的影响因素时，通常有两种可用研究方法。一个是从人口学借鉴来的生命表分析，但这种方法很难对影响某一事件发生时间的影响因素进行分析。另一个方法是对某一事件的观察时间进行回归分析，然而这种方法受监测和回答的极端不规律所制约。Cox(1972)的风险比率模型(proportional hazards model)的引入给这以研究领域带来革命

49、性的进展，它将上述两种方法进行了综合。Tuma(1976)以及 Tuma 和 Hannan(1984)概括了这一方法使它能够分析诸如结婚和离婚这样的重复事件，多重类型事件(multiple type )，以及分析可在不同类型的情况间转换(比如不同的工作类别)的事件。Yamaguchi(1991)和Petersen(1991)提出了这一方法可行性，强调应该在社会学研究中加以应用。Mayer 和Tuma(1990)描述了从社会科学中搜集来的一系列的有关案例研究。风险比率模型的一个重要的应用领域是有组织性的出生和死亡过程，这对社会学来说是独一无二的。Petersen(1995)将这一基础模型向更深的层次进行了扩展。在当事件相互联系，即当某一类型的事件发生与否影响其它类型事件发生概率时，对多类型事件进行研究。其中一个例子是研究失业与离婚之间的

展开阅读全文