1、短语学的主要路径和研究方法,短语学的主要研究路径,短语学路径 (phraseological approach)基于分布/频率的路径(distribution/frequency-based approach),短语学路径,Also called rule-driven approach. 短语学的研究路径属于传统的形式主义(formalism)的结构(structuralism)研究范式。其研究脱离语境和语言使用,不能对语言现象进行全面充分的描述和解释。短语学研究路径靠人工识别短语,具有操作的便捷性(尤其是对小型的语料),但由于主观性较强,其结论往往缺乏准确性和科学性。,基于分布/频率的路径
2、,基于分布/频率的研究方法依赖于自然语言语料库,即通过语料库检索的方式对短语的搭配情况进行研究。优点:能穷尽特定语料库中所有相关的语言单位,使研究更全面,解释更充分,结论更具有说服力。由于采用自然语言语料库,即基于用法(usage-based)的研究,使对短语的研究与真实的语境结合起来,从而更好地对活生生的语言进行描写。,Corpus-based,Corpus linguistics : collecting quantities of text in electronic form so that they are open to data-manipulation techniques.
3、Such techniques range from finding a search term and observing its immediate environments (key-word-in-context or concordance lines) to calculations of relative frequency (as in, for example, collocation studies);to annotation(注释) for such categories as word class, grammatical function or semantic c
4、lass; and frequency calculations based on such categories. Frequencies of various kinds can be compared in different corpora, leading to observations about different registers or different languages and about the development of a language over time.,Corpus linguistics is more than a simple set of te
5、chniques, but it is a field where technological advancement and theoretical development go hand in hand. For example, one of the most basic corpus linguistics practicesisolating a node word (节点词)and its immediate co-text in each instance of occurrence, and manipulating that output to highlight simil
6、arity in co-text (i.e. sorting concordance lines)was developed because words were considered to be more important than grammatical categories, and the immediate co-text of a word, including its significant collocations, was considered to offer the most important information about it. In turn, the pr
7、evalence of concordancing software has facilitated the observation of language patterning and so influenced the development of theories based on that phenomenon.,短语学的研究方法,1. 基于语言模型的研究方法,短语学作为语言学各个领域的附属研究项目在过去的几十年中一直是语言学研究领域的擦边球,对其研究也大都沿用了传统的基于语言模型的词汇语法研究方法,通过词根、意义、语法句法限制等对短语现象界定和研究,并且传统的研究多基于直觉。,基于语
8、言模型的传统研究方法则可视为理论导向、理论驱动的研究方法。毋庸置疑,传统研究方法能对语言现象进行细致入微的分析,无论是在词义释义还是在辨析词项的搭配形式方面,都有着优势。该方法认为,短语学是语言学的特殊分支,且将短语界定为多词词组。另一类是具有灵活性搭配能力的词组。尊崇传统研究法的学者对短语学的研究,通常是遵照语言学规范准则,采取以模型为基准定性地依照主观判断和直觉,筛选区分具有短语学特征的组合和搭配现象,并严格划分其与自由组合搭配词组的界限。,首先,在语义学角度的短语学研究中,传统方法侧重于依照语义学用途功能的规范来界定并解释词项共现现象,换句话说就是短语就是约定俗成的习惯搭配,例如,“太阳
9、”不但可以“照耀”,还可以来“晒”。值得注意的是,不同的语言文化有着不同的词语搭配习惯。此外,传统方法把语义合成性作为筛选非短语词语组合的重要标准。其次,在局法学角度的短语学研究中,传统方法派一个区分了甚至割裂了短语现象中词项和句法间的关系。,2. 基于语料库的研究方法,J.R. Firth最早提出用语料库的研究方法对词项共现现象进行研究,之后韩礼德和辛克莱(Sinclair, 1996)继承并发展了弗斯的理论,并提出了包括节点词、搭配词等一整套的概念和方法从语料库提取搭配例证。,基于语料库的研究方法本质是定量的、归纳推理的,它采取了语料库驱动的自上而下的分析处理程序对词项共现现象进行研究分析
10、。基于语料库的新型研究方法最早是Sinclair在词汇编纂中提出的,之后被Evert (2004)借用并称之为“分布法(distributional approach)”。语料库研究是基于真实证据的提取分析。随着短语学研究热潮日益高涨,亟待分析的数据急速膨胀。语料库语言学数据驱动的研究方法毅然成为主流。Sinclair (1991)就首次用语料库数据驱动的研究方法。总之,这一研究方法以真实的语言现象为基础,通过对语言形式的频数统计并确定研究对象,因而其涵盖了丰富多样而又复杂的语言形式。该方法的应用极大开拓了赋有短语特征词项组合关系的研究范畴和视野。,基于语料库的研究方法,语料库语言学近年来的蓬
11、勃发展,对语言研究的方法、内容和理念带来深远的影响。大量的机读语料库以及相关的计算技术不仅改变了语言学的 研究方法,还改变了传统的语言研究范畴,为探讨语言交际中的意义单位、 词语关系开辟了新的路径。在传统语言学中,语言由语法与词汇两部分构 成,语法是语言构造的规则,词汇是构建语言的材料,语法的地位高于词汇。语料库语言学的发展使语言学家重新看待语言的本质,认为词汇和语法是密不可分的一个整体, 词汇和语法往往互相选择, 特定的句法结构常常和某些词语有关。,Sinclair (2004)描述了意义单位,认为它是语法和词汇共选关系的体现。在语料驱动的研究中,研究者首先要从语料库中提取有关语言现象的数据
12、,对数据和语 料进行观察,获得必要的数据分布信息,分析具体语言形式的意义和功能特征。(卫乃兴,2009) 新兴 的短语学研究表明,短语单位作为语法与词汇的界 面,可以实现完整的意义,从而建立新的语言范畴。 语料库驱动的短语学研究支持词汇和语法的整体性,认为意义单位多以短语的形式出现。,3. 整合分析法,本世纪80年代短语学正式独立为一门系统的学科领域后,其研究方法仍是传统理论驱动和语料库数据驱动两大类,然而由于短语学自身的广泛性和多样性使得对其研究方法遭遇瓶颈,Willy Martin(2008)提出的整合分析法则使得短语学研究柳暗花明。,语料库语言学和传统语言学的区别,在语言学研究中, 人们
13、运用各种数据来构建 理论模型。Widdowson (2000)根据语言研究者的观察视角将数据分为三种类型:内省数据、诱导数据和观察数据。 内省数据:在传统语言学研究中,研究者往往通 过思考语言经验构建语言理论,并根据本族语者 的语言能力来检验, 可以说主要依赖于内省数据 即直觉数据。 语言研究者根据自身的语言直觉产生数据, 不仅是数据的分析者, 又是数据的提供者。,Chomsky 把语言学视为认知心理学的一部分, 区分了语言能力和语言运用, 认为语言学的研究对象是人的语言能力, 这种语言能力存在于理想的本族语言者的大脑中, 因此语言研究可以依赖直觉数据, 不需要搜集大量语料。Chomsky (
14、1965: 19-20) 认为 “现在语法研究的关键问题不是缺乏证据, 而是当前语言理论无法圆满地解释大量的证据”。,传统语言研究一般采用自上而下的方法,根 据预设的理论框架来确定研究步骤并搜集证据, 研究焦点是语言中的聚合关系, 将语法范畴作为语言描述的起点和重中之重。Quirk (1985:15)等人认为,“语法说明可以加以高度概括的结构,词 汇则说明可以形成最低概括的结构”。功能语法学 家 Halliday (1994:15)则认为,词汇是最精密的语 法,词汇和语法处于同一个连续统,都是构建意义 的源泉。语言的内核是词汇语法,它包含词汇、语法两部分,两者是密不可分的。,诱导数据: 主要指
15、研究者通过实验、 问卷调查 等方法实地调查所获得的数据。 这种数据和内省 数据相比,具有更强的客观性,在实验心理语言学研究中被广泛采用。 不足之处在于调查往往花费 大量时间和人力物力, 而且诱导数据有时不够真实自然。内省数据和诱导数据在语言学研究,尤其 是过去计算机技术不太发达的传统语言学研究 中,发挥了自身的价值和作用,但由于内省数据单单依赖语言研究者的经验和直觉, 诱导数据只依 靠有限的实验或问卷调查, 得出的结论有时难免偏颇。要想对语言进行科学系统的研究,必须依赖大量实际语言使用中的真实语料。,观察数据:主要指语言研究者作为观察者所收集的实际使用的语言材料, 研究者不参与提供数据的过程。
16、当前语料库语言学研究者所普遍采用的数据属于观察数据。随着计算机技术的发展,语 料库数量不断增加, 语料库数据在语言研究中的 地位愈来愈重要。 语料库语言学一般采用自下而 上的研究方法, 通过对真实语言数据的观察来抽象出语言研究的范畴和理论。,以 Sinclair 为首的语料库语言学家反对 Chomsky 的观点, 认为语言研究应该建立在可验证的真实语料基础上, 而不是依赖直觉,编造脱离语境的句子。人类语言的心智过程非常复杂, 而直觉和真实语言使用有很大差 距, 因此直觉的有效性受到质疑。Sinclair 提出要尊重语料库数据,因为它们是语言的原材料,尽管观察大量的语料库数据要比研究生造的例子困
17、难。 他用了一个非常形象的比喻来说明语言研究 不能依赖少量生造的例子,“我们总不能靠几朵人造花来研究植物学”(Sinclair, 1991: 6)。,因此,对语言全面、系统的研究必须基于原文证据,即真实自 然的语料库数据。随着语言研究的深入,语言分析 的自动化程度不断提高, 对于语言直觉的使用和依赖也将逐步减少。Sinclair 强调数据的大量性, 只有数据达到一定数量, 才能通过对数据的观察得出可靠的结论。 语料库所提供的海量语料可以展示频数和概率信息,揭示语言的核心用法,过去 的一些理念和范畴会被新的范畴所取代。,Chomsky 与转换生成语言学(补充),20实际50年代后期,美国语言学家
18、Chomsky 的句法结构问世,在语言学界掀起了异常新的革命,并由此产生了一个新的学派-转换生成派。转换生成派在在美国结构主义语言学派的土壤上产生,并在同结构主义决裂和挑战的过程中成长起来。,乔姆斯基认为,语言研究应致力于探索人的内在的语言能力,不满足于对言语行为这种表面现象的观察和描写。结构主义研究语言的目的是为了对语言进行分类和描写,而在乔姆斯基看来,语言研究的目的就是要建立一套形式化的演绎系统,一套有限的语法规则。这套规则既能生成出无限合乎语法的句子,又能解释各种句子内部的语法关系和语义的歧义性。既然研究的目的不同,那么研究的材料和方法也就大不一样。,结构主义研究语言的材料是随机收集来的
19、大量句子。乔姆斯基认为,随机收集的句子是十分有限的,而句子的数量却是无限的,人们不可能将所有的句子都收集完全。所以,语言研究的而不应该是人们的言语行为,而应该是人们的语言能力,因为正是人们的语言能力才使得人们能够不断产生并理解新的句子。在研究方法上,结构主义是先收集语言素材,然后通过一套发现程序对素材进行分析并找出规则,最后用所得出的规则来解释语言现象。乔姆斯基认为,既然语言材料无法完全收集,那么,从零星的语言素材中发现规则也必定是不完整的,无法说明所有的语言现象。,因此,语言研究的方法应该同自然科学中的研究方法一样,即先根据观察做出假设,然后再到实践中验证假设,并针对实际情况对假设进行修改。这样多次反复,直到能够正确地解释句子为止。在儿童语言习得问题上,结构主义认为,人的心灵的原始状态只是一块白板,一切知识和观念都是后来从经验中获得的。由此,结构主义认为小孩的语言是靠反复模仿和记忆。使其成为一种习惯而获得的。,乔姆斯基认为“白板说”的观点很难解释两种现象:一是动物通过反复训练为什么仍不能掌握语言。二是供小孩模仿的句子无论数量多少,但毕竟是有限的,小孩为什么能够理解并产出以前从未听说过的无限句子。乔姆斯基赞成法国哲学界笛卡尔的“天赋说”,认为人的大脑中天生有一个“语言习得机制”,一旦特定的语言环境触发这一机制,小孩就自然获得某种语言。,