收藏 分享(赏)

语料库语言学.ppt

上传人:weiwoduzun 文档编号:5777873 上传时间:2019-03-16 格式:PPT 页数:32 大小:1.19MB
下载 相关 举报
语料库语言学.ppt_第1页
第1页 / 共32页
语料库语言学.ppt_第2页
第2页 / 共32页
语料库语言学.ppt_第3页
第3页 / 共32页
语料库语言学.ppt_第4页
第4页 / 共32页
语料库语言学.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、语料库语言学,朱麟,,自我介绍:,朱麟: 北京师范大学,博士后 研究方向: 语言学及应用语言学、语料库语言学 、语音学、英、汉对比;,,,研究项目:,1、 2007年结题大学英语课堂教学互动模式的性别差异研究、对策(省级课题) 2、 2003年从心理语言学角度探求英语专业基础(省级课题) 3、 2004年1月-2006年9月863地方普通话语音语料库(第2批,6地语音库)RASC863-G2国家863高技术项目,通过验收标注、统计 4、2001-2005基于口语语料库的语音研究及音段和韵律自动标注;国家社科基金;通过验收;标注、校对,,,Research projects:,5、2007年 十

2、一五课题 普适教育资源体系及关键技术研究 课题号:BCA070052(主项目负责人前3、子项目负责人) 6、2007国家十一五课题,有效应用信息技术促进新课程教与学的研究, 课题号:DHA070146(子项目负责人,负责语言教育课程与信息技术的整合),,,Papers:,1、2001年 二语言习得对教学的影响(江西师范大学学报) 2、2003年 美国人的健康观(英语辅导核心) 3、2003年 口语提高秘笈(英语辅导核心) 4、2005年满语语源二例(满语研究核心,第2作者) 5、2005年英语、汉语语调模式比较(江西广播电视大学学报) 6、2006年从满语、英语形态变化看语言共性(内蒙古师范大

3、学学报核心) 7、2006年英式英语与中式英语节奏模式的对比(第11届中国当代语言学研讨会,当代语言学举办) 8、2006年中国英语的节奏模式(第七届中国语音学学术会议,北京大学举办) 9、2006年 论文二语习得在英语教育中的运用 江西广播电视大学学报 10、2007年 中国英语的节奏模式疯狂英语,教师版核心,,,Papers:,11、2007年2月从时尚介词看文化语言, 江西广播电视大学学报 12、2007年 7月对大学研究性教学的探讨中国素质教育 13、2007年 8月基于英语口语为核心的语音系统,中国科学论坛核心) 14、2007年 9月论当代西方戏剧,电影艺术(核心) 15、2007

4、年11月信息化外语教育平台教育技术资讯(核心) 16、2008年 第3期中国式英语超音段音位的研究时代文学双月刊(核心) 17、2008年5月 网络环境下中学英语智能教学语料库的建立中国教育信息化(CSSCI) 18、2008年 12月新视点下的英语语音教学信息技术与英语课程相结合江西广播电视大学学报 19、2008年4月 移动、普适计算机技术对教育领域的推动、创新和发展教育技术资讯,,,Papers:,20、2008年12月Research on Personalized Teaching Model for Individual User in ISI: a Wet Based Learn

5、ing Platform, 2008 International Conference on Information Technology in Education(被ISTP EI收入) 21、2008年10月ISI:一个师生共建的个性化学习服务平台现代教育技术(cssci)第二作者 22、2008 年11月ISI:基于WEB的以学习者为主体的外语学习个性化智能系统,中国现代教育装备已收到如用通知书,发表时间在2008年下半年(国家一类刊物) 23、2008武汉话实验语音分析的修改稿件的通知,发表时间未定) 24、2008年 基于语音的大型语料库的建设,哈尔滨工业大学学报(核心) 接到修改稿

6、件,发表时间未定),,,Papers:,25、2008年,Integrating Handheld Devices into Ubiquitous Education Service service delivery, 2008年IEEE未来信息技术与管理工程国际会议(EI, ISTP检索) 26、2008年10月新一代学习环境:基于网络的个性化普适学习,中国教育信息化(核心,CSSCI) 27、2009年1月一种基于笔交互的教学软件框架及其应用,中国电化教育(核心、CSSCI) 28、2009年5月普适技术、嵌入式系统的研发及在教育体系的应用,未来与发展(CSSCI、核心),,,课程目标,课

7、程目标 了解语料库语言学的发展 语料库语言学的应用 用一个课题实例说明语料库研究的方法,,,语料库的分类,口语语料/书面语料 共时语料/历时语料 平衡语料/专门语料 监控语料/样本语料 单语/双语/多语,,,语料库语言学:,语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。 语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。,,,语料库的发展:,20世纪50年代Chomsky的影响 第一代(197080年

8、代) 第二代(198090年代) 第三代(1990年代) ?第四代(21世纪),,,第一代语料库:百万词级,以语言研究为导向。,Brown语料库:1960年代初,美国Brown大学,100万词次,记录当代美国英语,根据系统性原则采样。 LOB语料库:1970年代初,英国Lancaster大学,挪威Oslo大学,挪威Bergen大学,记录当代英国英语。 LLC语料库:1960年代初,由London大学Randolph Quirk主持,收集2000小时的谈话和广播等口语素材并整理成书面材料,由瑞典Lund大学J.Svartvik主持全部录入计算机,1975年建成,,,第二代语料库:千万词级;词典编

9、纂 应用导向,COBUILD语料库:建于1980年代,由英国Birmingham大学与Collins出版社合作完成,规模达2000万词次,基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评 Longman语料库:建于1980年代,包括三个语料库:LLELC语料 (Longman英语语料库);LSC语料库(Longman口语语料库;LCLE(Longman英语学习语料库)目标是编撰英语学习词典,为外国人学习英语服务,词典规模达5000万词次,,,第三代语料库:超大规模(上亿词级);标准编码体系深度标注/多语种NLP应用,ACL/DCI语料库:由宾州大学M.Liber

10、man主持,保存语料原始文本形式以及SGML标注信息。倡议的数据采集计划(Data Collection Initiative, DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。 LDC语言数据联合会 (Linguistic data Consortium): 设在美国宾州大学,实行会员制,有163 个语料库 (包括Text的以及 speech的),共享语言资源。 RWC日语语料库:日本新情报处理开发机构RWCP研制,包括每日新闻4年的全文语料,语素标注量达1亿条。,,,未来语料库的发展,使用语料库的人会越来越多,语言研

11、究描述或教学,语料库成为不可替代的研究工具。 语料库收集的内容会越来越多。 可携带式分析工具(如解析软件,光盘和光驱)会使相关研究很方便。,,,我国语料库的发展概况,从20世纪20年代,建立文本的语料库,采用统计的方法来研究汉字的频率,其目的在于制定基础汉字的字表。缺点:不是机器可读的;规模小。 1979年以来,开始进行机器可读语料库的建设: 汉语现代文学作品语料库(1979年),527万字,武汉大学。 现代汉语语料库(1983年),2000万字,北京航天航空大学。 中学语文教材语料库(1983年),106万8千字,北京师范大学。 现代汉语词频统计语料库(1983年),182万字,北京语言学院

12、。,,,我国语料库的发展情况:,1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材.,,,我国语料库发展情况,大规模真实文本语料库: 1992年以来,大量的语料库在中国研究中文信息处理的单位建立起来,语料库成为了研究中文信息处理的基本语言资源。,,,中国语料库的发展情况:,口语语料库:中国社会科学院语言所,建立了现代自然口语语料库,包括一个旅馆预定口语语料库,搜集了2小时电话的对话

13、,对话人数200人以上,进行韵律切分和句法标注,是wav文件,用SAMPA-C标音,C-ToBI 2.0标注韵律,并转写成汉字文本;还包括一个无限制的自然对话语料库:14.2小时的对话,对话人数22人,进行韵律切分和句法标注,是wav文件,用SAMPA-C标音,C-ToBI 2.0标注韵律,并转写成汉字文本。 现代汉语方言自然口语语料库,设计了1500种引导话题和多种采集自然口语的交际环境,其中,采用话题引导的方式采集的话题语料占60%,在说话人不知道的情况下现场采集的口语语料占40%。,,,语料库在语言研究中的应用,口语研究:提供了不同风格、不同场合下(如:说话人的年龄、性别、社会层次;新闻

14、主持、法庭庭审等)口头用语;提供真实的语言,保证了语言研究的客观性; 词典和语法参考书的编写:使用了语料库,词典和语法参考书的编写更加重视单词频度的作用,更加强调单词的搭配关系和词语用法,更加注意语言变异,词汇在语法中的作用,语料的真实性。 意识形态和文化研究; 翻译研究: 文体论研究:语料库的词频分析技术、词语索引技术以及搭配分析技术有助于分析作家的文体风格。使用统计方法来研究文学作品的文体风格,从而发现文学作品的历史过程中。,,,语料库在语言研究中的应用,法律语言:鉴定磁带录音的语音,确定犯罪嫌疑人在被捕时是否理解了向他们提出的问题,判断两个不同的文件是否为同一个人所写,判断一个文件是一个

15、人写的还是两个不同的人写的。语料库技术可以用来比较不同的法律文件,或者用来比较文件中的不同部分以便证实文件是什么人写的,或者文件的内容是说什么的,或者用来分析文件中语言的性质以便区分其中哪些是真实的,哪些是不真实的。 研究和写作:从语料库中发现更加合适的表达方式,区分词语的典型用法和非典型用法,从而提高写作的质量。,,,语料库在语言研究中的应用,语义学研究:客观的探讨语义的不确定性。 语用学和语篇分析家:通过量化成一些语言行为,使得可以更准确的理解 。 社会语言学研究成果:语料库在社会语言学中运用最多的是英语中的性别歧视现象。如:调查某些词出现的濒率对比。韩礼德关于“语言是社会符号”,所以找到

16、可以量化的方法,进行社会语言调查等。 心理语言学:心理语言学可以说是对假设进行测试的过程,语料库可以提供大量真实语料数据,统计出研究类错误发生的濒率,帮助心理语言学家看出发生错误濒率与说话人之间的关系,有益与研究语言处理。在语言病理分析方面,可以帮助研究人员确定问题发生在语言发展的哪个阶段。,,,语料库与语言教学,语言教师所教的内容发生了根本性的变化,由于语料库中包含了词语用法的丰富的信息,语言教师所教的语言实际上就是词语的用法,因此,所谓教语言就是教词语的用法。 其次,语料库本身就可以作为语言教学的材料,语料库成为了语言教学大纲研制和语言教学方法论研究的基础。,,,语料库在语言研究中的应用,

17、语言和语言教学: 能够快速而准确地给语言学习者提供大量真实的语言实例,语料库的应用更加有利于教师的教与学生的自助学习,提高了教学质量,提高了语言的教学模式和教学方式、方法,实现了语料库的文本展现、语料库的索引工具提供的语境、网络互动的有机结合,为英语的自助性学习提供了良好的学习环境。本文介绍了适合学习者的自主学习的多样化的语料库的开发和应用,证明:利用语料库在辅助教学中许多环节上都能减轻师生学习负担,提升教学效果,改善工作效率。,,,语料库究竟使应用语言学发生了什么样的变化?,语料库使许多过去不可能进行的语言调查变得可能了。 语料库改变了我们观察语言的方式。 语料库使我们的生活变得更加简单。通

18、过语料库,我们可以很容易发现语言事实,翻译者可以从语料库中很快地找到得体的翻译等价物,语言教师可以从语料库中找出更加充分的例证来帮助学生纠正他们在语言学习中所犯的各种错误。 语料库也使我们的生活变得更加复杂。语料库更加细致地揭示了语言的本来面貌,使我们认识到,很多一般性的语言规则都是要在一定的上下文中才可以适用,很多我们原来认为天经地义的语言规则实际上都是有漏洞的。,,,基于信息技术的语料库的建立与语言教学中的应用模式: 案例,发表于2008年教育信息化 (CSSCI) 建立多样化的语料库及与网络互动技术与英语教学的结合,有利于实现语言的学习材料的真实性、个性化、解决学习的实际需要,使得我国的

19、英语教与学朝着个性化、任何时间(any time)、任何地点(any where)可以进行学习的自主学习方向发展。语料库通过搜索工具为英语学习者提供了大量真实的例子和语境,帮助他们更好的学习英语。,,,研究的主要关键内容包括,英汉口语双语语料库和知识库的建设方法; 英语学习中语句的常见错误分析; 英语的基本语法、词法分析以及错误预测与纠正方法; 基于上下文分析的英语语块输入法; 汉语口语的英语口语的表示提示。 整个平台关键技术问题可以具体描述如下:,,,关键技术,1、建立一个可扩展的英汉双向语料库。 为用户提供口语表达的正确判断和说法的提示。为了实现口语资料的共享和重用,合理的口语语料库规范和

20、语料标注是必经之路,为快速的收集语料资源提供保证。其研究包括双语对齐方法、场景分类、关键字提取、自动消重和权重设置等。 2、英汉双语的语言知识库的建设,在英汉双向语料库的基础上,提取语言学知识(competence),为用户提供依据,同时语言知识为学习者的语言录入的正确性判断提供直接依据,其采集过程通过语言专家手工和机器学习相接合的方法来完成。采用何种机器学习方法对语料库进行统计机器学习获得在英文使用的各种知识是本项目的研究重点之一,这将使整个语言知识具有扩展性。(如:单词的中文译文的使用概率;非英语短语的英语单词之间搭配概率。) 3、以学习者为中心的辅助提示、交互技术:人机交互界面自然、简单

21、、和谐,尽量避免复杂操作,把因为软件操作而影响英语学习的副作用降到最低。,,,关键技术,4、基于语料库统计与上下文分析的词性判断方法,现有语料库统计中的词性统计体现了单词词义和词性在口语中使用的基本规律,再结合应用上下文的搭配关系使算法能更准确地判断词性。 5、输入中真词错误的检查方法:对词典中单词按词形相似性进行聚类将为寻找这种错误提供基础,再结合上下文信息及相似词之间的用法知识和使用习惯,将为真词错误检查提供比较好的方法。 6、面向词法、语法的用户意图预测技术:事先对用户使用的模式进行归纳,然后通过相似性计算来预测出的最可能情况进行错误纠正,从而达到良好的效果。 7、当前口语语句的地道表述

22、方式预测:利用上下文分析对当前对话进行场景预测,再结合当前语句分析,给出其地道英文说法或提示。 8、汉语到英文的辅助翻译方法:建立起一种合适的提示机制,并能让学习者自己完成对整个句子的英文表达,以帮助学习者达到良好的学习效果。这时整句搜索和翻译比较合适。而以短语层面惯用的语句中,需要确定场景关键词、汉语语句切分、汉语语句相似度计算等技术进行研究以实现基于实例的翻译提示。,,,该语料库的用途,语料库的研究提供语言学习者两种语言上不同的表达方式,通过对比观察,从而达到学习外语的目的,减轻母语对外语学习的负迁移,鼓励学生在分析语料的基础上归纳语言规律。学习者可以通过检索程序从语料库中提取所有包含关键

23、词的语句,进行对比研究和词语分析,进而达到归纳语言现象。 a、实现英语语法、词法分析和错误纠正: b、提供地道的英文说法提示: c、通过对学习者的语言运用能力(performance)的提示帮助,进一步使用户总结出一定的语言知识(competence)。学生通过查询在语境中看到特定词和结构的意义和句法特征,可以建立使用词汇的语境知识看到到正确的、合适的用法。 d、探索语料库教学法:采用“结构化块输入(structured block input)”,即应用经过处理的输入块驱使学习者注意特殊的语言属性。现代语料库语言学提供的语料库方法是应用以计算机为存储介质的语料库对大量语言运用进行分析,以实际使用中语言现象出现频率为依据研究语言在现实使用中的规律。联想、记忆的按超文本结构组织的大规模的知识库与信息库,易于激发学习者的兴趣,实现探索式、发现式和创新式学习。,,谢谢各位专家!,朱麟,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报