语料库 入门

语料库语言学 Corpus Linguistics,张凤云,什么是语料库?语料库(corpus,复数形式corpora)顾名思义就是存放语言材料的仓库(或数据库)。现指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的文本。,语料库语言学的定义,什么是语料库语言学?作为一个学科的名称 “语

语料库 入门Tag内容描述:

1、语料库语言学 Corpus Linguistics,张凤云,什么是语料库?语料库(corpus,复数形式corpora)顾名思义就是存放语言材料的仓库(或数据库)。现指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的文本。,语料库语言学的定义,什么是语料库语言学?作为一个学科的名称 “语料库语言学”与“语法学”或“语义学”不同,它不属于语言自身某个侧面的研究,而是一种以语料库为基础的语言研究方法。它实际上包括两方面的内容:一是对自然语料进行加工、标注;二是用已经标注好的语料进行语言研究和应用开发。,语料库语言学的发展史,一。

2、语料库,什么是语料库,语料库是语言材料的集合 语料库的特点 必须是真实语言环境中出现过的语言材料 必须是以电子计算机为载体 必须经过一定的分析、加工和处理,语料库的类型1,按来源分类 口语语料库 书面语语料库 按语言分类 单语语料库 双语语料库 按加工分类 生语料库 熟语料库,语料库的类型2,按加工方式分 单语 原始语料库 切分标注语料库 句法树库 语义标注语料库 双语 篇章对齐语料库 句子对齐语料库 词语对齐语料库 结构对齐语料库 ,语料库研究的历史,第一代(197080年代) 百万词级 以语言研究为导向 第二代(198090年代) 千万词。

3、热烈欢迎来自全国各地的老师们!,语料库语言学常用术语,Corpus(语料库,尸体): (pl. corpora or corpuses): a collection of text, now usually in machine-readable form and compiled to be representative of a particular kind of language and often provided with some kind of annotation(标注). 按照一定的采样标准采集而来的、能代表一种语言或者某语言的一种变体或文类的电子文本集。,语料库语言学常用术语,Corpus Linguistics 语料库语言学 立足于大量真实的语言数据,主要通过概率统计方法,对语料库做系统而穷尽的观察和概。

4、汉语中介语语料库简介,陈晨,目录,一 背景 二 语料库和语料库语言学 三 汉语语料库和汉语中介语语料库建设北大语料库(现汉、古汉、英语) 四 常用中介语语料库(一)北语HSK动态作文语料库中介语口语语料库(二)中山大学中介语语料库(三)暨南大学中介语语料库 五 意义和局限 六 参考文献,一 背景,自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为 基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的 建设上成绩显著。不同语言、不同类型、不同规模的语料库越来越多。自 第一代大型电子语料库BROWN建立至。

5、0109,66666666666,国家语委语料库,现代汉语通用平衡语料库 8800万字语料 4500万字标注语料库(词语切分词类标注) 句法树库 国家语委语料库的管理由国家语委授权语言文字应用研究所负责,0109,66666666666,国家语委语料库建设,1991年12月国家语委语言文字应用管理司提出立项建议 1992年4月国家语委语言文字应用管理司在京组织召开了现代汉语语料库选材原则专家论证会 1993年1月制订现代汉语语料库选材原则 1993年9月召开了现代汉语语料库选材专家审定会 2001年底建成 7000万字的生语料库 2003年底已完成4500万字语料的词语切分和词性标注加工。

6、BNC COCA语料库,周雪清 李杏,BNC,BNC特点,COCA,杨百翰大学(Brigham Young University)语料库,英国国家语料库BNC http:/corpus.byu.edu/bnc 当代美国的语料库COCA http:/www.americancorpus.org/ 不同年代的TIME做成的历史语料库Time Corpus of American English,http:/corpus.byu.edu/,杨百翰大学BNC语料库使用方法说明,http:/corpus.byu.edu/bnc,BYUBNC界面简介,1.单词 mysterious 为例,使用LIST显示,使用CHART显示,使用KWIC(key words in the context)显示方式,2.词组(形容词+名词),输入词组“white+名词” 得到的结果都是white后面。

7、Language awareness (4): textbooks,Language awareness in vocabulary / grammar / text / discourse,Case demo.,Vocabulary exercises in An Integrated English Course 综合教程第一册,An Integrated English Course 综合教程第一册,Vocabulary exercises II. Fill in each blank with one of the two words from each pair and note the difference of meaning between them.1. SHAPE (v. ) FORM (v. ) a. All children _ a circle and started singing Auld Lang Syne. b. A persons educational background plays an important ro。

8、“语料库在外语教学与研究中的应用研修班”由教育部高等教育司与人事司和北京市教育委员会主办,中国外语教育研究中心和外语教学与研究出版社承办,共有来自全国132所高校的226名骨干教师参与了研讨。担任主讲的是有语料库“三剑客”之称的梁茂成教授,李文中教授和许家金副教授。,梁茂成教授,北京外国语大学中国外语教育研究中心专职研究员、教授、博士生导师,中国外语教育副主编,研究方向为应用语言学和语料库语言学。曾主持“中国学生英语树库建设与研究”(国家社科基金项目)、“大规模考试英语作文自动评分系统的研制”(教育部人。

9、国家语委语料库,现代汉语通用平衡语料库 8800万字语料 4500万字标注语料库(词语切分词类标注) 句法树库 国家语委语料库的管理由国家语委授权语言文字应用研究所负责,国家语委语料库建设,1991年12月国家语委语言文字应用管理司提出立项建议 1992年4月国家语委语言文字应用管理司在京组织召开了现代汉语语料库选材原则专家论证会 1993年1月制订现代汉语语料库选材原则 1993年9月召开了现代汉语语料库选材专家审定会 2001年底建成 7000万字的生语料库 2003年底已完成4500万字语料的词语切分和词性标注加工,现代汉语语料库的主要用途及选材规。

10、基于语料库的词汇学习 (方法与资源 ),内容提纲,语料库概念简介(3-5) 国内外主要语料库(6,7) 语料库在外语教学与学习中的应用(8-29) 免费在线语料库简介(COCA, BNC, Lextutor)(30-37) 软件工具(38-43) 资源分享,What is a corpus?,Corpus = “a body of naturally occurring text” The texts were not produced without the creator knowing that they would be used for linguistic analysis Newspapers, magazine articles, short stories, academic journals, etc Good genre balance (spoken, fiction, magazines, newspaper, acade。

11、基于语料库的工作,张宇,2018/11/21,中文信息处理-基于语料库的工作,2,大纲,什么是语料库 语料库的发展简史 语料库建设中处理的问题 数据标注,2018/11/21,中文信息处理-基于语料库的工作,3,什么是语料库,语料库,英文为Corpus 存储语言材料的仓库 现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本.,2018/11/21,中文信息处理-基于语料库的工作,4,关于语料库的三点基本认识,语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源; 真实语料需。

12、语料库语言学,朱麟,www.1ppt.com,自我介绍:,朱麟: 北京师范大学,博士后 研究方向: 语言学及应用语言学、语料库语言学 、语音学、英、汉对比;,www.1ppt.com,www.1ppt.com,研究项目:,1、 2007年结题大学英语课堂教学互动模式的性别差异研究、对策(省级课题) 2、 2003年从心理语言学角度探求英语专业基础(省级课题) 3、 2004年1月-2006年9月863地方普通话语音语料库(第2批,6地语音库)RASC863-G2国家863高技术项目,通过验收标注、统计 4、2001-2005基于口语语料库的语音研究及音段和韵律自动标注;国家社科基金;通过验收;标注、。

13、语料库与翻译研究,Presented by Chenli,语料库与翻译研究,研究方法介绍,国内外研究历史发展,文献展示与评价,语料库,国内39篇+国外3篇,归纳和总结,国内语料库翻译研究的不足与展望,国内外研究现状,简单地说,。,研究方法介绍,什么是语料库?,语料库是一个有大量在真实情况下使用的语言信息集成的、可供计算机检索的、专门做研究使用的巨型资料库。它以其容量大、语料真实、检索快捷准确等独特的优势在现代语言学研究和语言教育中正发挥着越来越重要的作用。(何安平2004: 1)。女 华南师范大学教授,博士生导师语料库和语料库语言学是二十世纪。

14、Reporting Verbs in Academic Papers by Chinese Researchers,xxx Supervisor: Dr. Faculty of International Studies, HNU March 24, 20xx,Research Motivation,A number of textbooks and guidelines for English for Academic Purposes (EAP) were introduced. But problems still remain in academic papers. Academic papers attract more attention from the aspect of linguistic analysis. Certain formats or principles should be followed while Chinese researchers formulate their papers or thesis.,Introduction,To defi。

15、双语语料库建设,从Tanslation Memory谈起 TM系统的目标 TM引擎的设计和实现 双语语料库的其它应用价值 语料库的编码和整理 双语语料库的对齐加工 双语语料库的展示和应用平台,Translation Memory,基于实例的机器翻译 TM技术 几个著名的TM系统TRADOS(ATRIL) Dj Vu(STAR) transit TM技术的局限性,TM系统的目标,协助人工翻译而非取代人工翻译 提高人工翻译的生产率(productivity) 提高人工译文的一致性(consistency) 提供一个翻译集成环境面向整个翻译过程、翻译项目的定义和管理、翻译进度管理协助翻译协作、拼写和语法检查文件格式支持、文。

16、Types of corpora,General vs. specialized corpora Written vs. spoken corpora Synchronic vs. diachronic corpora Monolingual vs. multilingual corpora Comparable vs. parallel corpora Native vs. learner corpora Sample vs. monitor corpora Raw vs. annotated corpora ,General vs. specialized corpora,General corpora (通用语料库) or reference corpora(参考语料库): a wide coverage of different text categories or registers; represents language for general purposes. usu.: very large , millions of words. E.g. B。

17、语料库翻译学概论,提要,一、引言二、历史背景三、国外现状四、国内现状五、主要研究内容六、主要研究意义七、存在的局限性八、结语,一、引言,我们天天都在看人民来信,怎么满足他们的愿望,实现他们的要求呢? We are reading letters from our people every day and we are doing our best to satisfy their needs and to meet their demands.,一. 引言,一、引言,“把”字句是汉语典型句式结构。在译自英语的汉译文本中, “把”字句的使用频率高于还是低于汉语原创文本?译自汉语的英译文本中,被动式的使用频率高于还是低于英语原创文。

18、LTM,介绍及培训,CHILDES-Child Language Data Exchange System 国际儿童语料库 数据存储和分析系统,(一)儿童语言发展研究方法的沿革,日志记录。达尔文最早采用。以研究者本人作为研究工具,在自然情境下对研究对象的语言现象采用多种方式做记录,再形成结论。缺点:用文字符号记录语言,丢失的信息太多,数据真实性可靠性较差;能够收集的语料数量有限;回忆和反省带有较大主观性,可能增减信息,难以重复检验。,录音记录。磁带录音、数字技术录音。哈佛大学Roger Brown教授,录音并转写,将成果与其他学者分享。优点:大样本多语料,可。

19、,常见语料库使用入门,语言研究中的小技能get,华中师范大学语言研究所2015级 秦志君,PPT模板下载:www.1ppt.com/moban/ 行业PPT模板:www.1ppt.com/hangye/ 节日PPT模板:www.1ppt.com/jieri/ PPT素材下载:www.1ppt.com/sucai/ PPT背景图片:www.1ppt.com/beijing/ PPT图表下载:www.1ppt.com/tubiao/ 优秀PPT下载:www.1ppt.com/xiazai/ PPT教程: www.1ppt.com/powerpoint/ Word教程: www.1ppt.com/word/ Excel教程:www.1ppt.com/excel/ 资料下载:www.1ppt.com/ziliao/ PPT课件下载:www.1ppt.com/kejian/ 范文下载:www.1ppt.com/fa。

20、热烈欢迎来自全国各地的老师们!,语料库入门,Outline,1. 基本概念 2. 著名网络语料库 3. 常用软件,Corpus(语料库,尸体): (pl. corpora or corpuses): a collection of text, now usually in machine-readable form and compiled to be representative of a particular kind of language and often provided with some kind of annotation(标注). 按照一定的采样标准采集而来的、能代表一种语言或者某语言的一种变体或文类的电子文本集。,著名语料库,BNC (British National Corpus) 英国国家语料库COCA (Corpus of Contemporary America。

【语料库 入门】相关PPT文档
语料库语言学PPT.ppt
自然语言理解-语料库.ppt
语料库常用术语解释 (1).ppt
汉语中介语语料库介绍.ppt
语料库的研究PPT.ppt
BNC和COCA语料库.ppt
英语语料库11.ppt
语料库研修班.ppt
国家语委语料库.ppt
语料库与外语学习.ppt
基于语料库的工作.ppt
语料库语言学.ppt
翻译的语料库语言.ppt
语料库开题报告.ppt
双语语料库建设..ppt
语料库演示.ppt
常见语料库使用入门.ppt
语料库 入门.ppt
标签 > 语料库 入门[编号:373947]

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报