计算语言学术语500条.docx

上传人：fmgc7290

文档编号：6835498

上传时间：2019-04-23

格式：DOCX

页数：41

大小：105.70KB

下载提示：本站仅提供存储空间/不修改/不编辑

1.请仔细阅读文档，确保文档完整性，对于不预览、不比对内容而直接下载带来的问题本站不予受理。
2.下载的文档，不会出现我们的网址水印。
3、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

文档包含非法信息？点此举报后获取现金奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 文币 0人已下载

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 计算语言学术语500条.docx

资源描述：: 1、计算语言学术语 500 条源语词典source language dictionary机器翻译系统中描述源语言的语音、词法、句法、语义或用法的机器词典，用于源语分析。目标语词典target language dictionary机器翻译系统中描述目标语言的语音、词法、句法、语义或用法的机器词典，用于目标语生成。多目标语词典multi-target language dictionary机器翻译系统中描述两个或更多目标语言的语音、词法、句法、语义或用法的机器词典。用于一对多的机器翻译系统。词典结构dictionary configuration机器词典中词项以及词项具有的各种信息的组织形式。词典
2、信息dictionary information机器词典对每个词项的语音、词法、句法、语义特征或用法的形式化描述。词法信息morphological information 对词的结构属性或形态特征的描述。句法信息syntactic information 对词组合成句子的规律的描述。语义信息semantic information对词汇意义、语言成分之间的逻辑意义、语法意义的描述。超文本置标语言hyperText markup language HTML标准通用置标语言（SGML）的一种文件类型。它对一类特定的文件定义描述信息的方法，用于互联网上电子文本的传输和共享。超文本标记语言词法歧义m
3、orphological ambiguity由于形态学上的多重意义使得一个语言单位表达一种以上的意义。句法歧义syntactic ambiguity在句子中同一个结构形式表达一种以上的结构关系。消歧 disambiguiation证明一个歧义句有几种可供选择的结构解释，或依靠语调、句法分析、上下文中的意义来消除歧义的过程。分析器 analyzer根据词法、句法、语义等信息对语句进行形态、语法或语义分析的计算机程序。句法剖析器parser 按照语言规则分析句子的句法结构的计算机程序。中间语言interlingua intermediate language独立于任何特定自然语言的中介表达式，能够
4、统摄机器翻译所需的句法和语义信息，在机器翻译系统中表示源语和目标语之间的联系。中介语词汇驱动 lexicon-driven一种分析语句的方法，根据机器词典提供的词汇信息来控制操作流程。文法驱动grammar-driven 一种分析语句的方法，根据语法规则控制操作流程。语法规则驱动syntactic-rule-driven逻辑语义logical semantics语句中各成分所表达的概念之间或概念组合而成的事件之间的逻辑关系，例如：施事、受事、因果等。逻辑语义结构logical semantic structure表示一个语言单位内全部逻辑语义关系的抽象表达式。转换词典transfer dict
5、ionary在采用转换法翻译策略的机器翻译系统中，描述源语和目标语之间差异的机器词典。词汇转换lexical transfer在采用转换法翻译策略的机器翻译系统中，把源语的词语置换为目标语的词语的过程。结构转换structural transfer在采用转换法翻译策略的机器翻译系统中，把源语的句法结构置换为目标语的句法结构的过程。自然语言理解natural language understanding在研究自然语言的机制和实现过程的基础上，用计算机分析口语或书面语，弄懂它们所表达的意思。预处理 preprocessing在进入自然语言信息系统的主要处理流程之前对输入的信息进行整理的过程。后处理
6、 postprocessing对已经过自然语言信息系统的主要处理流程后的信息进行再处理的过程。二值化 binarization把一组数据按一定的规则映射为 0 或 1 的过程。特征抽取feature extraction根据输入的信息产生一个 n 维向量的过程，这个 n 维向量反映出被识别模式的本质。启发式搜索heuristic search一种优先求解方法，在问题的状态空间中对解进行搜索时，利用一些启发信息用来引导搜索过程，减少搜索空间，提高问题求解的效率。隶属度 membership 一个元素属于某一模糊集的大小程度。统计识别方法statistical recognition method
7、一种利用统计进行识别的方法。将识别对象看作一个整体，其所有的特征是从这个整体上经过大量的统计而得到的，然后按照一定准则所确定的决策进行分类判定。神经元网络识别法cell meshed recognition method一种利用神经元网络进行识别的方法。神经元网络是一种具有学习和自组织能力的智能机构，通过神经元网络来进行判定和识别。贝叶斯判决规Bayes decision rule统计中的一个基本规则。用该规则进行分类时要求各类别总体的概率分布是已知的，并且要决策分类的类别是一定的，贝叶斯判决规则包贝斯判决规则则括最小错误率贝叶斯判决规则和最小风险贝叶斯判决规则等。匹配 matching 测
8、试两个数据项是否相等或查找一个与关键字完全相同的数据项的过程和方法。属性文法attribute grammar一种形式文法。是以语法的巴科斯范式说明为基础，在普通的上下文无关文法的基础上，对每一个终结点或非终结点加上一些属性和一些对这些属性进行估值的语义规则所形成的文法。其中的属性由有序对组成。文法推断grammar inference 确定词在句子中的语法范畴和作用的过程。计算语音学computational phonetics计算语言学的一个分支学科。是通过建立形式化的数学模型利用计算机来处理语音的一门学科。隐式马尔可夫模型hidden Markov model是描述连续符号序列的条件概率
9、的一个统计模型，是马尔可夫模型的扩展。该模型由两个随机变量序列组成：一个是观测不到的马尔可夫链，另一个是可以观测到的随机序列。语音信号处理processing of speech signal语音信号输入计算机后对其进行分析处理的过程。语音通过话筒转换成电信号，再经放大或转换变成数字信号，用模式分类方法分析和识别这些信号。神经网络 neural net神经系统的一种逻辑及数学模型，是一种具有学习和自组织能力的智能机构。模仿生物神经系统的神经元建立，试图模拟大脑处理信息、学习和记忆的方式，主要用于模式识别、语音识别和语音综合等领域。识别率recognition rate被正确识别的输入模式的数量
10、占被识别的所有输入模式的总数的百分比，是衡量模式识别系统性能的重要指标。语图 sound spectrogram将一定长度的语音信号或其他声音信号的动态频率用图形的方式表现，既可以是时间频率强度的三维显式，也可以是在某一时间断面上的频率强度的二维显式。人工言语artificial speech 言语合成所产生的输出。合成言语synthesized speech synthethic speech在言语合成中产生的人工言语。类比 learning by 机器学习中的一种方法。用类比的方法获取新学习 analogy 的事实或技巧等知识是通过采取如下方式进行的：将与所需的概念或技巧等知识非常相似的现
11、有的知识转换与扩展到新环境中。分词单位unit of word segmentation汉语信息处理使用的、具有确定的语义和（或）语法功能的基本单位。概念依存理论conceptual dependency theory一种语言自动分析方法。它试图用有限数量的基本概念（语义元）组成各种集合，表示语句的意义，称为概念表达式，并具有推理的能力。概念从属理论分词规范standard of word segmentation规定分词原则和方法的一系列规则。规则合成rule-based synthesis规则合成是一种利用规则进行语音合成的方法。在这种语音合成方式中，合成语音库中是较小的语音单位（如音素或
12、音节等）在声学上的合成参数。合成时，输入一串代码来指定每一语音单位的音色、音高、音强和音长，合成系统中有一套合成规则，对其合成参数进行必要的修改和调节，然后由语音合成器合成出连续的语句来。语音合成器speech synthesizer在参数式分析合成和规则合成系统中，能将语音合成参数转变为语音波形的软件或硬件，称为“语音合成器”。合成单元 synthetic unit事音合成系统所处理的最小语音基本单元，称为“合成单位”，合成语音库就是所有合成单元的集合。按由小到大的顺序，音素、双音素、半音节（声母和韵母）、音节、词、短语和句子都可用作合成单元。分词标记mark of word segment
13、ation分词时可以利用的标记。书面语的分词标记主要有两种，一是自然的分词标记，如标点符号等；另一种是非自然的分词标记，如没有构词能力的单音节单纯词。人机界面man-manchine interface人（用户）与计算机系统之间进行通信的方式与手段，尤指对那些具有支持软件的输入输出设备的使用。人机接口分词精度precision of word segmentation自动分词的正确率，切分正确的数占应分词总数的百分比。最大匹配分词方法maximum match segmentation一种分词方法，是基于字符串匹配原理的一种机械匹配方法。每次从字串中取长度为最大词长的子串与词表中的词匹配，若成
14、功则该子串为词，然后继续匹配，否则子串长度逐次减 1进行匹配，直至成功为止。最小匹配分词方法minimum match segmentation一种分词方法，是基于字符串匹配原理的一种机械匹配方法。每次从字串中取长度为最小词长的子串与词表中的词匹配，若成功则该子串为词，然后继续匹配，否则子串长度逐次加 1进行匹配，直至切分完毕。分词标记方法mark method of word segmentation利用分词标记进行分词的一种方法。双向最大匹配分词方法bidirectional maximum match segmentation同时使用正向最大匹配分词方法和逆向最大匹配分词方法。分别从两个
15、方向进行处理，如果得到相同的结果，则这种切分正确，否则系统报错，需要通过另外的措施处理。逆向分词方法reverse segmentation method一种分词方法，与正向分词相反的方向取字符串进行匹配。机械分词方法mechanical segmentation method一种分词方法。主要基于字符串匹配的原理进行，即以“足够”大的词表为依据，采用一定的处理策略将汉语文本中的字串与词表中的词逐一匹配，若成功，便认定该字串为词。汉语分词系统Chinese word segmentation system用来把汉语句子自动切分为词的系统，特殊情况下分词结果包括少数词组和语素。汉语信息统计Chi
16、nese information statistics采用统计的方法研究汉语的信息，包括汉字或词语的频率统计，以及汉语句型统计等。汉语字频统计Chinese character frequency count采用统计的方法研究汉语中字的使用频率。汉语词频统计Chinese word frequency count采用统计的方法研究汉语中词的使用频率。信息量information content信息理论中的一个基本概念，指的是对信息确定程度的量度。熵 entropy 随机试验结局的不肯定性程度的大小。条件熵conditional entropy考虑符号出现概率之间相互影响后的熵，这种熵随机试验前
17、面的结局对于后面的结局有影响。汉字熵entropy of Chinese character汉字所包含的信息量的多少。计算 network in 以电子计算机为主要教育媒介，利用它的逻辑机辅助教育网络computer assistant education运算、信息存储等功能来为教育服务的一种方式。它包括计算机辅助教学、计算机辅助学习、计算机管理教学和计算机教育行政管理等功能类型。智能计算机辅助教学intelligent CAI利用人工智能技术进行计算机辅助教学。该系统通常由四部分组成：表达教程内容的专门知识模块，体现教师经验的教导策略模块，表示学生对课程理解程度的学生模型，计算机与学生之间用
18、自然语言进行教学对话的智能接口或友好界面。产生式规则表示法production rule representation一种知识表示方法。产生式规则由左部的模式和右部的动作两部分组成，左部的模式确定该规则可应用的条件，右部描述应用该规则时要采取的行动，得到的结论或状态。语义网络表示法semantic network representation一种知识表示方法。语义网络由一些用有向图表示的三元组（结点 1，弧，结点 2）连接而成，结点表现为自然语言的词和短语的概念，弧是结点之间的语义关系。框架表示法frame representation一种知识表示方法，以框架方式表示将特征与表达概念或实体的结
19、点联系在一起，其中特征借助于槽和它们的值来描述。谓词逻辑表示法predicate logic representation利用谓词逻辑表示自然语言知识的方法。谓词表示对客体的描述，谓词的项则代表某个领域的客体。知识表示系统knowledge representation system用来表示知识的形式化系统，包括语言学知识（如句法、语义等）和外部世界知识（如常识和领域知识等）。人工智能artificial intelligence利用计算机系统模拟与人类智能有联系的功能的过程和方法。专家系统 expert system一种人工智能系统。它根据从专家们的专门知识获得的知识库进行推理来解决特定应用
20、领域中的问题。知识工程knowledge engineering以知识为处理对象，以能在计算机上表达和运用知识为主要手段的应用性研究和技术。主要包括知识表示、知识应用和知识获取的方法，实现知识处理的工具和技术等。知识模型 knowledge model各种知识结构的统称。知识结构指的是知识表示方法，已有的知识结构有框架、脚本、定型和规则模型等形式。知识获取knowledge acquisition在系统所要处理的问题域范围内，对该问题域客观存在的事物，以及所要解决的问题有全面的理解和把握，包括弄清事物的各种关系并找出解决问题的方法。元知识 metaknowledge关于知识的知识，规定系统如何
21、使用它所知道的知识及其限制。例如在专家系统中，元知识告诉系统如何运行或推理。元规则 metarule描述一组给定的规则在何种条件、顺序或方式下可以运用的一种规则。原型 prototype专家系统试验模型的简称。专家系统不必等到所有的非形式化知识都形式化之后才建立，可以在将某些知识形式化之后就先输入至知识库，在有一定数量和典型的知识输入之后就可以试验运行专家系统，此时的专家系统仅仅是专家系统模型。回溯 backtrack一种搜索过程。在此过程中根据推测选择了某一结点，当这一选择导致不能接受的结果时，搜索则回到原始结点以作出另一选择。事件驱动 event-driven基于当前问题状态的正向链求解的
22、方法。使用事件表去启动知识源，知识源能够建立或改变假设元素并且把一些新的事件放到事件表中，系统的运行状况是“机会主义”的：用最近发现的东西去指导运行状况，而不是用符合于目标需要去指导系统的运行状况。评价函数evaluation function1.在博弈树中格局的得分数。2.在搜索图中，一个节点处于最佳路径的概率。3.在搜索图中任意节点与目标集之间的距离度量或者差异度量。形式语言理论formal language theory用数学方法研究自然语言和人工语言的语法的理论，只研究语言的组成规则，不研究语言的含义。框架 frame一种数据结构。它与特定领域的知识有关，由槽组成，槽能接受特定属性的值
23、，称作侧面，从这些侧面，借助于适当的过程可引出推理规则。数据驱动 data-driven一种问题求解方法。从初始的数据或观测值出发，运用启发式规则，寻找和建立内部特征之间的关系，从而发现一些定理或定律。目标驱动 goal-driven一种问题求解方法，从目标出发进行反向推导。汉字编码Chinese character encoding给汉字规定一种便于计算机识别的代码，使每一个汉字对应于一个数字串或符号串，从而把汉字输入计算机。汉字 Chinese 用计算机对汉字表示的信息进行操作和加工，信息处理character information processing如汉字的输入、存储、识别、生成和输
24、出等。汉字信息处理是中文信息处理的一个重要组成部分。汉字识别Chinese character recognition计算机或其他装置对汉字进行的识别。由于汉字的复杂性，汉字识别比拉丁字母识别要困难一些。汉字的印刷文本通过电子扫描而进入系统之后，还要进行预处理工作，例如笔划的细化工作，抽取特征之后再进行识别。判定树 decision tree一种具有树结构的判别网络。其中结点代表一些确定分类的具体条件。它实际是一种分类规则，通过它对输入的对象集合进行分类。决策树连续语音识别continuons speech recognition对连续语音（无中断的）进行识别的过程。这是人机之间最为自然的对话
25、方式，在连续语音流中存在着大量的协同发音和语音段的丢失，特别在大词汇量系统中更为严重。解决连续语音识别的难题不能单纯靠信号处理和模式匹配技术，还要充分利用语法学、语音学、语义学和语用学等知识，启发式规则heuristic rule在人工智能的问题求解时，为了减少搜索而使用的经验性知识等信息或规则。这些规则有助于使搜索过程向最有利于达到目标的方向进行。树结构 tree structure 用树形式组织信息的方法。条件概率conditional probability在概率统计中，条件 A 在事件 B 发生的情况下发生的概率，称为条件概率，记作 P（A|B）。训练集 training aet 用来
26、设计或测试的样本集合。知识库 knowledge base为了满足求解问题的需要，按照一定的知识表示方式在计算机系统中组织、存储和使用的互相联系的知识集合。形式文法 formal grammar形式化语法规则的集合。这些规则是采用特殊符号写成的。用尖括号t)取值（或取某些状态）的概率与过去状态 Xs(s0，有 PXn=in|X0=i0,X1=i1,Xn-1=in-1=PXn=in|Xn-N=in-N,Xn-1=in-1 称其为马尔可夫链，其中 i0,i1,in,in+1 分别为马尔可夫链的状态，N 称为马尔可夫链的阶。转移概率矩阵transtion-probablity matrix“I,jS
27、，称 P(Xn+1=j|Xn=I)=pij(n)为 n 时刻的一步转移概率。若对“I,jS，pij(n)=pij，即pij 与 n 无关，则称Xn,n0为齐次马尔可夫链。记 P=(pij)，称 P 为Xn,n0的一步转移概率矩阵，简称为转移矩阵。0 阶马尔可夫链zero-order Markov chain若在特定情况下，系统在时间 t 的状态与其历史状态均不相关，即 N=0，则该系统构成一个离散的 0 阶马尔可夫链，PXn=in| X0=i0,X1=i1,Xn-1=in-1 = PXn=in1 阶马尔可夫链first-order Markov chain若在特定情况下，系统在时间 t 的状态
28、只与其在时间 t-1 的状态相关，即 N=1，则该系统构成一个离散的 1 阶马尔可夫链。PXn=in| X0=i0,X1=i1,Xn-1=in-1 = PXn=in|Xn-1=in-1。2 阶马尔可夫链second-order Markov chain若在特定情况下，系统在时间 t 的状态与其在时间 t-2,t-1 的状态均相关，即 N=2，则该系统构成一个离散的 2 阶马尔可夫链。PXn=in| X0=i0,X1=i1,Xn-1=in-1 = PXn=in| Xn-2=in-2，Xn-1=in-1。高阶马尔可夫链higher-order Markov chain若在特定情况下，系统在时间 t
29、的状态与其在时间 t-N,t-1(N2)的状态均相关，则该系统构成一个离散的高阶马尔可夫链。PXn=in| X0=i0,X1=i1,Xn-1=in-1 = PXn=in| Xn-N=in-N，Xn-1=in-1。最大似然估计量maximum-likelihood estimator最大似然估计量是对未知参数的一个估计值，使获得当前样本的可能性最大。信息论information theory关于信息的本质和传输规律的科学理论。它是研究信息的计量、发送、传递、交换、接收和储存的一门新兴学科。消息源 message source消息源用来发出某个消息或关于某个消息的状态。语言羡余language
30、redundancy原为信息论术语，现用来分析造成语言学中对立的各种特征。一个特征（语音的、语法的等）如果为识别一个语言单位所不必出现的，就是羡余的。不被认为是羡余的特征是区别性特征。方差 variance 设 X 为一可积随机变量，则随机变量(X-EX)2 的期望 E(X-EX)2 称为 X 的方差。统计分布statistical distribution对随机变量取值的估计，以显示其发生的观察或理论频率。绝对频率absolute frequency 在给定统计范畴内的观察数目。词长分布distribution of word length单词长度（即组成单词的单字个数）的概率分布。离散分布
31、discrete distribution 随机变量均取离散值的分布。单词概率word probability单词出现的概率分布，即一个单词出现的可能性。单词类型复现率repeat rate of word type 某个词型在真实文本中的重复出现比率。复现率估计estimation of repeat rate 某些统计特征量重复出现的概率估计。语言多样性linguistic diversity世界上各个国家和民族在语言文化上的差异（包括词语，发音，语法等），称为语言多样性。词汇容量size of vocabulary 词汇容量是指一个系统所能处理的词汇总数。词汇集中度vocabulary
32、concentration 词汇在文本中集中出现的频度。词汇差异度vocabulary diversity词汇在形态、语义、句法功能等方面上的差异性。总体样本population sample 通常把研究对象的全体成为总体样本。相对频度relative frequency 绝对频度和数据点总数的比率。齐普夫假设Zipfs hypothesis该假设的描述是：由于单词（或事件）出现的概率通常是开始较高，然后逐渐减小，因此只有少部分单词（或事件）是经常出现的，而大多数单词（或事件）很少出现。统计推断statistical inference根据对样本信息的统计而进行推断或做出结论的过程。期望值ex
33、pectation value又称均值，是随机变量按其取值概率的加权平均，表征其概率分布的中心位置。分布函数distribution function设随机变量 X 取值小于实数 x 的可能性。即，设 X 为(,F,)上的随机变量，对任一实数x，定义 F(x)=P(Xx)=P(X(-,x)，则称 F(x)为 X 的分布函数。语言年代学glottochronology根据核心词汇在发展中遗留下来的百分比计算语言发展年代和亲属关系的一种科学方法。它主要建立在语言中核心词汇按恒定比率（第年后平均保留约）发展变化的假设基础上，可用于根据亲属语言（后人发展应用于方言）中共有的同源词百分比来推算它们从原始
34、母语中分化出来的年代及亲缘关系的远近，因而可用于测定同源民族分离的年代和关系的亲疏。词汇分化lexical divergence词汇分化是这样一种语言现象，即一个语言中的主动词在翻译成另一个语言时却使用了意义不同的另一个动词。例如，英语句子 “They run into the room.” 其北印度语翻译为“woye daurte huye kamre mein ghus gaye.” 这里，英语句子的主动词是“run”（跑），北印度语句子中的主动词是 “ghus” (进入)，而“run”的意思仅作为一个分词在句中出现。样本容量 sample size按一定规则从总体中抽取若干个个体，这些个
35、体称之为样本，样本中所含个体的数目称为样本容量。抽样 sampling 按照一定规则从总体中抽取样本的过程。对于有限总体，可分为有放回抽样和无放回抽样。样本频度sample frequency单位时间（或距离）内抽取样本数据（或获得测量数据）的次数。文本检索 text retrieval根据用户提出的查询，在文本库中寻找相关文本的过程。跨语言信息检索cross-language information retrieval在信息检索中，如果用户的提问用一种语言表示，而文本库中的文本用另外一种语言表示，这样的信息检索过程称为跨语言信息检索。信息过滤information filtering根据某些
36、特定的要求，截流或删除互联网某些敏感信息的过程。问答系统question answering system系统根据用户的自然语言提问，从大规模文本库中提取相关信息并用自然语言给出精确的答案，这种系统称为问答系统。召回率 recall是信息检索等领域的一种系统性能测试指标，指检索到的正确样例数与实际存在的正确样例数总数的比值。F 值 F-measure 是信息检索等领域的一种系统性能测试指标，是综合召回率和精确率的一种系统评价指标。搜索引擎 search engine是一个对互联网上的信息资源进行搜集整理供用户查询的系统，它包括信息搜集、信息整理和用户查询三部分。文本校对 text checki
37、ng利用自然语言处理技术，对文本进行核对和校正以检测文本的拼写、句法等是否正确的过程。词网 WordNetWordNet 是 Princeton 大学认知科学实验室开发的一个在线的英语词汇参考系统，它的设计基于心理语言学中的人类词汇记忆理论（psycholinguistic theories of human lexical memory）。WordNet 将英语的名词、动词、形容词和副词组织成同义词集，每个同义词集表示一个词汇概念。同义词集之间用各种不同的关系联系起来。知网 HowNet是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内
38、容的常识知识库。由董振东教授领导的研究组提出和建立。言语识别speech recognitionautomatic speech recognition ASR运用电子技术分析和识别人类言语并作出适当响应的过程。通常是用计算机把口语的语音形式自动转换成文本形式。自动言语识别、语音识别言语合成speech synthesis运用电子技术产生能让人听得懂的人工言语的过程。通常是用计算机把文本转换成语音。这一过程使用的设备称作言语合成器（speech synthesizer）。语音合成n 元模型 N-gram是一种概率模型，其中规定当前元素（如：词，词性等）出现的概率只同它前面出现的 N-1 个元素
39、有关。N=1 时就是一元模型(unigram)，N=2时就是二元模型(bigram)。脚本 script 是描述人类某种活动的事件序列，是已成陈规的事件序列的知识。Brown语料库Brown Corpus始建于 20 世纪 60 年代初，由 W.N.Francis 和H.Kucera 发起，在美国 Brown 大学建立了世界上第一个根据系统性原则采集样本的标准语料库，规模为 100 万词次，主要代表了当代美国英语。LOB语料库LOB Corpus始建于 20 世纪 70 年代初，由英国 Lancaster大学的著名语言学家 G.eoffrey 和倡议，由挪威 Oslo 大学的 Stig Joh
40、ansson 主持完成，最后装在挪威 Bergen 大学挪威人文科学计算中心（LOB 语料库也因此以三家单位的首字母缩写得名）。规模与 Brown 语料库相当，主要代表了当代英国英语。COBUILD 语料库COBUILD Corpus是 80 年代第一个以词典编撰为应用背景构建的大规模语料库，是英国 Birmingham 大学与Collins 出版社合作的结果，规模达到 2000 万词级。语料库名称也是两家单位的首字母缩写（Collins Birmingham University International Language Database）。Upenn树库 Upenn treebank美
41、国 Pennsylvania 大学 80 年代末 90 年代初开始发起了树库计划，对百万词级的语料进行句法结构标注。该项目由 Pennsylvania 大学计算机系 M.Marcus 主持，到 1993 年，完成了对近300 万英语词的句子的基本法结构标注。文-语转换系统text to speech system将文本形式转换为语音形式的语音合成系统，称为“文-语转换系统”。这一系统的运作过程是，先对一输入文本作形态和音系分析，分析时考虑到规则和不规则形式这类问题。然后由字母-语音转换规则和其他一些专门特征生成词平面上的音系表征式，后者再转换成语音表征式（容纳连续言语的特征，包括句子韵律）。合
42、成的实现靠一个基于规则的系统，输出由一个终端模拟合成器提供。语音清晰度diction 一个人说话时的发音清晰程度。倒谱平滑cepstral smoothing一种处理语图的方法，它消除嗓音纹理，得到一条突出主要频带的平滑曲线。模数转换器analog-to-digital converter ADC一个变换模拟信号为数字信号的电子器件。它通过很高的频率对模拟信号采样完成模数转换。根据采样定律，如果信号采用频率不低于两倍的信号最高频分量马厩不会有信息丢失，原始信号能够由采样值精确地重建。模拟信号 analog signal一个连续变化的波形，因此它从一个值变到另一个值时经过其中的一切数值。通常的声
43、波是一个模拟信号。信号 signal在利用声波或电子技术进行信息的传播和重建过程中，指有意要传输和重建的信息。它与伴随的噪声相对立。Longman 语料库Longman corpusLongman 语料库建于 80 年代，由三个大语料库构成，规模达到 5000 万词级。包括 LLELC 语料库（Longman/Lancaster 英语语料库）、LSC 语料库（Longman 口语语料库）和 LCLE（Longman英语学习语料库）。该语料库的主要目标之一是编撰英语学习词典，为外国人学习英语服务。ACL/DCI 语料库ACL/DCI corpusACL/DCI 是由美国计算语言学会（The As
44、sociation for Computational Linguistics，简称 ACL）倡议发起的语料库项目，收集语料范围相当广泛，包括华尔街日报、Collins 英语词典、Brown 语料库、Pennsylvania 大学开发的树库，以及一些双语和多语文本等。既有标注的语料，也有未标注的生语料。ACL/DCI 最初构建语料库时，制定了语料文件的格式标准，所有收集的语料文本都用 SGML 语言进行描述，语料标注则依照TEI（Text Encoding Initiative）标准进行，为语料库在不同计算机环境下进行数据交换奠定了基础。双语语料库bilingual corpus包含两种语言文
45、本的语料库，可以分为平行语料库（Parallel Corpus）和比较语料库（Comparable Corpus）两种类型。其中，平行语料库指的是语料库中的文本构成译文关系，根据标注层次可以细分为：文本级对齐平行语料库、段落级对齐平行语料库、句子级对齐平行语料库、词语级对齐平行语料库等；比较语料库指的是将表述同样内容的不同语言文本收集在一起形成的语料库，这些不同语言文本之间并不构成翻译关系。基于实例的机器翻译example-based machine translation以双语对照的翻译实例库作为主要知识源的机器翻译方法。实例库保存大量源语言句子和该句对应的译文。每当输入一个源语言句子 S
46、时，系统利用 S 和实例库中的源语句子进行比较，找出其中和 S 最为相似的句子 S，并模拟 S的译文 T生成 S 的译文 T，然后输出。基于规则的机器翻译rule-based machine translation以表达语言学知识的符号系统规则系统为主要知识源的机器翻译方法。翻译过程在规则的驱动下完成。基于统计的机器翻译statistical machine translation建立在统计语言模型基础上的机器翻译方法。这种方法认为，机器翻译问题是一个噪声信道问题，一种语言 S 经过了一个噪声信道而发生了变形，从而在信道的另一端呈现为另外一种语言 T，翻译实际上就是如何根据观察到的 T，恢复最为可能的 S 的问题。用 Pr(S|T)表示 S 翻译成 T 的概率，那么翻译问题就成为：在观察

展开阅读全文

道客多多所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：计算语言学术语500条.docx
链接地址：https://www.docduoduo.com/p-6835498.html