收藏 分享(赏)

应用语言学概论(1).ppt

上传人:无敌 文档编号:947775 上传时间:2018-05-05 格式:PPT 页数:40 大小:205KB
下载 相关 举报
应用语言学概论(1).ppt_第1页
第1页 / 共40页
应用语言学概论(1).ppt_第2页
第2页 / 共40页
应用语言学概论(1).ppt_第3页
第3页 / 共40页
应用语言学概论(1).ppt_第4页
第4页 / 共40页
应用语言学概论(1).ppt_第5页
第5页 / 共40页
点击查看更多>>
资源描述

1、应用语言学概论,计算语言学:,通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。,计算语言学有时也叫做计量语言学,数理语言学、自然语言理解、自然语言处理、人类语言技术 处理汉语的计算语言学通常也叫做“中文信息处理”,中文信息处理的三个阶段:字处理:输入、显示、排序、排版;字形、字量;词处理:词语切分、语法属性标注、词汇单位、词汇统计、词语构成、义项划分、义项统计句处理:语法搭配、句型、句式、语法组合、,下面是对汉字显示问题的探讨,走进计算机汉字字库(光明日报98.9.8)王生随着计算机的推广和普及,计算

2、机汉字字库也一步一步地走向我。但人们对计算机汉字字库是如何产生的还不是很清楚。 汉字字库的发展大致经历了三个阶段,最初是点阵字库,之后是向量字库,现在则用曲线字库。一套精美的汉字字库从设计到最后成型,一般需要23年的时间。汉字字库的开发生产的流程大致可以分为以下几个阶段:字体选型、字稿设计、字的扫描和数字化拟合、人工修字和补字、质量检查、成库、功能测试。,字体选型是字库开发的基础工作。任何一套字体的选定都要经过反复的比较、论证、试做,只有在字体风格、规范程度、字稿质量、美观性等各方面都具有相当水平,才可以确定选用。计算机里使用的一种字种字体都要有一套相应的字库。市场上不仅可以见到宋、仿、黑、楷

3、、隶书等传统印刷字体,还可以见到行楷、姚体、舒体、美黑等一大批风格各异、特点突出的新字体。据悉,北大方正现在已经开发出72种简繁体字库。,汉字字库技术有新突破,记者 刘德金(计算机世界报 1994年 第27期)近十年来我国的汉字信息处理技术得到了较大进展,推动了我国计算机应用技术的发展。单就汉字字库技术来讲发展也是相当快的,在点阵字库的基础上,发展了矢量汉字技术、曲线汉字字库技术,这些字库技术在提高汉字处理的分辨率、压缩存储容量方面都已经有了明显的进步。但这些字库技术都是将每个汉字看成一个独立的不可分的基本单位,字库描述的基本单位仍然是字,描述一个字的轮廓仍然占用较多的存储空间。根据中国汉字是

4、按偏旁、部首结构而成的这一特点,很多专家学者做为汉字基本描述单位来构造汉字整字的新思路,并且也做了大量的工作,但由太大,只用简单拼凑的办法拼出来的字很不理想,所以至今这种字库设备未被计算机厂家采纳。,长沙工程兵学院曾冬初先生经多年的研究实现了这一理想,他研究出了一种高精度、省内存的多级结构汉字字库技术。其基本思想是充分利用汉字的笔划数远远小于汉字字符集这一实际,将汉字条形描述由上到下细分成若干级,每级分别编码,最低级是以笔划或组成笔划的曲线段为基本描述单位。利用汉字多级结构原理,形成公用的多级结构文件。技术上突破的关键在于对任何一个整字进行结构描述进,利用了多级座标平移、旋转、放大及缩小技术进

5、行优化造出令人满意的字型。目前曾先生已研制出含五种字体的国标汉字集(含个汉字),五笔字型更深远的意义还在于它以自己特有的快捷、准确,证明汉字是可以适应现代科技时代需要的。长期以来汉字必须改革的一个坚强理论支柱就是汉字不适应现代科技发展的要求,不适应电子计算机的发展,难以进行中文信息处理。而现在证明,汉字在电脑中不仅可以进行处理,而且处理的速度可以很快。它的输入速度已经超过了英文字母的全拼式输入方法。汉字已经不再是一个过了时的古代社会遗物。,一地在要工上是中国 有人我,“词”单位的研究,“词单位”的研究是词汇研究的一项基础工作。词的大小,词的切分,直接影响到“词单位”的存在。汉语的“词”是什么?

6、汉语的词概括什么来区分?,汉语“词”的认定,乌云 白云 彩云 阵云 黑云校景 校道 校服 校警 校花 校舍 校区 校规喷漆 喷气 喷油 喷饭 喷汤 喷粪,词表的提取,“词单位”的集成,就是词表的形成。词表是某领域词汇全貌的反映。从大规模语料中提取词表,就是完成从最原始的“矿料”中提取成品的任务,是一项要经历多个环节的复杂工作。,词典语料库的词表成熟、稳定的词语研究重心是有与无;真实语料的词表语言与言语的混成物研究重心是是与否,“核心语料库”,本文所利用的语料是国家语委“通用语料库”中的核心语料库。“核心语料库的字数为2000万字,由7000万语料中筛选出来。由于选材原则是经几次专家论证确定的,

7、核心语料库的语料筛选工作,在语料分科、年限划分、比例、字数等方面基本上仍依照选材原则进行。”(说明),核心语料库的特点:,真实语料:包括语言词与言语词;加工语料:分词与词性标注;机器处理与人工干预共同作用的产物:,在提取词表的工作中,碰到了许多理论与实践上的问题,或是新启之,或是补校之,或是刊误之,都需要我们对此进行深入的思考,并作出妥善的解决。,思考之一:语料库的加工精度问题,核心语料库的加工精度主要指:1.“词”切分是否准确2.词性标注是否准确加工精度是如何影响着词汇的数量与分布;分词错误的普遍性与可接受程度;,冒出了不存在的“错词”,用压电材料做小平面镜阵来代替一块反射镜,每块小平面镜可

8、以自动调节,或者把主镜设计得可以快速改变其局部的形状,以在最后的焦平面上获得消除大气湍动和光学像差影响的天体像。 ID8092/JN10000402/实测天体物理学,“做小”,用/v 压/v 电/n 材料/n 做小/v 平面/n 镜/n 阵/n 来/vd 代替/v 一块/d 反射镜/n ,/w 每/r 块/q 小/a 平面/n 镜/n 可以/vu 自动/a 调节/v ,/w 或者/c 把/p 主/n 镜/n 设计/v 得/u 可以/vu 快速/a 改变/v 其/r 局部/n 的/u 形状/n ,/w 以/p 在/p 最后/n 的/u 焦/a 平面/n 上/nd 获得/v 消除/v 大气/n 湍

9、/v 动/v 和/c 光学/n 像/n 差/a 影响/v 的/u 天体/n 像/n 。/w,使已有的“词”消失,用/v 压/v 电/n 材料/n 做小/v 平面/n 镜/n 阵/n 来/vd 代替/v 一块/d 反射镜/n ,/w 每/r 块/q 小/a 平面/n 镜/n 可以/vu 自动/a 调节/v ,/w 或者/c 把/p 主/n 镜/n 设计/v 得/u 可以/vu 快速/a 改变/v 其/r 局部/n 的/u 形状/n ,/w 以/p 在/p 最后/n 的/u 焦/a 平面/n 上/nd 获得/v 消除/v 大气/n 湍/v 动/v 和/c 光学/n 像/n 差/a 影响/v 的/u

10、 天体/n 像/n 。/w,“错词”的可容度:,以“国人”为例:过去/nt 几/m 年中/nt 两/m 国人/n 民间/n 频繁/a 的/u 交往/v 。/w 及/c 古/a 梵文/n ,/w 古/a 波斯/ns 文/n 及/c 突厥/ns 回鹘/n 诸/r 国/n 文字/n 无算/v ;/w 我/r 国人/n 始/v 稍稍/d 知之/v 。,一/m 国/n 大事/n ,/w 无/v 一/m 不/d 坏/a 在/p /w 争功/v 妒嫉/v /w 和/c /w 蜚语/n 中伤/v /w 之上/nd ,/w 难道/d 我/r 国人/n 真/d 有/v 此/r 特性/n 真/d 改/v 不/d 掉

11、/v 此种/r 特性/n 吗/u !/w船/n 上/nd 有/v 英国人/n ,/w 也/d 有/v 经营/v 商业/n 的/u 别/r 国人/n ,/w 你/r 可/vu 去/v 问/v 他们/r /w 。/w,中国/ns 的/u 人民/n 是/vl 多疑/a 的/u 。/w 无论/c 那/r 一/m 国人/n ,/w 都/d 指/v 这/r 为/vl 可笑/a 的/u 缺点/n 。这/r 虽/c 不是/vl 人人/n 办/v 得到/v ,/w 但/c 那/r 一/m 国/n 文字/n 最好/a 请/v 那/r 一/m 国人/n 来/vd 做/v 教师/n ,/w 却是/vl 比较/d 适宜

12、/a 的/u 办法/n 。,大致/d 有/v 二/m 种/v 情况/n :/w 一/m 是/vl 法律/n 对/a 我国/n 公民/n 的/u 适用/v 范围/n ;/w 二/m 是/vl 法律/n 对外/d 国人/n 的/u 适用/v 范围/n 。,“国人”的分词正确率,误例:16,正例:55,正例比:55/71,正确率:78%,正确率:1.75%,正例比:55/3144,总字符串:3144,误例:3089,正例:55,总用例:71,在鸣-沙-山上-看完-大漠-落日-的-人群-结队-滚-将-上来。文化大革命-的-后遗症,二-十年-不治!黄-老-曾-到-戏园子-来看-戏,思考之二:机器分词频率

13、标准的强制性,围成仅限于本市 遥指 中日攻下 单靠 这么回事,(他)换好(了入殓的衣服)一些-硫酸-溅到-了-腿上德国-队 芬兰-队、日本-队、香港队已-不是-专注-于-劲歌-劲-曲,思考之三: 机器分词对词的“意义完整性”的影响,白-磷 滤-纸 X-光-室卫-线信-徒互济-会行为-科学实行-党委-集体领导-下-的首长-分工-负责制,思考之四:新词、言语词的难产,千万不要认为我这县长能一-掌-遮-天现在不是提倡访-富-问-甜吗从上面三例,可以总结出“傻-论”者的观点这一席话,言-简-情深先定一个框框,拿框子去套,接着就是抓-辫子,挖-根子,戴帽子,打-棍子,那就不好了嘛。一来就是五-子-登科一

14、顶“文艺-黑线-专政-论”的帽子还给它起了一个吓人的名字“狼-桃”,目-不-旁-视剧-画-就是-我国-的-连环画一-辆-人-货车其-燃料-多用-枣-木炭,思考之五:语文词语的地位,从核心语料库共提取词语163162条:,思考之六: 语文词语词表的覆盖率该如何计算,常用汉字的覆盖率:2500字,98.4% 3500字,99.5%通用词语的覆盖率?,思考之七: 异形词的普遍性与重要性,尊从(1)遵从(51)啄磨(1)琢磨(143)绉纹(3)皱纹(118)蕴酿(1)酝酿(117)心惊胆颤(2)心惊胆战(4)席梦司(1)席梦思(3)稀里哗拉(2)稀里花啦(2)一骨古脑(1)一古脑(22)一刀两段(1)

15、一刀两断(7),思考之八:书面语与口语的差异,正在研制中的“通用词表”里面收儿化词997条。在1991-2005(5)约3.5亿字的人民日报中,词频总数26971次;儿化词去“儿”化的词频为249556次。口语与书面语中的“儿化”有无之比 110,思考之九:机器分词的局限,机器分词的基本作法是“词典主义”,词典中有的词予以保留,没有的词被切割.具有某种作用,但破坏了“真实语料”的本来面貌。机器分词将向面向人的研究,以探讨”语言真实面貌”为目的的研究带来极大的副作用。保留语言真实面貌,就应该把“词”建立在”意义完整”、“独立运用”的基本要求上。要按“词”的本来面目来切分词单位。,前五十字义频,前五十字义频,思考与练习,比较汉字输入的形码方法与音码方法的异同。用分词软件给一个文本进行分析,比较分词结果,并找出分词错误的类型。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报