ImageVerifierCode 换一换
格式:PPT , 页数:24 ,大小:118KB ,
资源ID:4786870      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-4786870.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(中文信息处理和汉语研究现状和发展.ppt)为本站会员(jinchen)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

中文信息处理和汉语研究现状和发展.ppt

1、1,中文信息处理与汉语研究 现状和发展,詹卫东北京大学中文系 北京大学汉语语言学研究中心 北京,100871 http:/ 湖南 长沙 2003.10.5 - 10.6,2,提 纲,中文信息处理研究的格局 中文信息处理的现状和发展趋势 语言知识资源的建设 面向中文信息处理的汉语研究,3,一 中文信息处理研究的格局,信息的两个层次: 符号层 中文 / 汉语 / 汉字 内容层 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译等等),(信号 vs. 信息),4,符号层的信息处理,拼音文字:小字符集 比较容易 非

2、拼音文字:大字符集 难度很大,汉字是一个大字符集 说文解字(东汉):9353字 玉篇(南朝)收录16,917字 广韵(宋代)收字26,194字 字汇(明朝)收录33,197字 康熙字典(清朝)收录47,043字 汉语大字典(1992年)5.6万 中华字海( 1994年) 8.6万,拉丁字母只有26个符号斯拉夫字母只有33个符号阿尔明尼亚字母只有38个符号泰米尔字母只有36个符号缅甸字母只有52个符号泰文字母只有44个符号老挝字母只有27个符号藏文字母只有35个符号韩文字母只有24个符号日文假名只有48个符号,5,符号层的信息处理,汉字输入,自动输入,键盘输入,字形识别,声音识别,手写体识别,印

3、刷体识别,在线手写,脱机手写,整字键盘,通用键盘,主辅式,感应式,形码,音码,形音结合码,1,2,3,4,5,6,7,8,9,6,内容层的信息处理,形态丰富的语言(inflecting language):处理难 形态不丰富的语言(analytic language):处理更难,7,内容层的信息处理,机器翻译全过程,8,内容层处理对符号层处理的反作用,9,内容层处理对符号层处理的反作用,10,内容层处理对符号层处理的反作用,11,内容层处理对符号层处理的反作用,12,二 中文信息处理的现状和发展趋势,现状 符号层的处理成果已经得到广泛应用; 中文输入/字库/字处理软件/排版/ 内容层的处理目前

4、在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索,13,系统演示,北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等)http:/ 信息产品的多样化 网络的迅速发展 积累更多基础资源, 开发更多应用系统。 内容层的处理将受到越来越多的重视,信息家电,内容计算,,15,三 语言知识资源的建设,现代汉语语法信息词典 基于配价理论的现代汉语语义词典 现代汉语短语结构信息库 2700万字现代汉语分词与词性标注语料库 句子对齐的汉英双语语料库 现代汉语树库 现代汉语短语结构规则库,16,资源演示,现代汉语语义词典(詹卫东、王惠等) http:/ 汉英

5、平行语料库(常宝宝、柏晓静等) 现代汉语树库(詹卫东、常宝宝等),17,四 面向中文信息处理的语言学研究,充分重视各个层次上的语言歧义研究 拓展语言现象的研究面 强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化,加强语言知识库的工程建设,为中文信息处理(内容层的处理)积累更多基础资源,18,歧义示例,张 店 区 大 学 生 不 看 重 大 城 市 户 口,19,歧义示例(续),有 三 百 多 种 树,20,歧义示例(续),请 转告 李宇明 司长 下午 三点 出发,v v n n t t v,21,要让计算机“理解”一个句子,实际上要解决下面两个核心问题: (1)一个句子的结构和意义

6、是什么? (2)如何得到一个句子的结构和意义?第一个问题是“What”的问题,这是理论语言学关心的问题;第二个问题是“How”的问题,这是计算语言学关心的问题, 也就是面向中文信息处理的语言研究需要关心的问题。,结 语,22,参考文献,慈林林 鲁元魁,1999,中文信息处理新技术展望,计算机世界1999年第44期“产品与技术”版“专题报道”。 刘梦松,1998,中文信息处理软件概述,计算机世界1998年第26期“技术专题”版。 许嘉璐,2002,现状和设想 试论中文信息处理与现代汉语研究,中国语文2000年第6期。 俞士汶,朱学锋,2002,关于汉语信息处理的认识及其研究方略,语言文字应用20

7、02年第3期。 俞士汶,朱学锋,王惠,2001,的新进展,中文信息学报2001年第1期。 詹卫东,常宝宝,俞士汶,2002,机器翻译与语言研究,语言科学2002年第1期(创刊号)。 詹卫东,2000, 80年代以来汉语信息处理研究述评,当代语言学 2000年第2期。 张华平,2003,中文信息处理技术发展简史,http:/(中文信息处理开放平台网站),23,国内外重要的语言知识资源举例,WordNet,http:/www.cogsci.princeton.edu/wn/ FrameNet,http:/www.icsi.berkeley.edu/framenet/ HowNet,http:/ 台湾中研院词库、现代汉语平衡语料库 http:/www.sinica.edu.tw/ftms-bin/kiwi.sh,24,谢 谢 请大家批评指正 欢迎访问 http:/ http:/,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报