收藏 分享(赏)

中文信息处理和汉语研究现状和发展.ppt

上传人:jinchen 文档编号:4786870 上传时间:2019-01-12 格式:PPT 页数:24 大小:118KB
下载 相关 举报
中文信息处理和汉语研究现状和发展.ppt_第1页
第1页 / 共24页
中文信息处理和汉语研究现状和发展.ppt_第2页
第2页 / 共24页
中文信息处理和汉语研究现状和发展.ppt_第3页
第3页 / 共24页
中文信息处理和汉语研究现状和发展.ppt_第4页
第4页 / 共24页
中文信息处理和汉语研究现状和发展.ppt_第5页
第5页 / 共24页
点击查看更多>>
资源描述

1、1,中文信息处理与汉语研究 现状和发展,詹卫东北京大学中文系 北京大学汉语语言学研究中心 北京,100871 http:/ 湖南 长沙 2003.10.5 - 10.6,2,提 纲,中文信息处理研究的格局 中文信息处理的现状和发展趋势 语言知识资源的建设 面向中文信息处理的汉语研究,3,一 中文信息处理研究的格局,信息的两个层次: 符号层 中文 / 汉语 / 汉字 内容层 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译等等),(信号 vs. 信息),4,符号层的信息处理,拼音文字:小字符集 比较容易 非

2、拼音文字:大字符集 难度很大,汉字是一个大字符集 说文解字(东汉):9353字 玉篇(南朝)收录16,917字 广韵(宋代)收字26,194字 字汇(明朝)收录33,197字 康熙字典(清朝)收录47,043字 汉语大字典(1992年)5.6万 中华字海( 1994年) 8.6万,拉丁字母只有26个符号斯拉夫字母只有33个符号阿尔明尼亚字母只有38个符号泰米尔字母只有36个符号缅甸字母只有52个符号泰文字母只有44个符号老挝字母只有27个符号藏文字母只有35个符号韩文字母只有24个符号日文假名只有48个符号,5,符号层的信息处理,汉字输入,自动输入,键盘输入,字形识别,声音识别,手写体识别,印

3、刷体识别,在线手写,脱机手写,整字键盘,通用键盘,主辅式,感应式,形码,音码,形音结合码,1,2,3,4,5,6,7,8,9,6,内容层的信息处理,形态丰富的语言(inflecting language):处理难 形态不丰富的语言(analytic language):处理更难,7,内容层的信息处理,机器翻译全过程,8,内容层处理对符号层处理的反作用,9,内容层处理对符号层处理的反作用,10,内容层处理对符号层处理的反作用,11,内容层处理对符号层处理的反作用,12,二 中文信息处理的现状和发展趋势,现状 符号层的处理成果已经得到广泛应用; 中文输入/字库/字处理软件/排版/ 内容层的处理目前

4、在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索,13,系统演示,北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等)http:/ 信息产品的多样化 网络的迅速发展 积累更多基础资源, 开发更多应用系统。 内容层的处理将受到越来越多的重视,信息家电,内容计算,,15,三 语言知识资源的建设,现代汉语语法信息词典 基于配价理论的现代汉语语义词典 现代汉语短语结构信息库 2700万字现代汉语分词与词性标注语料库 句子对齐的汉英双语语料库 现代汉语树库 现代汉语短语结构规则库,16,资源演示,现代汉语语义词典(詹卫东、王惠等) http:/ 汉英

5、平行语料库(常宝宝、柏晓静等) 现代汉语树库(詹卫东、常宝宝等),17,四 面向中文信息处理的语言学研究,充分重视各个层次上的语言歧义研究 拓展语言现象的研究面 强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化,加强语言知识库的工程建设,为中文信息处理(内容层的处理)积累更多基础资源,18,歧义示例,张 店 区 大 学 生 不 看 重 大 城 市 户 口,19,歧义示例(续),有 三 百 多 种 树,20,歧义示例(续),请 转告 李宇明 司长 下午 三点 出发,v v n n t t v,21,要让计算机“理解”一个句子,实际上要解决下面两个核心问题: (1)一个句子的结构和意义

6、是什么? (2)如何得到一个句子的结构和意义?第一个问题是“What”的问题,这是理论语言学关心的问题;第二个问题是“How”的问题,这是计算语言学关心的问题, 也就是面向中文信息处理的语言研究需要关心的问题。,结 语,22,参考文献,慈林林 鲁元魁,1999,中文信息处理新技术展望,计算机世界1999年第44期“产品与技术”版“专题报道”。 刘梦松,1998,中文信息处理软件概述,计算机世界1998年第26期“技术专题”版。 许嘉璐,2002,现状和设想 试论中文信息处理与现代汉语研究,中国语文2000年第6期。 俞士汶,朱学锋,2002,关于汉语信息处理的认识及其研究方略,语言文字应用20

7、02年第3期。 俞士汶,朱学锋,王惠,2001,的新进展,中文信息学报2001年第1期。 詹卫东,常宝宝,俞士汶,2002,机器翻译与语言研究,语言科学2002年第1期(创刊号)。 詹卫东,2000, 80年代以来汉语信息处理研究述评,当代语言学 2000年第2期。 张华平,2003,中文信息处理技术发展简史,http:/(中文信息处理开放平台网站),23,国内外重要的语言知识资源举例,WordNet,http:/www.cogsci.princeton.edu/wn/ FrameNet,http:/www.icsi.berkeley.edu/framenet/ HowNet,http:/ 台湾中研院词库、现代汉语平衡语料库 http:/www.sinica.edu.tw/ftms-bin/kiwi.sh,24,谢 谢 请大家批评指正 欢迎访问 http:/ http:/,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报