ImageVerifierCode 换一换
格式:PPT , 页数:45 ,大小:584.50KB ,
资源ID:2238086      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-2238086.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(词典与词典编撰的研究.ppt)为本站会员(Facebook)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

词典与词典编撰的研究.ppt

1、词典,词典与词典编撰的研究,词典学lexicology Theory and description of lexical information 计算词典学computational lexicology formal modelling of lexical information 词典编撰学lexicography Construction of dictionaries (databases, handbooks) 计算词典编撰学computational lexicography construction and production of dictionaries using el

2、ectronic publishing,机读词典与人读词典,人读词典(Human Readable Dictionary) 格式不规范 数据完整性和一致性不好 非结构化 机读词典(Machine Readable Dictionary) 格式规范 数据完整性和一致性较好 结构化,机读词典的分类,按信息类型分类 语法词典 语义词典(包括同义词典) 双语词典 按领域分类 通用词典 专业词典(术语词典) 专名词典 ,人读词典(demo),金山词霸 story 中古英语storie 古法语estoire 拉丁语historia n -ries (1)故事,小说;传闻; 轶事 Please read u

3、s a story! 请给我们读个故事! (2) 谎话,假话 (3)(书籍、电影、戏剧等的)情节 (4)(报刊、杂志文章的)素材,题材,汉语语法信息词典,开发单位:北京大学计算语言学研究所 参考文献: 俞士汶等(1998)现代汉语语法信息词典详解,清华大学出版社、广西科学技术出版社1998年版。 规模:7万多词条 总库 词性库 名词时间词处所词方位词数词量词区别词代词动词形容词状态词副词介词连词助词语气词前接成分后接成分成语简称略语习用语语素标点符号 词性分库 动词代词,新华社词语数据库,全库分为中文和外文两个大类,主要包括中文新闻库、经济信息库、证券库、人物库、组织机构库、专题资料库等中文数

4、据库,还包括Xinhua News Bulletin 、Whos Who in China等英文数据库。共有28个库100多个子库,数据量达80多亿汉字,并以日均150万汉字的速度增长。,新华社词语数据库国际组织,“年问题”联合委员会/joint year 2000 council/ International “”运动/movement april 19/ Colombia “阿尔法” /“alpha 66“/ Cuba “俄罗斯地区”社会联盟/regions of russia group/ Russia “法中年”协会/france-china association for the y

5、ear 2000/ France “繁荣”党/prosperity/ Russia “光明的日本”国会议员联盟/parliamentary union for a bright japan/ Japan “基地”组织/al qaeda/ Saudi Arabia 财富杂志/fortune/ USA 朝日新闻/asahi shimbun/ Japan 国际献血组织联合会/international federation of blood donor organizations/ International 国际宪法学协会/international association of constitu

6、tional law/ International 国际香料集团/international spice group/ International 经济和外贸部/ministry of economy and external trade of syria/ Syria 经济和外贸部/ministry of economy and foreign trade of egypt/ Egypt,知网(Hownet)1,作者:董振东董强 网站:http:/ 概念描述举例 NO.=017144 W_C=打 G_C=V E_C=网球,牌,秋千,太极,球得很棒 W_E=play G_E=V E_E= DE

7、F=exercise|锻练,sport|体育 其中DEF是核心,采用特定的“知识描述语言”,知网(Hownet)2,打 017144 exercise|锻练,sport|体育 男人 059349 human|人,family|家,male|男 高兴 029542 aValue|属性值,circumstances|境况,happy|福,desired|良 生日 072280 time|时间,day|日,ComeToWorld|问世,$congratulate|祝贺 写信 089834 write|写,ContentProduct=letter|信件 北京 003815 place|地方,capi

8、tal|国都,ProperName|专,(China|中国) 爱好者 000363 human|人,*FondOf|喜欢,#WhileAway|消闲 必须 004932 modality|语气 串 015204 NounUnit|名量,&(grape|葡萄),&(key|钥匙) 从良 016251 cease|停做,content=(prostitution|卖淫) 打对折 017317 subtract|削减,patient=price|价格, commercial|商, ( range|幅度=50%) 儿童基金会 024083 part|部件,%institution|机构, politi

9、cs|政,#young|幼,#fund|资金,(institution|机构=UN|联合国),知网(Hownet)3,义原总数:1500多个 义原分类:共8类 基本义原 事件、实体、次要特征 属性、属性值、数量、数量值 语法义原:描述语法特征,如POS 语法 关系义原:描述意义关系,类似于格关系 动态角色 动态属性,知网(Hownet)4,义原的上下位关系构成树结构 - entity|实体 thing|万物 physical|物质 animate|生物 AnimalHuman|动物 human|人 humanized|拟人 animal|兽 beast|走兽,知网(Hownet)5,同义词词林

10、1,梅家驹等,1983,上海辞书出版社 为克服写作和翻译时的词穷现象而编写 目前广泛应用于自然语言处理中 收词近7万(按义项统计) 按义项编排 12大类 94中类 1428小类 3925词群 词群内部的词是同义词 大类、中类、小类之间不一定是上下位关系(有些是领域),同义词词林2,大类:A 中类:g 小类:10 词群:01 最小同义词集:01,02,03,WordNet 1,网址: http:/www.cogsci.princeton.edu/wn/ 开发单位: 普林斯顿大学心理语言学实验室 初衷是作为研究人类词汇记忆的心理语言学成果 在自然语言处理中得到广泛的应用 免费的在线词汇数据库 世界

11、很多语种都开发了相应的版本 各种欧洲语言:EuroNet 汉语:CCD(Chinese Concept Dictioanry),WordNet 2,同义词集Synset 用一组同义词的集合Synset来表示一个概念 每一个概念有一段描述性的说明 关系 上下位关系(hyponymy,troponymy) 同义反义关系(synonymy,antonymy) 部分整体关系(entailment,meronymy) ,Wordnet 3,规模 名词:80,000 words, 60,000 synsets 形容词:16,000 synsets 动词:11,500 synsets 还在不断发展之中,Wo

12、rdNet 4名词概念的组织,WordNet 5形容词概念的组织,词典检索算法1,词典检索算法的性能评价 时间复杂度 空间复杂度 检索方式 直接用词语检索 检索句子中某个位置开始的所有词 检索句子中某个位置开始的最长词 模糊检索 增量式索引,词典检索算法2,两个问题 索引结构 查找算法 一种索引结构可以对应不同的查找算法,词典顺序索引,词典顺序索引的查找算法,整词二分查找 时间复杂度O(log2N) 无法按前缀查找 改进的整词二分查找 时间复杂度O(log2N) 可以实现按前缀查找,词典散列索引,词典散列索引的检索算法,利用散列(hash)函数直接定位 效率高:常数 不能按前缀查找 冲突的解决

13、 使用冲突队列 使用再散列 散列函数(hash)的选择 算法改进:逐词散列,可以实现按前缀查找,词典分级索引,将词语分成若干部分,为每一部分分别建立索引 在分级索引中,每一级索引都可以采用各种不同的索引和查找算法 对于汉语而言,第一级索引一般使用词语的首字,所以又常称为首字索引 汉语的首字数量有限,可以使用直接定位法,效率最高,空间也不大,汉语词典按首字顺序索引,首字二分检索2,时间复杂度:O(log2N) 空间复杂度:O(N) 可以按前缀查找 不能增量式索引:每次要重新排序,汉语词典TRIE树索引,AC算法1,AC算法2,AC算法3,AC算法4,AC算法5,AC算法6,AC算法7,AC算法8

14、,AC算法9,AC算法10,重复子串识别,目标:识别出文本中所有出现两次以上的子串 据香港文汇报报道,北京的台湾问题专家李家泉受访时指出,台北、高雄两市市长选举,尽管蓝、绿两政治势力进行了激烈的斗争,但“北蓝南绿”的政治格局未被打破,由此可以预见,未来一段时间内两岸关系的改善很难有突破。李家泉指出,此次北高两市选举在两个大背景下进行,一是民进党执政两年来政绩相当差,自身危机感非常强;二是距离2004年“大选”只有一年多时间,两派都格外重视此次交锋,对泛绿阵营来说是政权保卫战,而对泛蓝阵营来说则是夺权演习战。因此可以看到斗争形势相当严峻而激烈。,逐词递增算法1,首先记录所有二字串的出现位置和频度

15、 删除只出现一次的二字串记录 对于出现两次以上的二字串,向后扩展一个字,记录所有三字串的出现位置和频度 删除只出现一次的三字串 重复上述过程,直到不再有重复串为止,逐词递增算法2,性能 最坏情况:前后两段文字完全相同 在最坏情况下,时间复杂度:O(n2) 算法改进 时间复杂度可以达到O(n)? 演示,基于重复子串的新词发现,对于人民日报2002年和2001年语料分别进行重复子串识别 用2002年的重复子串集合减去2001年的重复子串集合 2002年出现词数大于20的词语而2001年没有出现过的重复子串:1005个 Top 10,复习思考题,如果有一部人读的双语词典,你如何将它转换成机读词典? 如何利用语义词典进行词语相似度计算? 请实现逐字散列的词典检索算法。 汉语词典和英语词典在实现上有什么不同? 请查找文献,看看如何寻找一个好的散列函数。,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报