收藏 分享(赏)

数字图书馆关键技术及其在生物信息学中的应用.ppt

上传人:wspkg9802 文档编号:9695666 上传时间:2019-08-25 格式:PPT 页数:44 大小:1.90MB
下载 相关 举报
数字图书馆关键技术及其在生物信息学中的应用.ppt_第1页
第1页 / 共44页
数字图书馆关键技术及其在生物信息学中的应用.ppt_第2页
第2页 / 共44页
数字图书馆关键技术及其在生物信息学中的应用.ppt_第3页
第3页 / 共44页
数字图书馆关键技术及其在生物信息学中的应用.ppt_第4页
第4页 / 共44页
数字图书馆关键技术及其在生物信息学中的应用.ppt_第5页
第5页 / 共44页
点击查看更多>>
资源描述

1、数字图书馆关键技术及其 在生物信息学中的应用,张 亮 2002-05-30 复旦大学计算机与信息技术系 上海(国际)数据库研究中心,数字图书馆关键技术及其在生物信息学中的应用,2,内容安排,数字图书馆 数字图书馆研究的意义 复旦大学数字图书馆关键技术研究 在生物信息学中的应用,数字图书馆关键技术及其在生物信息学中的应用,3,研究动机,信息在国民经济中占有重要地位,是不可多得的战略性资源 信息的有效利用可产生巨大的社会效益和经济效益,数据量的迅速膨胀 分布式的异构信息管理 复杂的数据类型 信息的快速、精确的查询需求,一种解决方案:数字图书馆,数字图书馆关键技术及其在生物信息学中的应用,4,数字图

2、书馆是国家信息基础设施,数字图书馆是一种基于计算机网络,特别是基于 Internet的数字化信息资源管理系统,它维护分布式、大规模且有组织的数据库和知识库,保护信息资源的安全和知识产权,支持本地和远程用户借助计算机网络对系统内的数据库和知识库进行一致性的访问,传送和表现用户所需的信息,实现资源共享。 数字化的信息资源 超链接的信息组织方式 信息的网络化传输 以用户为中心的服务模式,数字图书馆关键技术及其在生物信息学中的应用,5,各国政府和机构积极推动 数字图书馆的研究与开发,美国 数字图书馆研究及建设作为其国家信息基础设施NII的重要组成部分 美国政府蓝皮书中对数字图书馆的战略意义给予了高度的

3、重视 美国数字图书馆先导研究计划DLI-1、DLI-2 世界其它国家 欧洲出版工程、法国与英国的国家图书馆以及日本、新加坡等国家政府、机构也都积极推动数字图书馆的研究与开发工作 IBM和HP等跨国公司大力开展数字图书馆的系统研发工作,数字图书馆关键技术及其在生物信息学中的应用,6,对国际上数字图书馆研究状况的跟踪调研 国内重要的数字图书馆建设项目 中国数字图书馆工程 中国试验型数字图书馆(CPDLP) 电子图书馆相关关键技术研究 知识网络数字图书馆系统工程 中国高等教育文献保障体系(CALIS) 新一代图书馆信息系统(NLIS) 电子文档管理系统(EDMS) 上海图书馆数字化工程 数字图书馆系

4、统软件平台及其应用等,国内数字图书馆的建设,数字图书馆关键技术及其在生物信息学中的应用,7,涉及数字图书馆的 关键计算机技术,数字式资源的采集技术(直接生成、数字化转换) 数字化资源的存储与管理技术(数据压缩、信息安全) 信息访问和查询技术(分类、索引、异构信息的一致性检索) 数字化资源的传送与信息发布技术(多媒体信息的传输、同步和QoS控制技术) 数字化资源的权限管理方法 面向特定用户的个性化服务,数字图书馆关键技术及其在生物信息学中的应用,8,事例研究: 异构性与互操作,大规模复杂信息系统 没有集中控制机构 遗留系统,需要互操作技术,数字图书馆关键技术及其在生物信息学中的应用,9,事例研究

5、:异构性与互操作 Wrapper/Mediator方案,利用XML为异构的信息资源(数据库系统、HTML的网页集合、传统信息服务机构的可检索对象甚至是遗留系统)提供逻辑上的统一信息资源视图 将 XML查询语言看作是视图定义语言,它驱动Mediator系统 该Mediator系统负责选择、调整和集成由多个自治资源站点返回的信息,然后以XML文档一致格式反馈给用户,数字图书馆关键技术及其在生物信息学中的应用,10,事例研究: 异构性与互操作 InfoBus,斯坦福大学承担的DLI-1项目 针对现存系统的互操作问题,不定义新的标准或试图修改现存的系统,而是承认它们的客观存在 基本思想是用图书馆服务代

6、理这样一种CORBA对象表现在线服务。这些代理与现存的系统以它们固有的方式进行通讯,并将信息转换成由CORBA方法定义的标准界面,数字图书馆关键技术及其在生物信息学中的应用,11,事例研究: 异构性与互操作 Ontology,本体(Ontology)是领域知识的概念化说明 本体的元素:对象、概念及其关系通过形式化的说明被严格规定 一组主体(Agent)按照他们形成的本体承诺相互交流领域知识,他们在给定的领域中对知识采取一致的解释和处理 知识体系追求论域中的一致性而不是其完整性 它可以为实现语义级的互操作提供帮助,数字图书馆关键技术及其在生物信息学中的应用,12,事例研究:Ontology ab

7、out Water Lilies,数字图书馆关键技术及其在生物信息学中的应用,13,事例研究: 多媒体信息检索CBIR,基于色彩直方图的图像检索(图像表达为其色彩直方图特征)基于色彩分布的图像检索(图像表达为色彩的区域分布或变换域系数分布特征)基于区域的图像检索(图像表达为对象级的特征)基于区域分割和语义标注的图像检索,excerpted from J.Z. Wangs Semantics-sensitive Retrieval for Digital Picture Libraries,数字图书馆关键技术及其在生物信息学中的应用,14,图像索引的基本处理流程,Excerpted from J

8、.Z. Wangs Semantics-sensitive Retrieval for Digital Picture Libraries,数字图书馆关键技术及其在生物信息学中的应用,15,图像检索的处理流程,Excerpted from J.Z. Wangs Semantics-sensitive Retrieval for Digital Picture Libraries,数字图书馆关键技术及其在生物信息学中的应用,16,事例研究: 多媒体信息检索视频结构的分析,Excerpted from Dr, Zhnag Hongjiangs 新一代多媒体检索,电视节目,针对多媒体中蕴含的时间特性

9、、空间特性和时空特性开发基于内容的多媒体信息检索技术,数字图书馆关键技术及其在生物信息学中的应用,17,事例研究: 多媒体信息检索 Informedia,自动分析视频、音频、隐含的标题、场景变换和其它信息 其特色在于:虽然个别模式的分析只能得到不完美的信息,但是组合所有模式提供的信息却能得到非常优异的效果 向Informedia数字图书馆馆藏中增加新的素材 将视频素材分割到各主题部分中 通过音轨语音的识别、视频流隐含标题的识别来标识每个部分相关的文本 各种自然语言处理工具产生合适的索引纪录 用户可以用多模式中的任何一种形式提出查询要求,多模式信息检索体现优异的效果,数字图书馆关键技术及其在生物

10、信息学中的应用,18,数字图书馆研究在复旦大学,1995年起,复旦大学与IBM中国研究中心联合开展了数字图书馆的关键技术研究 中国历史地图数字图书馆原型系统 国家自然科学基金重点资助项目“电子图书馆相关关键技术研究”(编号:69933010) 上海市科技发展基金项目“数字图书馆系统软件平台及其应用”(合同号:005115012) ,达到国际先进水平 上海市自然科学基金项目“页面图像的内容检索技术”(合同号:00ZD14006),达到国际领先进水平 目标:研究和开发Internet上基于数据库技术的数字化信息资源管理技术,数字图书馆关键技术及其在生物信息学中的应用,19,研究成果,提出了一种基于

11、Internet技术、合理组织大规模数字化资源的数字图书馆解决方案,研制了支撑该技术方案的一批关键技术,开发了实用的软件功能模块,适应于今后越来越多的分布式、自治、异构信息源的集成与一致性服务 形成了具有自主知识产权、先进实用的数字图书馆系统软件开发平台。该平台可根据应用特点,形成多种系统配置方案,数字图书馆关键技术及其在生物信息学中的应用,20,研究成果,数字图书馆关键技术及其在生物信息学中的应用,21,资源整合层面的研究成果,元数据组织技术及软件模块,采用有向无环图模型和资源描述框架(RDF),集成自治资源的元数据,为用户提供一致的信息服务界面,为数字图书馆系统提供信息组织结构,为个性化服

12、务提供内容参考 分布式检索技术及软件模块,从数字图书馆的众多的收藏中发现优选收藏,发布检索请求并集成检索结果 互操作技术及软件模块,采用Wrapper/Mediator互操作模型、XML和CORBA技术,完成分布式自治信息源的能力描述和访问接口包装,为分布式检索提供对异构信息源的统一访问接口,数字图书馆关键技术及其在生物信息学中的应用,22,资源站点建设层面的研究成果,资源建模/维护技术与软件模块,支持Web应用的多种粒度的抽象、封装、重用及导航,提供自治信息源的优选建模和维护支持 基于内容的多媒体检索技术和媒体服务器,支持基于内容的图像检索和高性能的中文全文检索,数字图书馆关键技术及其在生物

13、信息学中的应用,23,数字图书馆综合技术方面的成果,XML数据管理技术与软件模块,基于关系数据库系统,实现对数字图书馆中的XML数据的存储,提供高效稳定的查询处理 个性化服务技术与软件模块,发掘在特定用户的使用履历中隐藏的个人信息偏好,动态用户归类和兴趣预测,为用户提供主动的信息推送服务 Web信息搜索技术与软件模块,采用结构匹配技术,实现对Internet上特定数据源的基于内容和结构的查询 元数据配置与管理工具,辅助维护数字图书馆元数据体系,构造自治数据源的Wrapper 资源编目工具,支持对DTD模板的结构性和层次性的灵活编目,实现对数字资源的元数据置标和封装,数字图书馆关键技术及其在生物

14、信息学中的应用,24,一种生物信息源集成方法,数字图书馆关键技术及其在生物信息学中的应用,25,生物信息学产生了大量相关资源,生物信息学数据库 共有335个主要的数据库(据Nucleic Acids Research, 2002) 是实验数据与最终的结构、功能研究的桥梁 各有侧重,关心问题的范围比较狭窄,但又有重叠 生物信息学的相关服务 BLAST, FASTA等序列比对工具 基于HMM的Pfam, HMMer等数据挖掘工具 系统发育分析的Phylogeny工具,数字图书馆关键技术及其在生物信息学中的应用,26,当生物学家想利用利用资源时,数字图书馆关键技术及其在生物信息学中的应用,27,给生

15、物学家的研究带来不便,寻找众多数据库和相关服务网站 使用各种风格各异的用户界面 要明确知道需要访问哪些数据源 使用不同的协议 分别发出查询请求 不停的作Copy&Paste,甚至格式转换 手工综合查询结果,集成生物信息资源, 提供统一的访问机制,数字图书馆关键技术及其在生物信息学中的应用,28,相关研究,BioKleisli (宾夕法尼亚大学计算机系) DiscoveryLink (IBM研究院) TAMBIS (曼彻斯特大学计算机系) TINet (GSK公司和IBM研究院) 国内尚未发现公开发表的自主研究,存在的一些缺陷: BioKleisli 系统查询能力相对较弱,而且并未给出查询优化策

16、略; TAMBIS系统和DiscoveryLink系统集成的数据源数量还很少,后者在查询处理中并未运用领域知识,因而查询分解也未从语义角度考虑; TINet系统中的查询处理能力不强等等,数字图书馆关键技术及其在生物信息学中的应用,29,当前生物信息资源集成技术的特点,目前的生物信息学数据源仅限于海量数据的存储体,除TAMBIS外,其他工作都还没有在概念和联系层次集成信息源 现有集成系统的查询处理能力还不是很强,尤其是当多个数据库存在信息重叠时,缺乏从中选择最佳检索成员,动态生成优化检索方案的能力 现有的工作主要面向数据集成,而对服务集成考虑不多。支持数据与服务综合性集成的体系仍欠完备,数字图书

17、馆关键技术及其在生物信息学中的应用,30,研究目标,建立一套生物信息学资源集成方法 提供综合查询能力 具有良好的可扩展性 支持Internet网络计算环境 同时支持数据集成和服务集成 整合一批重要的生物信息学资源 数据库:GenBank/EMBL/DDBJ, SWISS-PROT, PIR, PDB, KEGG, DIP, PRINTS, PubMed等 应用服务:BLAST, FASTA, HMMER, Pfam等,数字图书馆关键技术及其在生物信息学中的应用,31,主要研究内容,基于新一代Internet技术的信息资源(内容和服务)集成与互操作技术 适用于重要生物信息学资源综合应用的联邦数据

18、库体系结构 服务于终端用户和应用程序的一致性访问接口 可供语义互操作的本体,数字图书馆关键技术及其在生物信息学中的应用,32,接口层,Mediator层,Wrapper层,GenBank,SWISS-PROT,BLAST服务,PubMed,整体技术框架,数字图书馆关键技术及其在生物信息学中的应用,33,接口层,Mediator层,Wrapper层,GenBank,SWISS-PROT,BLAST服务,PubMed,数字图书馆关键技术及其在生物信息学中的应用,34,接口层,客户端可能是Web浏览器,也可能是应用程序 以Web Service方式统一系统向外公开集成信息资源的访问界面,可支持BLA

19、ST, Pfam等应用服务 底层集成的信息资源对用户透明,即用户只需提出查询请求和相关概念,无需知道“去哪里找,怎么找?”,数字图书馆关键技术及其在生物信息学中的应用,35,接口层,Mediator层,Wrapper层,GenBank,SWISS-PROT,BLAST服务,PubMed,数字图书馆关键技术及其在生物信息学中的应用,36,Mediator层,查询生成:针对用户请求,借助领域知识本体生成整体查询表达式 查询处理/优化:基于查询效率、语义等因素,选择底层信息资源并相应地分解查询方案 执行查询:参照资源元数据,通过内部互操作机制将执行信息发送给wrapper层 结果生成:集成各返回的结

20、果信息,整理后发往用户接口层,数字图书馆关键技术及其在生物信息学中的应用,37,接口层,Mediator层,Wrapper层,GenBank,SWISS-PROT,BLAST服务,PubMed,数字图书馆关键技术及其在生物信息学中的应用,38,Wrapper层,wrapper的作用是降低mediator和底层数据资源交互的复杂度 每个信息资源对应一个wrapper 完成数据格式、查询格式的转换 这部分的研究内容包括针对一类生物信息源的半自动Wrapper生成技术和工具,数字图书馆关键技术及其在生物信息学中的应用,39,接口层,Mediator层,Wrapper层,GenBank,SWISS-P

21、ROT,BLAST服务,PubMed,数字图书馆关键技术及其在生物信息学中的应用,40,本体和资源元数据,利用本体(ontology)提供领域知识,给出系统中各实体概念的定义和其间在语义上的联系,是同一领域内进行语义互操作的基础 本体已在生物信息学中得到应用。如GO(Gene Ontology)、TaO、RiboWeb、EcoCyc等 资源元数据包括了被集成信息源的URL地址、数据模式、功能、查询格式、访问代价等相关信息,包括了各数据源和mediator内部数据模式的映射,包括了各数据源元数据与本体的映射 本体相对稳定,资源元数据更改较频繁,映射提高了可扩展性,数字图书馆关键技术及其在生物信息

22、学中的应用,41,关键技术问题,生物信息学领域可伸缩、易扩展的信息集成和互操作体系结构 同时支持数据集成和服务集成的信息集成方法 生物信息学的互操作协议,包括用于语义互操作的本体以及集成技术; 适用于人类用户浏览和应用程序访问的统一访问接口技术,数字图书馆关键技术及其在生物信息学中的应用,42,该方法的技术特色,可伸缩的(scalable)体系结构,既保持原有资源继续提供服务,又能整合多个自治资源提供协同的服务; 可扩展的(extensible)集成模式,既充分利用现有的信息资源,并能有效整合今后不断出现的新兴资源; 综合的(comprehensive)集成能力,同时支持数据源集成和服务集成;

23、 一致的(coherent)访问接口,终端用户和应用程序可借助统一的访问接口利用集成的信息和相关服务。,数字图书馆关键技术及其在生物信息学中的应用,43,知识发现DNA Miner,从海量的生物数据库中发现有用的多次出现的模式是数据挖掘技术在生物信息学中应用的重要目标。挑战: 序列长,隐含其中待发掘的模式也很长 生物序列模式包含变异、插入和删除 DNA-Miner由集成的DNA数据库、模式发掘模块和用户界面三个部分组成 模式发掘模块完成三项功能: 发掘重复模式 一个DNA序列和模式的定义,找出该序列中所有(部分)满足定义的重复模式 发掘隐含的基序(potential motif) 找出数据库中所有满足定义的模式 基于对隐含基序的分类 利用发掘出来的隐含的基序建立分类规则、总结出主要的每类序列的主要特征和主要差异,便于对新基序的分析和归类,数字图书馆关键技术及其在生物信息学中的应用,44,结论,信息是重要的战略资源,需要充分地加以创造性的利用 Internet(WWW)建立了基本的信息发布机制,但缺乏合理的信息组织和管理机制 数字图书馆是一条解决上述问题的有效途径, 被认为是下一代Internet网上信息资源的管理模式 生物信息学是数字图书馆的一个重要应用领域 数字图书馆技术可以为生物信息学研究提供技术支持,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报