1、电子科技大学硕士学位论文医院信息化改造工程多维数据技术在医院信息化中的应用姓名:彭小菊申请学位级别:硕士专业:计算机技术指导教师:任立勇;刘继20060424摘要摘要随着医院信息系统()的迅速发展,医院积累了越来越多的数据,如何充分利用这些数据,从中获取有价值的信息,为医院管理提供准确的决策支持作用,这对医院信息化发展来说是至关重要的因此医院信息化发展所面临问题就是如何建立自己的信息仓库,有效存储和利用这些医疗数据,使之为医院管理服务本文在深入探讨数据仓库技术特别是联机分析处理()的基础上,通过对复杂的医疗活动的分析概括,提出了适合医院实际应用的一个专门的大型统一的数据存储集合,建立起基于多维
2、模型的医院主题数据仓库,以分析主题为基本框架来组织数据在建立数据仓库的过程中,融合了自下而上和自上而下两种设计方法的思想,以多维模型开发分析主题,确保快速实施,迅速获得投资回报,在取得实际效果的基础上,再逐渐增加应用主题,循序渐进,积累经验,由此逐步建成企业级数据仓库这种多维模型的优点是查询速度快,做报表也快;缺点是由于存在大量的预处理,其建模过程相对来说就比较慢当业务问题发生变化,原来的维不能满足要求时,需要增加新的维针对这一特点,文中讨论了发生变化后维度表的更新情况以及结合数据仓库的日常维护与查询需求,如何构造事实聚集表本文的重点是将关系型的或普通的数据进行多维数据存贮,这种多维被看作一个
3、超立方体,沿着各个维方向存贮数据,通过利用软件技术,允许用户沿事物的轴线方便地分析数据,提供了切片和切块旋转以及下钻卷坦等共享多维信息快速分析的操作,使非专业的分析人员能够迅速致交互地从各个方面观察信息,以深入理解数据,从而达到联机分析处理的目的系统在关系数据库中设计和实现,多维模型以星型结构组织存储在文章最后,运用所建模型对住院情况进行了举例分析关键词:数据仓库,多维分析,医院信息化蛆(),儿,舯,脏【,姗,行,(姐),【,曲,叩,“,廿掣,掣士,珊;协昏,咖,印孕【螂酗(酣饪盯瑚,矗,盯。,【:,】,独创性声明本人声明所星交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所
4、知,除了文中特别加以标注和致谢的地方外,论文中不包含其也人已经发表或撰写过的研究成果,也不包含为获德电子科技大学载其它教育机构的学位或证书丽使用过的材料。与我一尾王乍熬嗣志对本研究所墩麴任何贡献均已在论文中作了骧确豹说疆并表示谢意。:签名:受:!益舀期:上,一善年嗍埠磊关于论文使用授权的说明本学盘论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内蜜编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签
5、名:受:!:量导舞签名:强蘩:峁占第一章绪论。闰蘧的提出第一章绪论鼓致疼劐金韭,搜麓联枫事务处理)邀纾基露延务营理已繇鬻普遍,发展得比较成熟,并且 积累了大鬣的即时搿务处理数据。但是随鹫社会生产的复杂他和竞争的激烈化,决策风险越来越大,需要综合考虑的信息越来越复杂,并量,与己处瑾静僚息不霞,管理久员霈要静是可以用来进行战略决策的现成的信息。诸如未来一年里,投资煎点应该放在哪里?过去的一段瓣期里,哪一部分枣场蕊实际秘润其实缀低,痤当鸯诗划选逐步放弃?等锩这类问磁。我 们称之为战略信息,即制 订和执行商业战略和目标时滞要的信息。装珞售惫在金盈缀织瓣目露运俸孛鏊零不雳,馁帮笼蠢常处理酶傣惫重要褥多,
6、对于企业的生存和持续发展有非常重瓣的意义。战略信息必须具有综合性,有一个独立的、麸金敛熬傣来看浆视角;战略信息必须具有数据完整性,必须是准确的、符合商业规则;战略信怠必须是谶过直观方法容易获得的,对于分析工作怒有用的:战略信息必须是可靠的,对于每个商此信息都有且只有一个值;战臻僖息必缳爨有及辩魏,盛矮是程趣定霹瓣蠢准备努豹。以我所猩的医院为例,院内运行的系统有系统、财务臀理系统、库房物资管理系统、众自动生化梭查系统、超病例管理系统、体检管蠼系统等等,其中系统中存有年门诊、住院就诊瘸人的费黼、诊疗傣怠,财务系统先盾祷两三个管瑷软件,分别存有近年财务数据,全自动生化梭查系统有年的检奁数据,怒瘸潮管
7、溅系统嚣运行年,豁检管理软磐翼只蠢足令嚣。这些系绞备垂运行在互不相关的数据库中,数据量都以每天成百上千祭的速度增长,当积累到一定程度时,需要将数据从原有系统中备份并分割出来。这些系统有的是网络运行模式,青静还怒单辊管联模式,夏褥之闻难黻关联,除了霜于籀应静莓常渡务,基本不能再分析利用,要及时从中获得整个医院的综合全面的战略信息,几乎是不可越嚣。从以上的分析可以看出:一是有海量的数据,二是现有系统不能有效地将所电子科技大学硕士学位论文舂戆这些数援转铯戒奏震熬羧壤痿惑。操作型系统虽然重要,健在熬狭这类问题上显然力不从心。在中,对数据的分析汇总是以固定格式报擞来组织的,难以满足决策从多方位、多层次查
8、询分析数据的需要,即使是专业人员,深知数据库结构,通过书写复杂的查询分析语句,对大量数据进季亍关联计算也是比较困难和非常耗时的。与此间时,这样熬套诲分掇逐会导致正零豹零爱应逯镱甚至瘫痪。勇一方嚣。务令操作型系统只能程本系统中进行数据统计处理,跨平台、跨系统懿分析是菲鬻困难的。于是,用于辅助决策者决策的计算机信息系统联机分析系统()日益成熟起来。医院信悫化工作瑗状我阑医院信息化的 发展过程和现 状我重医浣烹凝叛接睾型系统为蔓兰。经过如下演变过稷”:早期静搽俸趱系统静特点。运行程操俸系统下,存在多争彼魏孤交豹信息系统,这些系统或者采用单机,戏者采用网络的服务器架构,使用无盘工作站,主干网络,舰模很
9、小,主要用于收费管理。中期的操作型系统的特点。运行谯以为主的图形操作系统下,集成了一憋缀本孤立的信怠菇统,但仍然存在肇 狱运亍的系统。槊构以鸯主,蠢鑫工终逮,运行客 户漆程彦。童于网络,规模中等,系 统以资金流为主线,增加了对病人的药品信息和诊治情况记录,存储了部分痫人档案和临床资料,主要是文字类倍恿。现在要求的攥作型系统的特点;跨平台,多层架构,瘦客户端,图形化操作,予兆主于网络,嫂模较大。系统有机集戏临床医疗和医院管理的诸多功能,处理静鼗蕹嚣筵理方法淘多元证发震,瓣多维鼗据存镳爨爨了要隶。我国县级以上医疗单位普遍爵建立起操作型系统,并且积累了数年历史数据。起步较早的经历了以上演变过襁的全部
10、,可能已商三种系统平台下生成的数据,存在着历史数据整合的需求。竞争提出了战略分析的要求。夔羞我国获黪髂翱改革夔不戮深入,久襄嚣莲疗水平静要求不蒙舞蹇,菠鏊第一章绪论正在囊“渡痍久麓中心”夔经营攘式转变,澈燕戆竞争,瓣基浣蠹蘩管理蒎囊了严格的要求。医院对数据进行多方灏麓杂查询统计的需求越来越迫切。对数据的鸯询鼹求跨平台,要求访问历史数据,要求从多个方面考察,鬻求连续访问多年的数据。这些都是操作型限于本身特点,不能达到的。国夕、医院信息管理情凝信息管理系统在医疗卫生行业傣感化建设发达的国家(如美国、日本等)已有多年的应用经验 ,基础信息化工程己较成熟,收费系统、医技影像系 统样都已建成,医生站、护
11、士站已投入使用,整个医院管理基本成熟,全医院范围覆盖的医生、护士移动绺公是现在研究试用的主要目标。可分为以下几个方面阐述:。关手毫予瘸获在国外构建上多采用以问蹶为中心的病历描述格式,即形式。在病程事件描述上分为主观查体()、客观查体()、评估()、计划(),采取了数据结构化和自然语的录入方式,这样为今螽豹辩磷、查谗统诗打下了熬磷。在电子病历巾除了调阅捡验摄卷、影像资籽努,还可骧漾啻,逶孬蓬像翠缓等, 这样大大遮誊鬻了电子病历蕊肉濑。同时,在电子病例中具有初步的专家镭能系统,提供了临床决策支持。在关键词和医疗数据标准化程度高,使用的题国际系统医学术语()。数据库设计关系型数据黪懑不矮子医浣警理,
12、豢鳖麴多绫数豢黪糁麓是已残爻墓器耘壤孵技术中采糟的良树型结擒的数缀为基础静多维数据模型,可以更好和受鑫然地表示出医疗领域中大量的复杂数据关系,并且能够利用它的树型结构快速地进行检索查询。荧豳公司于年推出的数据库,超越了传统关系数据库的岗限,在或,环境下僚务关键和突发大负载的惦况下,具存猿姆怒爨翡裹瞧应速率特毪、裹废灵活豹疆枣绫牲缝、衰强壤驳枫处理能力。嚣速成 为世赛上许多国家在医疗领域审袋优先采用的圭浚数据库。无线网络技术的应用在医生和护士工馋站,已经进行试镡阶段,合理设鼹滗线接入点(),采薅笔记本毫麓秘转。电子科技大学硕士学位论文库存管理体现了现代物流管理上的思想理念,注重流程的管理,支持网
13、络式库位分布,可根据实际需求自动产生订单,而且能够与物流配送体系进行紧密的连接。本项目主体五医院的大致情况年建设起医院管理信息系统,该系统运行在操作系统下,架构,服务器运行,管理系统包括病案与统计,门诊、住院收费,药品管理, 护理医嘱和医技记帐。到年,投资更换医院管理系统,新系统的架构与原系统基本相同,只是操作系统升级为,除原有功能外,增加了几乎所有临床信息管理系统,现正在实施中。医院实际运行着两套医院管理系统,门诊部分使用新的程序,药品管理同时并行新、老程序,住院部分、医技部分运行着老程序。其中老程序中积累了年的基础数据,约余个。新系统刚运行不久,约。财务管理系统、库房物资管理系统、全自动生
14、化检查系统、超病例管理系统、体 检管理系统、病历质量评分等都在单机模式下运行,数据分别以几种常用数据库组织存储。历史数据难以得到应用。分析查询基本处于半手工模式。本文的主要工作本论文在讨论有关数据仓库和的相关理论的基础上,通过对医院管理和复杂的医疗活动的整理研究,以分析主题为基本框架来重新组织现有的医院管理系统积累的大量数据,并结合医院管理中较新的病例分型理论和绩效控制思想,利用技术较成功地实现了医院管理中复杂的质量费用监控和效益分析,并且提出了将质量费用控制标准用于业务系统,有效地实现过程控制的方法。本文属于工程设计,独立完成了医院主题数据仓库系统的结构设计、数据建模、数据准备以及建立使用的
15、工作。完成的主要工作有:提出医院决策支持系统的体系结构,建立了主题数据仓库。将两个历史阶段的系统、新上的系统、单机的检验报告、超报告、报告、病理图文报告等医技信息,基于的人事工资、设备管理、物资消耗等管理信息,有机地整合到一起,并通过,向医院决策者、各管理职能第一章绪论帮门鬏导等叛蒺广大菲强久强供了方寝易爱戆查询环境。讨论了维 度袭的更薪的几种常觅情况,给出了维浚维护的方法。讨论了维度表发生变化后缎裘与数据立方体的增量维护策略。结合实际应用,通过比较尝试,提出了医院成用中的数据聚集方粲。分析医院信息系统及数据间的斑在联系,结合医游管理的新方法一瘸例分受方法,提逡未爱熬缍度蒺鍪。 奔绍了将多 维
16、数据库技术廒掰于医院进行费餍羧涮、质量监控醚 及绩效考核的实践。电子科技大学硕士学位论文数据仓库的定义第二章基础理论分析腻功簸上下的定义“:数撂仓瘁麓一停信息环境,它麓够:提供对众业的综合而且完整的概括:使决策所需要的当前数据和历史数据都方便易得;无需妨碍操作型系统,就能党成支持决策的的处理;楚金夔戆售怠保持一致往;提供了一个灵活静、交互豹战咯信息来滦。从这个定义可以看出,数据仓库怒信息传递的一种简单概念,是一种环境而不是产品,其中包含多种技术。一位数据仓库的开拓者下的定义:数据仓库中的数撰怒:铰就分蔫;可利用的;综合的;包含时间标记的:面向主题豹;荔失嬖妻戆();能访问的。数据仓库的组成热图
17、一。繇零为数据仓库各个功戆块或组释。图中显示了一个典型豹数据仓露瓣基本维成部分。左边楚源数据部分紧接着是数据准备部分。中间是数据存储部分,它管理数据仓库的全部数据。这个部分不仅存储和管理数据,而且还保存了元数据的信息。而图的右边是信息传递部分有很多的方法来让人们使用数据仓库提供的信息。第二章基础理论分析;熬援争臻口耋目。,。源数撰部分图数据仓库的组成分为 个主要豹类割。、生产数据。这个种类的数据来源于企业的释种操作型系统,可能有很多不蠲静数据格式,存德在缀多不鬻戆硬徉平台主,支持这些数据懿受可旋是不强弱数据库系统或操作系统。将这魑数据进行标准化,并转化、整含成数据仓库可以存储的有用数据怒非常颓
18、璞的。、内部数据。用户自己的电子表格、文档、客房信息等就是内部数据。这其中往往包含详细的销售信息或顾客档案,对于公司有着非常重骤的意义。内部数据增麓歹数据转换耧整会过程戆复杂挂。、存档数据。操作型系统总是要定期将旧数据存储到存档文件中,这些存档文辞耱在萃独鹃数器露中,琢能在磁盘上豹菜令颊文串,还裔冒熊在磁带竣者显微胶片里。数据仓库成该包括足够的历史数据,这种数据对识别顾咎消费模式和分析趋势常有用。、外瓤数据。来源于外界豹本行业统计数据、政策法规、财政指标甚至觉争者的相关数据。这部分数据占决策时所需要的信息中的绝大部分,它怒内部数据无法替代鑫擘。逶露努部数据与凑部数摅鹃掺式是不溺豹,需要缀缓好多
19、嫠数撵豹圈电予科技大学硕士学位论文传输和转换。数据灌瞽部分主要指数据存德豹凇鍪。从数据源键到数摄后,嚣簧对这个数据进行修改釉转换,弗以适合谴询和分析的格式进行存储。为了准备好数据,有三个主要的王于程序要完成。数据准锯提供了对这些数据进行演洗、修改、组合、转换、恢熨和存储淄数据的场所,使它们可以供数器仓库使用。、数据抽墩。针对多个数据源。对每一个数据源郝要使用会适的技术。市场上关于数据抽取的工具旃很多,也可以根据需瑟自己开发程序来完成数据抽取工作。一般是将数据源抽取到一个独立的物理环境里,这样容易将数据转移到数据仓库中。、数据转换 。是非常重要的工作稷序,也是非常具有挑战生的工作,在此过程中,裔
20、凡个单独的步骤。第一、要对每一个不同的来源数据进行清洗。清洗的过程要更正镄误,检查编码或聪缩格式矛盾,充遗失数据静狱认值,排除祆多个数糖源获取司一个数值时出现的重复等。第二、对数据元素滋彳亍标稳纯处理。如数攒类型标准纯,来自不丽数据源瓣相同数据元素的长度标准化,语义标准化。第三,缝合觚不同数据滚爨取静数据。要灞涂没麓蠲静源数据,势将源数据进行新的组合,对数据分类和聚类。、数据装载 。这部分工俸蠡;两个不鬻懿任务组成。个是袋初嚣、大量原始数据装载,另一个是定期地提取源数据变动,存入正在正作的数据仓库中。如图繇示必鼗撵装载。数据存健部分数据仓库的数据存储通常都是与操作型系统的数据存储分离的。数据仓
21、库中鹣数据健表着过去某个特定露闯段耱清溅,褶辩于搡佟鳖系统鹣数据魄较稳定,不能进行随时的更新,从这个角度一般说数据仓库是“只读”的。数据仓库中的数据必须楚开放靛,帮辩不蓠熬数据仓痒工买开放,缀多数据仓痒篌嗣多维豹数据库管理系统。第二章基礁璇论分辑信息传递 部分图数据装载与更新数据瞧瘴使用数据仓库静人群将是十分广泛静,多数是没有数据库知识静菲人士,他们隳在数据仓库中畅游,得到有用的数据,定制查询,跨越各个数据朕,创建鼹户缀表,多撵纯、多元纯鹣痿怠耱递鬻蓑要。磐辫蕊示为豢冕鹣售塞传程钱巍豁蜡辩裙蘸穰子簿俸”。特嚣;搬是。、一一爱袋瀚谢一,。丽,。,一一“,一;:链;签筑廊蕊幕一、墓黎篷絮图 数据仓
22、库的信息传递溯赫纛瓣黼删麟圈电子秘接大擎琰七擎整适文递组件。元数据部分数据仓瘁的元数据与数据库餐理系统中的数据字典相似。数据字典识含豹是关予数据库中数据本身信患的数攒,类戗静,元数掭落是数据仓库中数镶本身信息的数据。管理和控嗣部分管理和控制部分对数据仓库巾约服务和活动起协调作用,窀控制了数据转换和将数据装载到存储器盼工作,并协调向藤户的信惑传递,它与数据库管理系统一越工作,使数据能够正确存储,并监视数据进入准备区及从准备区传输到存储嚣鑫冬过程。餐毽霹控铡帮分与元数撵部分一起工终,执牙警瑗嚣控巷夔凌戆。嚣为元数据部分包含了有关数据仓库自身的数据,所以也就成了管理模块的数据来源。数据仓库中的从菜秘
23、意义来说,楚数据仓瘴戆售患簧递系统”,数据会瘁存辖鼗撂并为用户提供对数据的简单访问,系统将信息的传送能力提到新的高度,因丽又是数据仓库的一个补充。多维分析的起源(联机分板处理),这个术语首先被提出是在年,一篇题凳为分析员用户提供联枫分析的论文中,文章的作者是藉名的关系数据库之父,论文中还秀毛系统定义 了条麓耀。的定义由委员 会给出的定义是:一种软件技术,它使分析员、经理和主管第二章基戳壤论努辑人员能够通过快速的、致的和交互式的访问来获取并理解各种可能的信息视图鲍数据,这些信息由原始数据转换恧残,麓来反映一个企业实塔静缍度。这个定义包含了所脊的关键闲素:速度、一致佼、交互式访问、多维视图。的条规
24、刚羚,。于掇出豹袋援则成海了德量工其和产品的准绳,这条规则是:多维概念的视网。能够提供一个直观分析的、易于使用的多维的数据模型。霞兔款本壤土焉户看金鼗瓣角度藏楚多维豹,掰淤多缭数据模型符合矮户认识行业问题的方式。透明发。让技术、后台的数据存毯撵、 计算体系结构穰元数据的不同本质全部时用户透嘲。这种透明度支持凑正的开放系统方法,有助予通过一些用户熟悉的前静工具来提高用户的工作效率和生产率。霹谤、藤洼。只建矮产访耀在撬孬一个特写熬分辑过程孛实嚣器要戆蒸些数据,并向用户鼹示单一的、一致的和连贯的视图系统必须将它自已的逻辑视图映射到各种类型的物理数据存储器,并且对视图进行任何有必要的转换。一致的报表性
25、能偻维度的数量或数据库的容鬣增加了的时候,要确保用户夔掇浚淫戆不会大大戆黪低。在每次运行一个特定夔豢谗嚣,必须诖矮户感觉刹一致的邂行时间、响应时间绒机器的使用性能。客户一服务器体系结构。为了使系统具有优化的性能、灵活性、适应性和协露工作箍力,就必须诖系统遵守客户一撩务器静原煲。同薅褒螫使服务器组件拥有足够的智能,以花费最小的精力和装上最小的综合程序就能使荟秘密户援连接上鞭务爨。等价的维度。确保每个数据维度在结构和操伟性能上都蹙等价的。用一个逻辑结构适应所有的维魔,而且这个基本数撼结构或访问技术不能偏向任餐一个数据缍癀。动态稀疏矩阵的处理创建和加载一个特写的分析模型,用来 优化稀疏矩阵处理并使物
26、理携罂适应这个模型。娄系统遇到一个稀巯矩薄对,它必须熊够动态地演绎融该矩阵的数据颁谲整存储器的结构和通过访问来取得并电子科技大学硕士学位论文缍持一致豹魏辘。支持多震户。支持终端用户在凝傀稽目的分析模型巾并发地工作,也支持他们根据栩同的数据来并发地创建不同的模型。为用户提供并发数据访问、数据究艇性保障和访问安全。无限制的跨维度操作。让系统熊够辨别维度的层次,并在一个维度中或跨维度自动执行下链零攘摇纯懿搽謦。在忽噻了每令数攥单元豹逶曩数撂灏往的数量黔璃凝下,使接口语蠢麓够让用户跨越任德数据维度进行诗嚣霸数据操作,而且不限制数据单元之间的任何关系。直观的数据操作。允许用户能够崴观地完成合并路径的旋转
27、、下钻、概括化和其他的操作,也允许用户在分析模型的数据单元上进行单击选项和拖拉等动佟。鬃避免在翅户爨瑟审嫂建菜单或者多令谤闯终径。灵活耱撮裘。使巍监霹户麓够潋一定方式安捧疑、行帮单元,这样将窍稚于用户进行简单的操作、分析和信息的综合等。包禽任何子集的每个维发也要能容易地显示出来。无限的维度朔聚集层次。在一个通用的分析模型里最少要能容纳个数撂维,能够褰缀拿更好。任褥维疫在任一给定静合并爨径中都瘦允诲薅户叁己定义无限多瑟静聚集。除了上述条媲则外,用户还应该考虑下面的这些需求。没有。在论文中上述条中明确地提出来。下钻到细节层次。允许多维的预聚集的数据库平滑地转换到源数据存储席的维节记录。劳耩模整。支
28、葑嚣。熬毒个分耨摸型:注 释黪一嚣或叙述的)、分炎的(或说明的)、计划的和公式的。非标准化数据的处理。一禁止在普冷囝一系统内运行的计算影响到外部源数据。存储终果。不要将具有翟搽作毙力的工具配置在交易系统戆读溃。遗失值。可默忽略遗失值,无论它们是仟么来源。数据库增量更新。对抽取来的、聚集的数据行增量刷新操作。接口。使系统无缝地融入到 现有的企业环境中。的基本特点第二章基础理论分析使主管人员、经理能够更深入地了解数据的显示方法;能够沿着几个维度重新构造指标,并允许用户从不同的角度来查看数据;支持多维分析;能够在每个维度进行下钻和卷起的操作;能够在测量中应用数学公式和计算;能够对分析做出快速的反应,
29、提供边思考边分析的方式;与其他信息传递技术,例如数据挖掘等互补;通过使用图像和表格来实现可视化的表现形式,使用户能够更直观地理解结果集的含义;能够在上运行;能够实现交互式分析。的五大特征快速性()用户对的快速反应能力有很高的要求。系统应能在秒内对用户的大部分分析要求做出反应。如果终端用户在秒内没有得到系统响应就会变得烦躁不安,思维不能集中,因而可能失去分析的主线索,影响分析质量。对于大量的数据分析,要达到这个速度十分困难,因此就更需要一些技术上的支持,诸如专门的数据存储格式、大理的事先计算、特别是硬件设计等。可分析性()系统应能处理与应用有关的任何逻辑分析和统计分析、报表处理等功能。此外,的基
30、本分析操作有切片()、切块()、下钻()、卷取(一)、旋转 ()系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事先编程,但并不意味着系统已经定好了所有的应用。用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、成本分配工具、意外报警、数据开采等。多维性()电子科技大学硕士学位论文多维性是的核心。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有效的方法,是的灵魂。信息性。罩)不论数据量多大,也不管数据存语茬葡若
31、一心乇系统应能及时获得信息并且管理大容量信息。这里面许多问题需要考虑,如数据的可复制性、可利用的硬盘空间、产品的性能及与数据仓库的结合度等。共享性()这是指系统应有很高的安全性,能够正确处理同步与互关系。例如,当多个用户同时向服务器写数据时,系统应能在适当的粒度级别上添加更新锁。的这五个特征从另一个角度定义了应用系统的概念。相关的基本概念变量:变量中数据的实际意义,即描述数据“是什么?”。一般情况下,变量总是一个数值度量指标。例如:“项目数”、“评分”、“基金总额”等都是变量,而“ ”则是变量的一个值。维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(如时间维)。维的层
32、次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面我们称这多个描述方面为维的层次。一个维往往具有多个层次,例如,描述时间的维的层次可以是年、月、日、季度、星期等。维成员:维的一个取值。如果一个维是多层次的,那么这个维的维成员是在不同维层次的取值的组合。对应一个数据项来说,维成员是数据项在某维中位置的描述。例:“某年某月某日”的门诊量,“某年某月某日”是访问量数据在时间维上位置的描述。多维数组:维的变量的组合表示。一个多维数组可以表示为:(维, 维 ,维,变量)。例:(时间,科 别,药品,收入)。数据单元(单元格):多维数组的取值当多维数组的各个维都选中一个维成员,这
33、些维成员的组合就唯一确定了一个变量的值,例如:(年月,第二:二章基硪瓒论分析内科,阿莫林胶囊,)。维度分掇:麸一个楚荸豹镶予署始。(薅阕,瘸耱,医垒,门渗入次),这是一个三维的模型,有三个商业维度,分别是时间、病种、医生,度量值为门诊人次,也就是上面基本概念中说到的变量。图为攫型模式的示意图。图 星型模型端坐标表示三个维发之闻的燹纯关系,用辘表示霄闻,辘表示瘸释,轴袭示医生,即得到“医生、病种、 时间”三维立方体,如图所示。癀斡感蒙腹滠螂始孵蛹毕垂立方体从这个立方体图上,很容易理解的多维数据操作。甥片和切块:在多缎数组熬巢一维上选定一维或爨豹动终成麓切片,选定菜一区间的维成员的动作成为切块:或
34、者说在多维数据结构中,按二维进行切片,按三维谶行切块,可得到所孺要的数据。从另一个角度讲,切块可以看成是猩切片的毫予辩技大学霉学爱论文撼础上进一步确定各个维成员的区间得到的片断体,也即由多个切片热合起来。魏在“医囊、痣静、糖阙”三终立方髂中送嚣切块敷韬片,爵缮囊各鼷生、各痰种的门诊情况。分析示意见图 。卣够图切片和切块操作切片积切块的作用或结果就是舍弃一些观察角度,使人们能在两、三个维上集中观察数据。西为人的空闯戆象能力华竟有限,一般根难戆象到霞维以上酶空间结构。所以对于维数较多的多维数据空间,数据切片和切块是十分脊意义的。链取:键取包含两下链取(妇潮)秘囱上镳取(滂土撩(勋驻国操作(图)。下
35、钻怒指用户从某一个粒度比较大的数据出发,去考察分析与这一数据有关的,粒度比该数据小灼数据。上钻跟下钻刚好相反,是用户从粒度比较,、豌数据国发,去考察与它 稳关兹、粒度眈它大斡数据。旗瑕翡深度与维魇翻分的层次相对应。可以看出,下钻是一个由总及细的过程,而上钻是一个由细及总匏过程。按融问德离节础教龇门轴链门箍部门口年部门荤摩攀摩垂帝番席瓤门粕鲁九按时间缝离上钻教圈上 锚和下钴操作旋转:旋转是在谶行切片或切块后形成的报告和页面上,改变其显示的维方第二章基确遴论努褥向。通过旋转可以得到不同视角的数据(图)。辨基蕺矾门难庸垂麻垂席箍摩垂庸垂膏,蒜席荤席哉门越门曲趣垂庸,垂帝擞摩蠡痔豁一鹌垂药撺 辑墨辨螂
36、蕊门韶门龆,圈旋转操终超立方体:立方体比较容易理解,它只有三个维度,是我们直观容易想象的。实舔褒整模黧中,维凌空阉往往蹩大予三维翡,镶懿,莺家曼生售患痰病统诗:(时间,病种,城市,病人特征,病例数),这是一个四维模型,无法用立方体可视化表示,一些专家引入了多维域结构(),剩月可将这个四维模溅表示为图。圈一这种纛观的显示就是一个越立方体。超立方体楚对多维数据的表示方法的一个普通的比喻。模型:按存储实现方式不同,可以分 为三类:,关系型联机分析处理,依赖于现有的数据仓库的关系数据库管理系统,冀特往是在关系数据痒戆譬景下撵供静,联有豹数撂赘是教嚣和剁的关系形式来存储的。为了向用户隐藏该模型的存储结构并能多缎地显示数电子科技大学硕士学位论文攥,己朝建了元鼗蠢瑶,元数嚣层支持莰维度鬟关系表戆获袈,鸯麓元数据还支持概括秘聚集。的体系结构可分为三鼷,数据层、应用鼷和表示层,在应用屎中的分析服务器在工作中创建了多维视图,在表示层中的多维系统为用户提供一个多维的数据视图,当用户基于这个多维视图发出复杂查询请求对,查询被转换贼复杂的 语匈传给关系数据库,在中,不能镁建蠢绦持静态多绦缍掏。蒺壅鎏示(鹜一)。愚图模型,多维联机分析处理,多维地存储数据,熊更好地实现联机分析处理。其数据结构怒固定豹,数便矮卷处理多维分拆斡逻蜓,能够班建立数攥存髓坐标静方法瓷基勰。在己中,要分析酶数摇存继