1、第二章 医学数据分类、编码系统和医学信息标准,背 景,-美国、英国、加拿大要建全民电子健康记录。-我国要建全民健康档案Electronic Health Record,EHR HER要在全国通用,必须实现标准化。,没有信息标准化,任何软件产品大范围的推广都有困难,不同部门之间的信息交换也存在困难。实现跨区域的电子医疗系统尤其困难。,第一节 信息标准化的定义与特点,(一)信息标准化的定义:(1)狭义:信息表达上的标准化,在一定范围内能共同遵从和使用的对某类、某些、某个客体抽象的描述与表达。(2)广义:涉及信息元素的表达,信息处理,信息传输与通信,信息加工流程,信息处理技术与方法,信息处理设备等。
2、,信息表达: 信息表达类标准化。 如: ICD10:疾病分类编码系统 CPT4:临床操作与服务的分类编码与术语体系 SNOMED:人医和兽医系统命名法,信息交换: 目的是实现不同系统之间、不同部门、企业之间的信息共享。 更注重信息的格式,与是什么内容无关,但要求接收方和发送方对内容有一致的理解。,三个标准:HL7:医疗卫生信息交换标准。规定当一个事件发生时,用何种方式将信息传递给需要信息的一方。XML:互联网信息交换标准。W3C1998年发布。DICOM:医学影像数据存贮和交换标准。,信息的处理与流程:信息处理流程标准化和规范化。如:如我国财务电算化;美国病人分类系统。,(二)信息标准化的特点
3、明确的域:需要进行标准化的对象构成的域必须是明确的,能够很清晰地判断什么属于该域,什么不属于该域。 域的定义与应用范围有关,因为用途和目的不同,同一客体的信息学属性便不同。 举例:药物的属性(p13),根据药物的不同使用目的来定义不同的属性。,唯一性:无论是一个客体还是一组客体,在标准化代码中都应该有而且仅有一个确定的代码与其对应。同一客体有多个编码会引起信息表达和信息交换中的混乱。完整性:编码应完整地表达客体信息。因为编码用途和分类不同,往往采用“收容组”来实现,即在编码中设置其他类别的编码,实现一码多用。面对比较复杂的客体,一码多用也不适用,这时还需要两个以上的编码,并且使用特殊标志进行说
4、明,如卫氏并殖吸虫病(p13)。,(二)信息标准化的特点,(二)信息标准化的特点,权威性: 信息标准化最终要形成文本,在一定范围内得到认可和广泛应用,才能真正成为标准。要做到这一点,必须具有权威性。其制定和颁布要有主管部门负责完成,并在一定范围内强制执行。,(三)、元数据(Meta Data)与数据元(Data Element)元数据:关于数据的数据。是对信息资源的规范化描述,它是按照一定的标准,从信息资源中抽取相应的特征,组成的特征元素集合。,元数据内容标准:包括描述一个具体对象时所需要的数据项集合、各数据项语义定义、著录规则、计算机应用时的语法规定等。元数据内容:一般包括标示信息、数据质量
5、信息、内容信息、发行信息、元数据参考信息、联系信息等。,制定元数据标准的意义: 提高数据库建库质量,使数据加工达到规范化、标准化,促进科学数据的标准化,加强数据交流与共享。,数据元:又称数据元素,是用一组属性描述定义、标识、表示以及允许值的数据单元。一般认为是不可再分的最小数据单元。用于构建一个无歧义的、具有特定概念语义的信息单元。,组成数据元的三个部分:(1)对象类:思想、概念或真实世界中的事物集合,他们具有清晰的边界和含义,其特征和行为遵循同样的规则。是人们希望对其进行研究,并收集和存储他们相关的事物,如:汽车、人、订单。,组成数据元的三个部分:(2)特性:见书,(3)表示:表达数据的方式
6、。表示与数据元的值域有密切的关系。数据元的值域是该数据元所有允许值的集合。P14。数据元概念:对象类 + 特性数据元:数据元概念 + 表示,数据元的结构模型,第二节 数据分类与编码的基本原则与方法,信息表达的标准化编码,可以按很多不同的轴向分类,不同层次和类别的标准用途不同。 两种编码方法: 命名法:以具体事物为对象,每一个事物对应一个唯一的、确切的代码与名称。 分类法:仅仅把具体对象分类,然后给每一类事物以确切的编码。如ICD-10,一组病对应一个码。,一、数据分类与编码的定义数据分类:根据数据的属性或特征,将分类对象按一定的原则和方法进行区分和分类,并建立起一定的分类体系和排列顺序的过程。
7、数据分类的两个要素:分类对象和分类依据。分类对象由一系列被分类的数据组成。,数据编码:将需要编码的对象赋予具有一定规律、易于计算机和人类识别、处理的符号,并形成对应的代码表的过程。数据编码的四个要素:编码对象、数据表达成代码的方法、数据的代码表示形式、代码表。p16,二、数据分类的基本原则数据分类应遵循科学性、系统性、可扩展性、兼容性、综合实用性等基本原则。科学性:p16系统性:可扩展性和可维护性:实用性:,三、数据分类的基本方法线分类法、面分类法、混合分类法(一)线分类法:将分类对象所选定若干属性(或特征)逐次地分成相应的若干个层级的类目,并排成一个有层次的、逐渐展开的分类体系。,表 2-1
8、 线分类法示例,线分类法的优点: 层次性好,能较好地反映类目之间的逻辑关系;实用方便,既符合手工习惯,又便于计算机处理。线分类法的缺点:结构弹性较差,分类结构一经确定,不易改动;效率较低,当分类层次较多时,代码位数较长。举例:WS/T8-1999,表2-1。p17,(二)面分类法 将所选的分类对象的若干属性或特征视为若干个“面”,每个“面”中又可分成若干个彼此独立的若干个类目。可以将这些“面”中的类目结合在一起,形成一个复合类目。,面分类法的优点:具有较大的弹性,一个面内类目的改变,不会影响其它的面;适应性强,可根据需要组成任何类目,便于机器处理;易于添加和修改。面分类法的缺点:不能充分利用容
9、量,可组配的类目很多,但有时实际应用的类目不多;手工处理困难。,表 2-2 面分类法示例,使用面分类法的4点要求:p18。,(三)混合分类法 面分类法和线分类法集合使用,以其中一种为主。 举例:,表 2-3 混合分类法示例,四、代码类型的划分,表 2-4 缩写码示例,(1)有含义代码1、缩写码:按统一的方法缩写编码对象的名称,由取自编码对象名称中的一个或多个字符组成。优点:易记;压缩数据长度。缺点:以来表示方法,重码;稳定性差。,2、层次码编码方法:以编码对象集合中的层级分类为基础,将编码对象编码成连续并且递增的组(类)。 适用于分类和统计。 优点和缺点:p20 举例:表2-5,第一层大类,第
10、二层小类,第三层更小类,表2-5 固定递增码示例(学科分类码),3、矩阵码:以复式记录表的实体为基础,赋予这个表中行和列相关坐标上编码对象一定的代码值。目的是为矩阵表中的标码对象赋予有意义的代码,这些编码对象在不同的组合中具有若干共同特性。特别适用于具有良好结构和稳定特性的编码对象。 优点和缺点:p20 举例:区位码,4、并置码:由一些代码段组成的复合代码,这些代码段描绘了编码对象的特性,这些特性是相互独立的,代码段的编码方式可以是任意类型。 适用范围:p21 优点和缺点: 举例:轨道编码,5、组合编码:若干代码段组成的复合代码,描绘编码对象的不同特性,这些特性相互依赖并且具有层次关联。 适用
11、于标识目的。 优点和缺点:p21 举例:身份证,表2-6,表 2-6 组合码示例,(二)无含义代码p22231、顺序码: 顺序码编码方法是从一个有序的字符集合中顺序地取出字符分配给各个编码对象。(1)递增顺序码(2)序列顺序码(3)约定顺序码,表2-7 递增顺序码示例,(1)递增顺序码编码方法:编码对象被赋予的代码值,可由预定数字递增决定。 优点:能快速赋予代码值;简明;编码表达式容易确认。 缺点:编码对象的分类或分组不能由编码表达式来决定;不能充分利用最大容量。,(2)系列顺序码编码方法:这种方法首先要确定编码对象的类别,按各个类别确定它们的代码取值范围,然后在各类别代码取值范围内对编码对象顺序地赋予代码值。 优点:能快速地赋予代码值;简明;编码表达式容易确认。 缺点:不能充分利用最大容量。,表 2-8 约定顺序码示例,(3)约定顺序编码方法:在全体编码对象预先知道,编码对象集合不会扩展的情况下使用的顺序码编码方法,编码对象按某种特性进行排列。 优点:能快速地赋予代码值;简明;编码表达式容易确认。 缺点:不能充分利用最大容量;无法扩展。,