1、计算机中的信息表达,数与信息关系 计算机的数制 数制转换和运算 计算机数的表示法 计算机的信息编码,数与信息的关系 电子计算机是一种能对数字进行运算和处理的电子设备。 通常,在计算机 中 , 数 字 是 以 一 串 “0” 或 “1”的二进制代码来表示的,这是一种计算机唯一能识别的机器语言。,信息必须转化成二进制代码来表示 也就是说,所有需要计算机加以处理的数、字字母、文字、图形、图象、声音等信息以及控制操作等命令(人读数据)都必须采用二进制编码(机读数据)来表示和处理 。,信息的输入、处理和输出的转换 人们输入到计算机中的各种信息,都要 通过系统自动转换成计算机能处理的二 进制数,处理完成后
2、,系统把这些处理 过的二进制数再自动还原成各种信息。 如 输 入 处 理 输 出 (多类型信息1) (二进制) (多类型信息2),采用二进制的原因,可 行 性二进制只有0和1两个基本数字,可以用一种具有两种稳定状态的元件就能表示,这在电学技术上实现最为容易。例如,电灯的开和关元件;晶体管的导通和截止元件等;若使用十进制数,则需找出具有十个稳定状态的元件,很困难。,简 易 性二进制算术运算法则简单,可使计算机结构(主要是运算器和控制器)简化。逻 辑 性由于二进制数只有0,1两个数码,可以代表逻辑代数中的“假”和“真”。在分析和设计计算机时,可以采用逻辑代数,提高了速度和增加了可靠性。 节省设备虽
3、然二进制写起来较长,但每位设备只需两个状态。,计算机的数制,进位计数制 概 述 按进位的方法进行计数,称为进位计数制。也就是 数字累计到最大计数(进制数)时,数码长度就增加一位或数码高位数值增 1。 例如:进位计数制(十进制),由 0 依次增加数值 1, 分别为1,2,3,4,5,6,7,8,9, 再增加 1, 就为 10,这时, 数码长度由12 ;或29 ,再增加 1,就变为 30了, 即最高位由23。 日常生活中最常用的是十进制、十二进制、六十进制,而计算机中最常用的是二进制、八进制和十六进制。,数制中常用名词 基数 (K) 是最大进位数(进制数),例如:十进制基数为10; 六十进制(时间
4、)的基数为60等,常用 k 表示。 系数 (m) 每个数位上的值,取值范围0k-1, 常用 m 表示例如: 234 百位系数为2,十位系数3,个位系数4。 位数 (n) 各种进制数的数的个数。例如: 十进制数 234 的位数为3;二进制数 11010011 的位数为 8。 数(N)的表示,二进制数(Binary number) 特 点 数字串中只有两个不同的数码,“0”和“1” 也就是系数 m 只能为 0 或 1。 逢“二”进位的。也就是基数 K=2 。例如:十进制 1+1 =2; 2+1=3; 3+1=4; 可是 二进制 1+1 =10;10+1=11;11+1=100,二进制数转换成十进制
5、数,八进制数(Octal number) 特 点 数字串中有八个不同的数码,即 0,1,2,3,4,5,6,7 也就是系数 m 只能为 07中的数字。 逢“八”进位的。 也就是基数 K=8 。例如:十进制 1+7=8; 9+7=16;17+7=24; 可是 八进制 1+7=10;11+7=20;21+7=30;,八进制数转换成十进制数,十六进制数(Hexadecimal number) 特 点 数字串中有十六个不同的数码,即 0 9,A, B, C,D,F,注意:AF 相当于十进制的 1015, 也就是系数 m 只能为 0F中的数字。 逢“十六”进位的。也就是基数 K=16。 例如:十进制 1
6、+9 =10; 11+5=16; 7+15=32 可是 十六进制 1+9 =A; B+5=10; 11+F=20;,十六进制数转换成十进制数,二、八、十六进制与十进制数的对照表,十,进,制,二,进,制,八,进,制,十,六,进,制,0,0,0,0,1,1,1,1,2,1,0,2,2,3,1,1,3,3,4,1,0,0,4,4,5,1,0,1,5,5,6,1,1,0,6,6,7,1,1,1,7,7,8,1,0,0,0,1,0,8,9,1,0,0,1,1,1,9,1,0,1,0,1,0,1,2,A,1,1,1,0,1,1,1,3,B,1,2,1,1,0,0,1,4,C,1,3,1,1,0,1,1,5
7、,D,1,4,1,1,1,0,1,6,E,1,5,1,1,1,1,1,7,F,1,6,1,0,0,0,0,2,0,1,0,数制转换和运算,数制转换 二、八、十六进制 十进制如前所述,在此略 十进制 二、八、十六进制 整数转换为除模取余;小数转换为乘模取整; 二进制、八进制、十六进制的模分别为2,8,16;,除2取余 余 数 整 数 乘2取整 2 |2 3 7 1 0. 6 2 52 |1 1 8 0 取 22 |5 9 1 1 1. 2 5 0 2 |2 9 1 值 0. 2 52 |1 4 0 22 | 7 1 方 0 0. 5 0 2 | 3 1 22 | 1 1 向 1 1. 00,除8
8、取余 余 数 整 数 乘8取整8 |2 3 7 5 取 0. 6 2 58 |2 9 5 值 88 | 3 3 方 5 5. 0 0 00 向,除16取余 余 数 整 数 乘16取整16 |2 3 7 D (13) 取 0. 6 2 516 |1 4 E (14) 值 1 6 0 方 A 10. 0 0 0 向,二进制、八进制与十六进制之间的互换 二进制 八进制、十六进制 (收缩法) 3位二进制 = 1位八进制;4位二进制 = 1位十六进制;,八进制、十六进制 二进制 (扩展法) 1位八进制 = 3 位二进制;1位十六进制 = 4 位二进制;,八进制 十六进制 (通过二进制转换) 1位八进制
9、= 3 位二进制1位十六进制 = 4 位二进制方法:通 过 扩展法,把八进制 二进制 再通过收缩法,把二进制 十六进制,数制运算 各种数制都有算术运算规则(加、减、乘、除);而二进制数独有逻辑运算,又是计算机唯一识别和处理的数,所以,我们选取二进制数作为讲解的主要对象。,二进制数的算术运算规则(有进位和借位)加法 1101 减法 1101 + 1011 1011 11000 0010 乘法 1101 除法 1011 ( 略 ) 1101 1101 0000 1101 10001111,二进制数的逻辑运算 逻辑值只有两个“T”与“F”或“Y”与 “N”;我们知道,二进制数也只有两个 值“1”与“
10、0”,所以可用二进制数表示逻辑值,并充分利用逻辑运算的特点,快速地进行信息的处理。 注意:运算按位进行,没有进位和借位。,逻辑加法 +(或 运算) 例如: 0+0=0 0+1=1 1+0=1 1+1=1 或表示 00=0 01=1 10=0 11=1 逻辑乘法 (或 运算)例如: 00=0 01=1 10=1 11=1 或表示 0 0=0 0 1=1 1 0=0 1 1=1 逻辑非运算 (或运算)对0取非,则为1;对1取非,则为0;逻辑异或运算若两个数相同,值为0;不同,则为1; 即 0 0=0;0 1=1;1 1=0。,计算机数的表示法,正数和负数 通常我们用“+”和“-” 来表示正负数,而
11、计算机则在二进制数 的最高位设置成符号位,即“0”表示正数,“1”表示负数。 例如:,原码、反码和补码 计算机对有符号的数有以上三种表示方法; 正数的三种码形式一样,如同正数表示法; 而负数的三种码形式不一样,需按一定规则转换。引入三种码的目的,主要是为了计算机运算方便,提高速度,使减法运算转化成加法运算。,定点数和浮点数 计算机表示数的位数长度是有限的,而数的大小是无限的,差别很大。为使计算机所表示的数的增大范围和提高精确度,而采用定点数和浮点数。 定点数为小数点位置固定的数; 浮点数为小数点位置不固定的数;,数的范围 与计算机能并行传送的最大二进制位数有关。目前微机的字长有32位、64位。
12、字长越长,运算精度越高。例如:字长为32位,所能表示的整数范围是,计算机的信息编码,信息单位 位( bit 或 b )是最小的信息单位(二进制的一位数)。例如:二进制数 1101,含有 4 bit;一个“bit”只能表示 种状态 (“0” 或 “1”);两个“bit”就能表示 种状态(“00” “01” “10” “11”);四个“bit”就能表示 种状态(“0000” “0001” “0010” “0011” “0100” “0101” “0110” “0111” “1000” “1001” “1010” “1011” “1100” “0101” “0110” “0111” )n 个“bit
13、” 就能表示 种状态。,字节( byte 或 B ) 是计算机的最小存储单元。1 byte = 8 bit , 从0000000011111111;可以表示 个状态(数值);一般数字、字母、普通符号用一个字节就可表示,但汉字、特殊符号等则需两个或多个字节来表示。 字(word 或 w)是计算机进行数据交换、加工、存储的基本运算单位。一个字由一个或若干个字节构成,通常将组成一个字的位数叫作该字的字长。字长越长,在相同时间内能传送更多的信息,从而运算速度更快;计算机有更大的寻址空间,从而内存储容量更大;计算机系统支持的指令数量越多,功能就越强。,存储容量 是指计算机存储器所能存储的总字节数,反映
14、容纳信息的多少。一般用KB,MB,GB,TB,PB为单位。 1KB=1024B = B 1000B 1MB=1024KB = B 1000KB 1GB=1024MB = B 1000MB 1TB=1024GB = B 1000GB 1PB=1024TB = B 1000TB,信息编码简单字符编码(西文字符为例)字符编码就是规定用怎样的二进制编码来表示非数值的字母、数字、符号等信息。目前在微机上使用最广泛的是ASC(美国标准信息交换码,以被ISO认定为国际标准),可表示128种字符的7位基本ASC码(国际通用)和可表示256种字符的8位扩充ASC码(可重新定义)。字符可分为:显示字符(例如键盘字
15、符键的编码,“0 ”为48,“A”为65)和控制字符(例如return 、backspace键的编码分别为13、8)。,复杂字符编码(中文字符为例)汉字是一种象形文字,无法直接用标准西文键盘输入,必须经过转换间接输入;汉字的字数也较多,不能用单字节的ASC(256个字符)来表示。因此,按照不同的目的和需要,产生了多种汉字编码系统与汉字输入方法。目前采用两个字节(可以表示64K字符)的汉字编码方案。由于汉字的应用范围较广(东南亚国家),汉字的编码字符集不相同,中国大陆常用GB / GBK码,台湾BIG5。,汉字处理过程汉字系统对每个汉字预先规定输入计算机中的代码,即汉字的外部码(例如拼音输入码)
16、。计算机为了识别汉字,要把汉字的外部码转换成内部码(二进制代码)进行存储和处理。输出时,还将汉字的内部码转换成汉字的字形码。计算机处理汉字的总过程如下: 键盘管理程序 汉字处理程序 外部(输入)码 机内码 字形(输出)码 (键盘) (计算机存储、传输) (计算机输出汉字) 汉字信息 交换码(国标码) 汉字信息 其它系统代码,交换码 用于计算机与其他系统或设备之间进行汉字代码信息交换的标准汉字代码,目前最常使用的是国标码1981年的GB2312-80, 7445; 2000的GB18030-2000,27000 特 点 每个汉字(图形符号)用两个字节表示,每个字节只用低7位,即最高位为0的二进制
17、码。 在128种编码表示中,有94种用来表示汉字的编码。此标准的汉字编码表有94行、94列,分别为区号和位号。汉字编码使用的高字节称为区码,低字节称为位码。 汉字分为两级:一级为使用频度高的常用汉字; 二级为次常用的汉字;,内部码 也称汉字内码或汉字机内码,是计算机对汉字进行存储、运算、传码的实际代码。 特 点 是由 0和1组成的二进制代码。一个汉字对应一个机内码,即汉字数目机内码数目; 一般用两个字节表示一个汉字的内码且每个字节最高位为 1。 还有少数三字节、四字节等内部码最多能表示128128 = 16384 个汉字和图形符号; 机内码目前虽未完全统一,但已趋于标准化。 内部码与国标码的对
18、应关系:内码=国标码+8080 即国标码每个字节最高位为1 内部码。 例如:国标码 3B7A 00111011 01111010 那么,机内码 BBFA 10111011 11111010,外部码 也叫汉字输入编码,主要是从键盘(语音、手写、光电)输入计算机中的代表汉字的编码。键盘输入方式目前汉字输入方案有数百种,基本上是直接利用西文标准键盘进行汉字输入,每一种汉字输入法都各自提供相应的键盘码与汉字机内码(码表),编码方案大致可分以下四 类:,数 码 用一串数字来替代汉字的编码,特点是无重码、码长适中、速度快、但难记忆。主要有区位码、 电报码。 区位码属于数码的一种输入法。区位码虽不常用,但它
19、包含其它输入法中未包含的其他信息,如一些特殊符号、序号、日文、希腊文、俄文等,因此,在一些特定场合下,也大有用途。另外,由区位码可以推算出某个信息的国标码和机内码。,特 点 由四位十进制数表示。前两位-区码;后两位-位码。 区位码共有94个区,每个区有94个位。因此,可存储9494 个信息。其中,1-9区存放为非汉字信息; 16-87区存放汉字信息;10-15, 88-94为空白区, 用户可在此扩充汉字和特殊符号。 用 法 例如: 输入4602 微 ; 输入 2790 机。,音 码 以汉字读音(不考虑声调)为基础的输入方法。 特点:简单易学,但重码多、码长较长,速度慢。主要有全拼、双拼、双拼双
20、音输入法。 双拼输入 对一些经常使用的含有多字母的声母和韵母用一个字母替代,以减少击键次数,提高输入速度。用户在使用前需熟记替代键。例如: u sh,h ang,l ai 后, 上 uh,海 hi 双拼双音 使用25个字母键来替代所有含有两个或两个以上字母的声母和韵母。双拼双音的替代码一般与双拼的不一致,记忆量稍大些,但输入一个汉字只需击键两次,速度提高更大。另外,用此法也可输入多字词组。,形 码 以汉字的笔画、结构、形状为依据的汉字编码。特点:重码少、码长短、速度快、规律性强、但需一定的记忆。主要有五笔字型、太极码、郑码等。 五笔字型五笔字型属于形码的一种输入法,其发明人为王码电脑公司的王永
21、民。它是根据汉字的结构对汉字进行输入操作的方法,该方法把汉字归纳成130个字根,分布在除 Z 键以外 的25个英文字母上。 依次输入汉字的相应字根,便输入了该汉字,每个汉字最多输入四键。,汉字结构特点 汉字有五种基本笔画,由笔画或笔画交叉形成的 相对不变的结构,通称为偏旁、部首,大约200多个,五笔字型把它们简化成130个,称为基本字根基于汉字的整体轮廓,根据偏旁部首之间的排列 的相互关系可分为:左右型、上下型和杂合型。,五笔字型编码 将基本字根和笔画分别定义在标准键盘上,构成字根键盘。 特点: 按字根的首笔画把字根键盘分成5个区,分别 为横(1)区、竖(2)区、撇(3)区、捺(4)区和折(5
22、)区,每个区有五个位(1-5),所以。每个字母键 的区位号=区号+位号。 例如:Q W E R T Y U I O P 35 34 33 32 31 41 42 43 44 45 A S D F G H J K L 15 14 13 12 11 21 22 23 24 Z X C V B N M 55 54 53 52 51 25,五笔字型输入规则 用五笔字型编码的汉字,一般由4键组成,为了提高速度,特设了简码输入、词汇输入和 Z 输 入法 简码输入 一级简码:只需按相应的一个键+空格,可出一个汉字,有25个一级编码的汉字,分布在AY; 二级简码:只需输入汉字的前两个字根+空格;有 617个二
23、级编码的汉字; 三级简码:只需输入汉字的前三个字根+空格;有 4400个三级编码的汉字。,词汇输入 词组不论字数多少,只需输入四键,速度极快。 双字词:输入每个汉字前两个字根,组成四码; 三字词:输入前两字的第一字根和第三字的前两字根,组成四码; 四字词:输入每个字的第一字根,组成四码; 多字词:输入前三个字的第一个字根和最后一字的第一字根,组成四码; Z 输入法 是利用 Z 键处理输入中一些分辨不清的编码。Z 键可以替代位置的字根或识别码。它为初学者提供了一条学习途径,但同时增加了重码机会,输入速度慢些。,音形码 把汉字拼音和汉字字形相结合的编码方式。特点:简单易学、重码较少、码长适中、速度
24、较快.音形结合对汉字的特征描述更加全面、细致。主要有智能ABC、自然码。 智能ABC智能ABC是中国第一个符合国家语言文字规范的“拼音-汉字”智能转换系统。以汉语拼音、汉字笔画和书写顺序为编码基础,内部已建立一个六万多词条的基本词库和具有自动筛选能力的动态词库,动态词库中分为自动记忆词库和强行记忆词库。语流信息分析、自动分词构词、同音词的识别以及多层次的记忆功能(瞬时记忆、短期记忆、长期记忆、强制记忆和词频调整等)形成系统的智能特色。,输入方法 它既可以按拼音(全拼、简拼、混拼)输入,又可以按纯笔形输入,还可以以拼音为主、笔形为辅的混合输入,是一种非常简单易学的智能化键盘输入法。 拼音输入 全
25、拼:输入汉字信息的规范汉语拼音,并用空格键结束,系统根据词库自动分词,分词顺序由多字词组四字词组二字词组单字。例如:计算机应用基础jisuanjiyingyongjichu简拼:只依次输入每个汉字的声母,再用空格键结束。分词过程中会出现重码,需选择后,再分词。例如:计算机应用基础jsjyyjc 混拼:在输入的汉字信息中,一些汉字采用全拼,而对另一些汉字采用简拼。 例如:计算机应用基础jsuanjyingyjichu,笔形输入 “ABC”将汉字的基本笔画分为8类,用1-8分别 代表横、竖、撇、捺、折、弯、叉、方,最多取六笔。笔形码一般跟在汉字的音码信息的后面,其目的就是降低重码,提高速度。只有设
26、置纯笔形输入方式,才可以纯字形数字码输入。例如:实践 shi4jian ; 中 82;,智能ABC提供了具有自动筛选能力的动态词汇系统(自动记忆词汇容量17000,用户自定义容量1000)。 自动分词构词(空格键为按词构词,回车键为按字构词)。 多层次记忆功能(瞬时、短期、长期、强行):若用户在第一次将专业词汇或人名等作为固定组合输入后,就可以和普通的词条一样,输入简拼就得到该词(瞬时记忆) 。使用多次后,则存入用户词库(短期记忆)。基本词库或经常使用的用户词条,则不会从库中清除(长期记忆)。当用户在工作中,可对一个使用频繁而又较长的词条用新的输入代码来定义(强行记忆)。 频度调整:不同用户可
27、以通过设置词频调整属性,可调整标准库里的同音词的顺序。,注意 在分词过程中,如果不能得到所需内容,可用依次消除,也可用翻页符(+ )向后查找, 每按一 次空格键系统继续自动分词; 凡是出现“zh,ch,sh”都默认为固定组合,若要表示不同的汉字的简拼,则要用隔音符号。例如: “z h, c h, s h”; 又如:方案 fang an, 否则 fangan 为 反感; 输入词条(词组、名称)时,最好第一次用全拼输入,而后可用简拼输入,这样便大大提高输入速度。 利用 小写的 i 或大写的 I 可以输入简体或繁体的中文数词和量词。 利用v1、v2、v3,可以输入各种难找的符号。 输入的汉字最多为九
28、个。,语音输入方式虽然早在30年前就开始研究语音识别系统,但目前由于受讲话人的口音、音量、音频等因素的影响,输入的准确率及口音的识别率还有待提高。但此种方式定会成为将来最受欢迎的中文输入方式。例如:IBM ViaVoice. 字形识别方式将汉字作为图形输入,通过识别,将汉字图形转换成汉字编码输出。分为: 手写体输入:先建好汉字库,然后借助与计算机连接的笔触感应板和智能应用软件,将笔划工整手写汉字输入计算机。例如:中自汉王、Motorola慧笔. 印刷体输入:将书面图文资料成批地快速地通过扫描输入到计算机。能对表格的进行识别和处理。例如:清华紫光印刷体识别系统。,汉字输出码 又称汉字字形码(字模
29、码)。汉字输出时,利用汉字的两个字节编码找出对应汉字的字形,才能把此汉字显示或打印出来。对汉字字形经过点阵的数字化后的一串二进制数称为汉字输出码。 汉字字形数字化汉字字形虽有多种变化,但都是方块字,可以把一个方块看作 m 行 n 列的矩阵(点阵),即点阵中有 mn 个点,那么,方块字就可细分成由点组成。每点要么为黑,要么为白,点阵中的黑点组成汉字的笔画偏旁部首汉字。 这种用点阵描绘出的汉字字 形,称为汉字点阵字形(字模)。 计算机中用二进制 1 表示黑,用 0 表示白;一 个 1616 点阵的汉字可以用 256 bit 的二进制数来表 示, 即需用 2568=32 个字节来存储。常有24、32
30、、48、64点阵。点阵数越高,存储量越大,但汉字字形质量越好。,汉字字库汉字字形用点阵信息表示(数字化)后,以二进制文 件的形式保存在存储器中,构成汉字字模库,也称汉字字形库(汉字点阵字库), 简称汉字字库。 按字模的字体,可分为宋体、楷体、黑体字模等等,这都是基本字模。基本字模可经过放大、缩小、反向、旋转等其他变换可得到美术字体。例如16点阵的宋体字库、48点阵的楷体字库等。 点阵字库虽然简单,但在放大、变换后,常出现字形歪曲变形、边缘有锯齿不平滑,影响显示和打印效果。目前正广泛研制和采用矢量字库和曲线字库。根据存储方式的不同,汉字字库可分为软字库和硬字库。,软字库 是汉字字库文件存储在磁盘(软、硬盘)中,使用时再调入内存。汉字字量很大,汉字字库不仅需占用大量存储空间,又要求存取速度快,所以,在安装汉字系统时,常把汉字字库存储在硬盘上。汉字系统启动时,要占用一定的内存空间,字库可由用户选择是否装入内存(常规内存或扩充 内存)。 硬字库 汉字字库存储在汉卡的ROM / RAM芯片中,汉卡则被安装在机器的扩展槽中,当汉字系统启动后,就从汉卡上寻找汉字字库。 汉卡可以节省存储空间,提高访问汉字的速度,但汉卡的造价较高,一般用户大多使用软字库,不装汉卡,比较著名的汉卡有方正系列汉卡、王码汉卡、联想汉卡。,