1、1(89),主要内容:整数、实数,整数(定点数)的表示 整数的含义 无符号整数的表示对象、编码长度与可表示数值范围的关系 带符号整数的编码方法(原码、反码、补码)、编码长度与可表示数值的范围的关系补码运算的优点;BCD码,2.4 数值型数据的表示及处理,计算机中信息的表示,2(89),实数(浮点数)的表示 实数的含义实数的浮点表示方法(阶码,尾数的概念)阶码的位数与可表示数值大小的关系尾数的位数与可表示数值精度的关系,数值型数据的表示及处理,3(89),整数(定点数)的概念:定点数: 约定小数点在某个固定的位置(定点整数、定点小数)整数: 整数可以用定点数表示,约定小数点在个位数的右面,整数(
2、定点数)的表示,4(89),整数的分类:不带符号的整数 (8位,16位,32位) 一定是正整数,常用于表示地址。取值范围:8位 0255(281),16位 065535(2161) 32位 02321 带符号的整数(正整数,负整数)符号位: 使用最高位(最左面的一位)作为符号位“0”-“”(正数)“1”-“”(负数) 其余各位表示数的绝对值例如: 00101011=43 , 10101011=43,整数(定点数)的表示,5(89),整数可以有三种表示方法:原码反码补码,整数(定点数)的表示,6(89),原码表示方法规定:1.最高位作为符号位若符号位为0,则 表示正数. 若符号位为1,则表示负数
3、 .2.其余各位代表数值本身的绝对值 (以二进制表示),原码表示,原码表示,7(89),例1:假设用一个字节来表示一个数,求+7和-7的原码。,解:根据原码的定义:,(7 )原00000111,(7 )原10000111,1 1 1 18 4 2 1,原码表示,8(89),例2:假设用一个字节来表示一个数,求+93和-93的原码。,解:根据原码的定义:,93原01011101,93原11011101,8 4 2 11 1 1 1,原码表示,9(89),假设用X原表示X的原码 +1原=00000001 +127原=01111111 -1原=10000001 -127原= 11111111,结论:
4、绝对值相同的正数和负数,它们除了符号 位不同外,其他各位都相同。,原码表示,10(89),假设用一个字节表示一个数 最小值为:-127 ,其原码为11111111 最大值为:+127 ,其原码为01111111,原码的表示范围:,所以,原码的表示范围为: 127(27-1) + 127 (27-1),原码表示,11(89),例:假设用一个字节来表示一个数,求0的原码。,解:根据原码的定义:,+0原=,-0原=,结论:0的原码不唯一,分析:当由数轴的左端趋向0时,我们记为 -0 当由数轴的右端趋向0时,我们记为+0,+0,-0,00000000,10000000,原码表示,12(89),反码表示
5、,表示方法规定: 1.一个数如果值为正,则它的反码与原码相同 2.一个数如果值为负,则将其符号位置为 1,其余各位为对原码的相应数据位取反,反码表示,13(89),例1:假设用一个字节来表示一个数,求+7和-7的反码。,解:根据反码的定义:,(7)反 00000111,(7)反(10000111)反 11111000,8 4 2 11 1 1 1,反码表示,14(89),假设用X反表示X的反码 +1反=00000001 +127反= 01111111 -1反=11111110 -127反= 10000000,反码表示,15(89),假设用一个字节表示一个数。 最小值为:-127 ,其反码为10
6、000000 最大值为:+127 ,其反码为01111111所以,反码的表示范围为:,反码的表示范围:,(反码的表示范围与原码是一致的。), 127(27-1) + 127 (27-1),反码表示,16(89),根据反码的定义:,+0反= 00000000,结论:0的反码不唯一,-0反= 11111111,反码表示,17(89),数值数据的补码表示,*计算机中使用补码的原因:,在加减法运算中,对参与运算的数符号正负的判断问题,*补码的原理: ( 即为什么用补码可以实现减法按 加法处理?) *时钟原理 *补数的概念,18(89),n位的计算机的计量范围是:02n-1,模 2n,实质上是计量系统产
7、生“溢出”的量,在计量系统上表示不出来,只能表示模的余数。,对于计算机,其概念和方法完全一样,例如4位计算机,所能表示的最大数为1111,若再加1,为10000,“溢出”,最高位自然丢失,回到0000。 00001111, 所以4位二进制系统的模为?,2416,在这样的系统中,把减数用相应的补数表示,减法问题就可以化成加法问题。,数值数据的补码表示,19(89),把补数用到计算机对数的处理上就是补码,返回,20(89),补码表示方法规定: 1、正数的补码:与反码、原码相同. 2、负数的补码:则将其最高位置为 1,其余各位为对原码的相应数据位取反,然后再对整个数加1.,公式:X为负数时 x补=
8、x反+1 成立,数值数据的补码表示,21(89),例1:假设用一个字节来表示一个数,求+7和-7的补码。,解:根据补码的定义:,+7补00000111,-7反11111000,-7补11111000 + 1 11111001,数值数据的补码表示,-7原10000111,22(89),用补码进行运算例2:假设用一个字节来表示一个数,求+7和6 的值(用补码来求),解:,+7补00000111,-6补11111010,+7补+ -6补 00000111 +11111010 100000001,进位舍去, 00000001,说明:补码的减法可以按加法来处理,数值数据的补码表示,23(89),注意:零
9、的补码表示是唯一的,故 : (0 )补00000000= (0 )补,例3. 假设只用一个字节来表示一个整数,求0和0的补码表示,0 补 00000000,0 补为 11111111, 1,00000000,1,进位自然舍去,X为负数时 x补= x反+1,数值数据的补码表示,24(89),假设用X补表示X的补码 +1补=00000001 +127补=01111111 -1 补=11111111 -127补= 10000001,在补码表示中:编码10000000 最高位的1既表示符号位又表示数值位 用来表示:-128,数值数据的补码表示,25(89),假设用一个字节表示一个数。 用补码表示的最大
10、值: +127,其补码为:01111111。 用补码表示的最小值: -128,其补码为:10000000。所以,用补码表示的数的范围是: -128+127,补码的表示范围:,注意:用补码表示的数的范围比原码和反码多一个数。,数值数据的补码表示,26(89),补充: 对补码再求一次补,会得到该数的原码。( -128 补不适合此规律),已知补码为:11111010 10000101 + 1 10000110 (-6),整数(定点数)的表示,27(89),127 (01111111),原码、反码、补码的表示范围:,若一个数值数据的长度(包括符号位)为一个字节,则它表示的整数的范围为:,原码:,-12
11、7(11111111),反码:,-127(10000000),补码:,最小值,最大值,-128 (10000000),127 (01111111),127 (01111111),整数(定点数)的表示,28(89),各种整数表示法的比较,三种整数的比较,整数(定点数)的表示,29(89),BCD码,BCD整数(Binary Coded Decimal)称为“二进制编码的十进制整数”,使用4个二进位表示1个十进制数字,最高位仍为符号位。例如:(51)BCD 1 0101 0001 (32767)BCD 0 0011 0010 0111 0110 0111,30(89),计算机中用浮点数表示实数引入
12、浮点数的目的: 在一定字长下,整数数值的表示范围有限实际的数据往往有整数部分又有小数部分实际数据有的特别大 ,有的特别小,实数(浮点数)的表示,实数(浮点数)的表示,31(89),基数(R):通常隐含为10,在一般数据的浮点表示法中,一个数可表示成:,N M RE,实数(浮点数)的表示,浮点数: 小数点位置不固定的数,它既有整数部分也有小数部分,32(89),很多高级程序语言中,数值型数据都可以写成如下形式: 4.32E-2 表示 4.32 10 -2 =0.0432 0.432E-1 表示 0.432 10 -1 =0.0432 4.32E-2 表示 4.32 10 -2 =0.0432 4
13、.32E+2 表示 4.32 10 +2 = 43.2 基数是隐含约定的,实数(浮点数)的表示,33(89),基数(R):隐含为2 尾数(M):必须是二进制定点纯小数 尾数的位数决定数的精度 阶码(E): 必须是二进制定点整数。 阶码的位数决定数的范围,计算机内浮点表示的实数,形式为:,N M RE,实数(浮点数)的表示,34(89),数据定点表示的两种形式:(1) 定点整数。小数点隐含固定在整个数值的最右端,说明: 在计算机中,小数点的位置并不是采用某个二进制位来表示,而是用隐含规定小数点的位置来表示。,(2) 定点纯小数。通常将小数点固定在最高数据位的左边,实数(浮点数)的表示,35(89
14、),例如, 二进制数 01011101,如果规定表示定点整数,其表示的数值为: 1011101 又如,二进制数11011101,如果规定表示定点纯小数,则为: 0.1011101,实数(浮点数)的表示,36(89),在给定的字长情况下,如果给出阶码和尾数的位数,则可表示一个浮点数。,例如:假设某机器字长为16位,规定前6位表示阶码(包括阶码符号),后10位表示尾数(包括尾数符号),则: 0001011110101000表示的浮点数是:,= -(26.5)10,0 00101 1 110101000,阶码,尾数,-(0.110101)22 (101) 2,= (-11010.1)2,实数(浮点数
15、)的表示,37(89),实数(浮点数)的表示范围和类型,浮点数的长度可以是32位、64位或更长。一般说来,位数越多,可表示的数的范围越大(阶码位数),精度越高(尾数位数)浮点数(实数)分类:短浮点数、浮点数、长浮点数、高精度浮点数,实数(浮点数)的表示,38(89),实数(浮点数)的分类和使用,Pentium处理器中有三种不同类型的浮点数:单精度浮点数(32位)双精度浮点数(64位)扩充精度浮点数(80位)增强精度浮点数(128位)不同类型的浮点数可表示的数值范围和精度各不相同,解算实际问题时要根据精度要求和计算过程中可能的数值范围来选用所需的浮点数类型,以便取得最佳的效果。,实数(浮点数)的
16、表示,39(89),3.5 文字的表示及处理,主要内容: 西文字符编码 汉字编码 汉字的输入和输出 文本处理,文字的表示及处理,40(89),1. ASCII码 ASCII码,即美国标准信息交换码(American Standard Code for Information Interchange),使用7个二进位对字符进行编码。,一、西文字符编码,文字的表示及处理,41(89),基本的ASCII字符集共有128个字符 95个可打印字符(常用字母、数字、标点符号) 33个控制字符(不可直接显示或打印) 特殊字符的ASCII码 空格(32)、A(65)、a(97)、0(48) 下面为ASCII代
17、码表:,见课本P33,文字的表示及处理,42(89),标准ASCII字符集及其码表,控制字符,文字的表示及处理,43(89),每个字符用标准规定的7位二进制数表示,在机内占一个字节(最高位为0)。 如: 字符“A”的ASCII码为: 字符“0”的ASCII码为:,(00110000)2 或(48)10、(60)8、(30)16,(01000001)2 或(65)10、(101)8、(41)16,文字的表示及处理,44(89),要求: 1.会比较ASCII字符的大小(按其ASCII码值) 空格09A Z az 2.会推算同组字符ASCII码值 如A的ASCII值(十进制)为65,则B、C 的AS
18、CII值分别为66、67,文字的表示及处理,45(89),定义方式: 用8位二进制数位表示一个字符的扩充 二-十进制 交换码.特点: 每个字符对应一个字节,共256种说明: 有很多编码没有使用,保留做为扩充,2.EBCDIC码,文字的表示及处理,46,二、汉字编码,1981年,国家标准局颁布了信息交换用汉字编码字符集-基本集(GB2312-80) (国标码)。 组成: (1)第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号),1.GB2312-80汉字编码,文字的表示及处理,47(89),(2)第二部分:一级常用
19、汉字,共3755个, 按汉语拼音排列(3)第三部分:二级常用汉字,共3008个, 按偏旁部首排列 汉字共6763个 字符共7445个,文字的表示及处理,48(89),(按汉语拼音排列),(按偏旁部首排列),拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个,1.GB2312-80汉字编码,GB2312-80字符集,文字的表示及处理,49(89),区位码: GB2312-80是一个二维代码表,有94行、94列, 汉字在代码表中的位置用它所处的行号、列号表示。,1.GB2312-80汉字编码,文字的表示及处理,50(89),例如: “大”字的区号20,位号83, 区位码是20 83
20、 用2个字节表示为: 00010100 01010011,文字的表示及处理,51(89),国标交换码 (国标码):问题:信息通信中,汉字的区位码与通信使用的控制码(00H1FH)发生冲突。解决方案:为了避免汉字区位码与通信控制码的冲突,每个汉字的区号和位号必须分别加上32。得到的代码称为汉字的“国标交换码”,1.GB2312-80汉字编码,文字的表示及处理,52(89),例如: “大”字的区号20,位号83 区位码:20 83 国标交换码:52 115 (+32),二进制表示为:00010100 01010011,二进制表示为:00110100 01110011,文字的表示及处理,53(89)
21、,机内码:问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。解决方法:使表示GB2312汉字的两个字节的最高位(b7)都置为“1”。这种汉字编码,称为GB2312汉字的“机内码” 。,1.GB2312-80汉字编码,文字的表示及处理,54(89),例如:“大”字 区位码:20 83 二进制表示为:00010100 01010011 国标交换码:52 115 (+32) 二进制表示为:00110100 01110011 机内码:180 243(+128) 二进制表示为:10110100 11110011(B4F3),区位码
22、+ 32 = 国标码国标码+128 = 机内码,文字的表示及处理,55(89),问题:GB2312-80只有6763个汉字,使用时功能不够。解决方法:1995年发布GBK,全称为汉字内码扩展规范GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。组成:共收入21886个汉字和图形符号(21003个汉字,883个图形符号),2.GBK汉字内码扩展规范,文字的表示及处理,56(89),GBK编码区分三个部分:汉字区(21003个汉字)、图形符号区、用户自定义区 GBK每一个字符都采用双字节表示总体编码范围为:8140HFEFEH,共23940个码
23、位; 首字节范围:81HFEH(二进制最高位为1); 尾字节范围:40HFEH(二进制最高位可以为0或1);,GBK汉字内码扩充规范,文字的表示及处理,57(89),目的:统一的多文本处理环境,实现所有字符在同一字符集中统一编码途径:UCS:ISO/IEC 10646 (通用多8位编码字符集)Unicode:统一码或联合码,与UCS完全等同的工业标准 优点:编码空间极大(4个字节),能容纳足够多的各种字符集(13亿字符),3.UCS/Unicode汉字编码,文字的表示及处理,58(89),缺点:4字节的字符编码使存储空间浪费严重克服:UCS-2是双字节编码,共有字符49194个,其中包括:欧洲
24、及中东地区使用的拉丁字母、音节文字各种标点符号、数学符号、技术符号、几何形状、箭头及其他符号中、日、韩(CJK)统一编码的汉字,文字的表示及处理,59(89),GB18030-2000编码标准在GB2312和GBK编码标准的基础上进行了扩充,采用单字节、双字节和四字节三种方式对字符编码,因此该标准的汉字有27000多个。包括全部中、日、韩统一字符集和CJK汉字扩充的所有字符。,4.GB18030-2000编码,文字的表示及处理,60(89),BIG5码是台湾、香港等地使用的汉字繁体的编码标准,它用双字节进行编码。BIG5收录了13461个汉字和符号。,5.BIG5编码,文字的表示及处理,61(
25、89),几种汉字编码的对比,文字的表示及处理,62(89),人工输入:通过键盘、手写笔或语音输入方式输入字符 自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码,三、汉字的输入输出,1.汉字输入,文字的表示及处理,63(89),文字的表示及处理,64(89),键盘输入编码 : 汉字字数很多,无法与键盘上的键一一对应,因此必须使用一个或几个键来表示汉字,这就需要对汉字进行编码。,(1)键盘输入,文字的表示及处理,65(89),汉字输入编码的分类拼音编码:如:智能ABC, 紫光拼音 缺点:同音字引起的重码多,需增加选择操作字形编码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快
26、, 如:五笔字形法和表形码等 缺点: 编码规则不易掌握,文字的表示及处理,66(89),联机手写汉字识别系统构成 输入 、预处理、特征提取、分类、后处理、输出需求的配件: 专用的书写板和笔,(2)联机手写汉字识别(笔输入),文字的表示及处理,67(89),工作过程: 在书写板上书写,书写板将笔尖的运动按时间采样,发送到计算机中,由软件进行识别,然后用该汉字(或符号)对应的代码进行保存。例如: 汉王笔 正识率 95 90,速度 12字/秒,文字的表示及处理,68(89),目的:使计算机具有人的听觉,是模式识别的分支 语音识别的分类(按照不同的应用及要求):孤立词/连接词/连续语音识别小词汇量/中
27、词汇/大词汇量语音识别特定人/限定人/非特定人语音识别 最高目标:非特定人大词汇量的连续语音识别技术,(3)汉字语音识别,文字的表示及处理,69(89),脱机文字识别:对已经印刷或写完的文字进行识别, 自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字OCR(Optical Character Recognition)。 分类: 印刷体OCR 和手写体OCR,(4)脱机文字识别,文字的表示及处理,70(89),汉字键盘输入方法的比较,文字的表示及处理,71(89),汉字的输出过程:输出机器内部的汉字编码,需要根据汉字编码对应的汉字字型码进行解释,生成映像,最后再传送到显示器或打印机输出。
28、 机内汉字编码字型码打印输出(显示器/打印机),2.汉字输出,文字的表示及处理,72(89),汉字字型码:用于汉字在显示器或者打印机上输出. 汉字字型码表示形式分类:点阵表示形式矢量表示形式,文字的表示及处理,73(89),汉字字型表示形式:汉字字型码用点阵表示 16*16(占32个字节)、 24*24、48*48等汉字矢量表示存储描述汉字轮廓特征的信息。如:Windows中TrueType技术即为该表示形式。,轮廓描述,点阵描述,文字的表示及处理,74(89),字型库:简称字库,同一种字体的所有字符(例如GB2312中的7000多字符)的形状描述信息的集合。不同的字体(如宋体、仿宋、楷体、黑
29、体等)对应不同的字库。,文字的表示及处理,汉字编码之间的关系,其他系统的汉字编码,交换码(国标码),显示打印,输入,机内码,字形码,汉字信息,外码(输入码),汉字信息,汉字库,两个字节最高二进制位均为1,76(89),文本编辑的主要功能(了解)对字、词、句、段落进行添加、删除、修改等操作字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等,三、文本编辑,1.文本的编辑,文字的表示及处理,77(89),段落的处理:设置行距、段间距、段缩进、对称方式等页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等 “所见即所得”(What You See Is What You Get, 简称W
30、YSIWYG),文字的表示及处理,78(89),文本处理内容(P39,了解):字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换词语排序,词语错误检测,文句语法检查自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换,2.文本的处理,文字的表示及处理,79(89),文本压缩,文本加密,文本著作权保护关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等,2.文本的处理,文字的表示及处理,80(89),(1)面向通信的文本处理软件 计算机网络上最普及的应用是用电子邮件进行通信。典型软件: 微
31、软公司的Outlook Express,具有文字的增、删、改以及字体、字号的设置功能,也可以设定一些简单的格式和插入一些图片。,3.常用文本处理软件,文字的表示及处理,81(89),(2)面向办公的文本处理软件功能要求: 文本制作的高效率、高质量;软件面向非专业用户,易学好用;文本处理能力,既功能丰富,又操作简单;排版功能。典型软件: MS-Office、WPS2000,文字的表示及处理,82(89),(3)面向出版的文本处理软件排版软件的主要功能: 将文字、图形和图像等合理地安排在页面内,使版面符合专业排版要求。典型排版软件:方正集团公司的“飞腾”排版软件美国Adobe公司的PageMake
32、r和PDF Writer,文字的表示及处理,83(89),(4)面向网络信息发布和电子出版的文本处理软件 将文本制作成网页发布到internet或作为电子图书进行出版 典型处理软件面向网络信息发布的软件 MS Fontpage、Word 面向电子出版的软件 Adobe公司的Acrobat PDF格式文件,文字的表示及处理,84(89),根据制作文本的用途分为 纯文本 TXT 丰富格式文本 RTF 根据软件的使用不同 DOC、PDF、WPS 等,3.常见文本类型,文字的表示及处理,85(89),纯文本:是由一连串的字符组成的,几乎不包含任何其他格式信息和结构信息。 特性:呈现为一种线性结构,文件
33、体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理,没有字体、字号的变化,不能插入图片、表格等,不能建立超链接。由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息,(1)纯文本.txt,文字的表示及处理,86(89),文字的表示及处理,87(89),文本的格式化(字型 字号 颜色 ) 丰富格式文本(rich text、fancy text、formatted text) RTF格式 (不同软件系统相互交互中间格式) 多媒体文档(Multimedia Document)插入图 表 公式 声音 视频 .,(2)丰富格式文本,文字的表示及处理,88(89),使用H
34、TML语言描述为:,本书由南京大学出版社(Publishing House of Nanjing University)出版,用一对指出的是标记,如 和 等,用于说明排版的格式和文字属性,它们不属于正文内容,正文内容,文字的表示及处理,89(89),(3) 超文本,若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成 “超文本”,“超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分,超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等,文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频,文字的表示及处理,90(89),小结:文本的分类,文字的表示及处理,