1、第五章 数据抽象、设计与挖掘,内容提要:数据与大数据数据管理与数据库数据分析,5.1 数据与大数据,现代社会数据的重要性用数据说话、用数据决策、用数据创新已形成社会的一种常态和共识,数据已被视为知识的来源、被认为是一种财富。数据之所以成为重要的生产要素,是因为它可以精确地描述事实,以量化的方式反应逻辑和理性。决策将日益基于数据和分析做出,而非经验和直觉。,5.1 数据与大数据,大数据由于网络的出现,人类社会产生的数据量激增。,2008年全球产生的数据量为0.49ZB(250MB)2009年的数据量为0.8ZB2010年增长为1.2ZB2011年的数量更是高达1.82ZB2012年为止,人类所有
2、印刷材料的数据量是200PB预计到2020年,全世界的数据规模将达今天的44倍。,5.1 数据与大数据,大数据的价值发现大数据时代一书的作者前瞻性地指出:大数据开启了一次重大的转型,大数据时代最大的转变就是“放弃对因果关系的追求,取而代之关注相关关系”。即只要知道“是什么”,而不需要知道“为什么”。颠覆了千百年来人类的思维习惯。例子:机票价格预测工具Farecast,5.1 数据与大数据,大数据的价值发现,Farecast: 飞机票价格预测,购票时机与机票价格的关系?,怎样预测机票价格?,只求关系,不求因果,不要相信经验,一切以数据说话,5.1 数据与大数据,数据管理与数据分析数据被视为知识的
3、来源,被认为是一种财富,数据收集、数据管理、数据分析的能力已被视为核心竞争力。数据聚集的核心手段是数据管理和数据库,数据分析与利用的核心手段是数据仓库和数据挖掘。,5.2 数据管理与数据库,1、数据库及数据库管理 数据库(DataBase):以“表” 形式组织起来的相互有关联关系的数据的集合。 数据库管理系统(DBMS):用来管理数据库的软件。数据表的定义:用户可以自己定义数据表格式(DDL)数据表的操纵:插入、删除、更新,查询与计算(DML)数据库控制:数据安全性和正确性控制(DCL)数据库存储、备份、恢复、并发控制及性能监视与分析。,5.2 数据管理与数据库,谁能访问数据更新数据有什么要求
4、,用户,检查用户合法性检查数据合法性按用户要求的操作执行并返回结果,用户通过DML操纵数据进出库,用户通过DDL定义数据表的格式,用户通过DCL定义数据安全性,(依据用户表达的各种“需求”,对数据库进行操作、管理和控制),5.2 数据管理与数据库,2、数据库的基本结构形式- 数据表 数据表的构成:数据表是由简单的行列关系约束的一种二维表格结构。 列:也称为“字段”,或“属性”。表的每一列都包含同一类型的信息。列由列名和列值构成,或属性名和属性值。表中列次序不重要,或是无序的。,5.2 数据管理与数据库,数据表的构成要素及概念示意图,5.2 数据管理与数据库,行:也称为“元组”,或“记录”。表的
5、每一行由若干字段值组成,描述一个对象的信息。表中行次序不重要,一般可以互换。一张表中一般不能出现完全相同的两行。,5.2 数据管理与数据库,表:也称为“关系”。由表名、列名及若干行数据组成。表中的一行反映的是某个对象的相关数据。表中的一列反映的是所有对象的某种性质或属性数据。在数据库领域,这种简单结构的二维表被称为“关系”,以表这种形式反映数据组织结构的模型被称为“关系模型”。,5.2 数据管理与数据库,关系模式:表的结构称为关系模式,由表名、列名构成。定义“关系”指定义关系的模式,“操纵”关系指操纵的关系的值即表中数据。码(键):在表中各种属性中有一个属性或属性组很重要,就是“码”(Key)
6、,也称为键或关键字。它或它们的值能唯一地将该表中的每一行区分开。若一个关系中有若干个码,可选择其中的一个作为“主码”,也称“主键”。,5.2 数据管理与数据库,数据库:表用于描述客观世界中的一件事,对不同事情的描述使用不同结构的表,如此若干数据表的集合便形成了一个数据库。数据表的性质列是同质的,即同一列中的数据的数据类型必须相同。表名在数据库中唯一,列名在表中唯一。行、列顺序可以任意交换。表中任意两个元组不能完全相同。表中每个数据项必须是不可再分的数据项。,5.2 数据管理与数据库,非规范化的关系:家庭关系表,5.2 数据管理与数据库,3、数据表的操作-关系操作 关系/表之间是可以相互操作的,
7、对关系/表的操作结果仍是关系/表。关系操作是指关系模型能够提供哪些运算和操作,以便用户可以构造新关系。数据库管理系统必须支持5种基本操作,对数据表的任何复杂操作都可以通过这5种基本操作的组合获得。“并”、“差”、“笛卡尔积”、“选择”、“投影”,5.2 数据管理与数据库,“并”、“差”、“交”操作,假设关系A和关系B具有相同的属性数目,且相应的属性取自同一数据类型“并”操作:关系A和关系B的“并”操作结果是由或者属于A或者属于B的元组组成的新关系。“差”操作:关系A和关系B的“差”操作结果是由属于A而不属于B的元组组成的新关系。“交”操作:关系A和关系B的交”操作结果是由既属于A又属于B的元组
8、组成的新关系。,5.2 数据管理与数据库,R (9811班学生),S (9812班学生),T (校运动队学生),R 与S 的“并”操作,R 与T 的“差”操作,R与T的“交”操作,5.2 数据管理与数据库,“选择”、“投影”、“笛卡尔积”、“连接”操作,假设关系A和关系B具有相同的属性数目,且相应的属性取自同一数据类型。“选择”操作:从某个给定的关系中筛选出满足一定限制条件的元组。“投影”操作:从给定的关系中保留指定的属性子集而删去其余的属性。“选择”操作是从某个关系中选取满足条件的“行”的子集,“投影”操作是选择“列”的子集。只对一个关系操作,5.2 数据管理与数据库,教师表,授课表,对教师
9、表执行“投影”操作得到的新关系,对授课表执行“选择”操作得到的新关系,选择条件:“开课教师”=“王成”,5.2 数据管理与数据库,“笛卡尔积”操作:对两个关系的操作。两个关系的“笛卡尔积”操作是将两个关系拼接起来,由一个关系的元组和另一个关系的每一个元组拼接成一个新元组,这些新元组构成一个新关系。“连接”操作:对两个关系的操作。“连接”操作是将两个关系中满足一定条件的元组拼接成一个新元组,连接条件。,5.2 数据管理与数据库,计算机计算机计算机计算机计算机计算机化学化学化学化学化学化学外语外语外语外语外语外语数学数学数学数学数学数学,唐飞唐飞唐飞唐飞唐飞唐飞王小栋王小栋王小栋王小栋王小栋王小栋
10、陆非陆非陆非陆非陆非陆非蒋涛蒋涛蒋涛蒋涛蒋涛蒋涛,393939393939525252525252434343434343424242424242,443342443342443342443342,王成王成王小栋陆非蒋涛蒋涛王成王成王小栋陆非蒋涛蒋涛王成王成王小栋陆非蒋涛蒋涛王成王成王小栋陆非蒋涛蒋涛,808060608040808060608040808060608040808060608040,程序设计汇编语言应用化学英文阅读高等数学线性代数程序设计汇编语言应用化学英文阅读高等数学线性代数程序设计汇编语言应用化学英文阅读高等数学线性代数程序设计汇编语言应用化学英文阅读高等数学线性代数,“教师”和“授课”关系的“笛卡尔积”操作结果,系别,姓名,年龄,学分,开课教师,总学时,课名,5.2 数据管理与数据库,教师表,授课表,“教师”和“授课”关系的“连接”操作结果,连接条件:“教师”表的“姓名”等于“授课”表的“开课教师”,5.3 数据分析,数据库和数据库管理系统可以实现数据的有效聚集和管理,其目的是更好地利用数据。 如何利用数据?如何挖掘蕴含在数据中的知识?数据分析:二维数据分析、多维数据分析。数据挖掘:从数据库中知识发现,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。简单地讲就是从大量数据中挖掘或抽取出知识。,