收藏 分享(赏)

(4.1)--大数据导论第四章.pdf

上传人:职教中国 文档编号:13787519 上传时间:2022-10-22 格式:PDF 页数:69 大小:3MB
下载 相关 举报
(4.1)--大数据导论第四章.pdf_第1页
第1页 / 共69页
(4.1)--大数据导论第四章.pdf_第2页
第2页 / 共69页
(4.1)--大数据导论第四章.pdf_第3页
第3页 / 共69页
亲,该文档总共69页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 大 数 据 导 论 第一章:大数据概述contents目录第二章:大数据技术基础第三章:大数据的采集与清洗第四章:大数据的存储与管理第五章:大数据计算框架第六章:大数据分析挖掘第七章:大数据可视化第八章:大数据与云计算第九章:大数据行业案例第十章:大数据导论课程介绍PART4大数据的存储与管理 第一节:数据管理与存储概述 第二节:关系型数据库 第三节:非关系型数据库 第四节:分布式文件系统第一节:数据管理与存储概述数据存储与管理概述4.1数据存储管理是利用计算机硬件和软件技术对数据进行有效的 收集 、 存储 、 处理 和 应用的过程。目的在于充分有效地发挥数据的作用。大数据时代存储管理系统广

2、泛使用的存储管理系统数据存储与管理概述4.1普通的文件系统关系型数据库分布式文件系统 HDFS非关系型数据库数据存储与管理概述 文件系统4.1提供命名文件及放置文件的 逻辑存储和恢复 等功能文件被放置在分等级的 (树状 )结构中DOS、 Windows、 OS、 Macintosh 和UNIX-based 操作系统都有文件系统文件系统数据存储与管理概述 分布式文件系统4.1分布式文件系统 文件分布存储到多个计算机节点 计算机节点构成计算机集群常见关系型数据库数据存储与管理概述 关系型数据库4.1关系型数据库把复杂的数据结构归结为简单的二元关系(即二维表格形式 )通过对表格分类、 合并、连接或选

3、取等运算来实现数据的管理ORACLESQLServerMySQLSQLite常见非关系型 数据库数据存储与管理概述 关系型数据库4.1非关系型数据库列式存储文档存储Key-Value图结构存储MongodbHbaseRedisNeo4j数据存储与管理概述4.1数据存储与管理概述分布式文件系统关系型数据库非关系型数据库第一 讲 :数据存储与管理概述MySQL 介绍MySQL 数据库常用操作下一 讲 :关系型数据库第二节 :关系型数据库4.2MySQL最初是由“ MySQL AB”公司开发的一 套关系型 数据库管理系统 (RDBMS)MySQL不仅是最流行的开源数据库 ,而且是业界增长最快的数据库

4、 ,其应用范围从大型企业到专有的嵌入应用 系统 。关系型 数据库 -MySQL发展简史关系型 数据库 -MySQL发展简史4.22008年初, Sun Microsystems收购了MySQL AB公司2009年, Oracle收购了 Sun公司,使MySQL并入 Oracle的数据库产品线4.2 关系型 数据库 -MySQL产品构成MySQL数据库是公认的 简单易用 、 高性能 及 高可靠性 的产品。具体 产品MySQL 企业服务器MySQL 社区服务器MySQL嵌入数据库MySQL集群4.2 关系型 数据库 -基本概念表 :二维数组的集合,用来代表和储存数据对象之间的 关系。行 :也叫元组

5、或记录,在表中是 一条 横向的数据 集合。列 :一条纵行的数据集合,定义了表中的数据结构,也叫 字段。关系型数据库4.2查看 MySQL服务状态的命令 :systemctl status mysql.service启动 MySQL服务的命令为 : systemctl start mysql.service停止 MySQL服务的命令 为 : systemctl stop mysql.service重启 MySQL服务的命令为 : systemctl restart mysql.service连接数据库的命令为 : sudo mysql -uroot -p关系型数据库4.2关系型数据库 MySQL

6、 启动与停止手动 启动 MySQL服务 的命令为shell net start mysql手动停止 MySQL服务 的命令为shell net stop mysql关系型数据库 MySQL 常用命令4.2查看现有的数据库show databases指定当前缺省数据库use 查看当前数据库SELECT DATABASE()关系型数据库 SQL4.2创建数据库表 : CREATE DATABASE 其它参数 删除 : DELETE FROM 表名 WHERE 条件表达式 查询 : SELECT * FROM 表 WHERE 条件表达式增加 : INSERT INTO 表名 (列名 1, .) VA

7、LUES (列值 1, .) 修改 : UPDATE 表名 SET 列名 =值 WHERE 条件表达式 关系型数据库4.2关系型 数据库关系型数据库 MySQL 常用命令关系型数据库 SQL第 二 讲 :关系型数据库非关系型数据库 Mongo 介绍非关系型数据库 Mongo 基本概念下一 讲 :非关系型数据库第 三 节 :非关系型数据库非关系型数据库 Mongo 介绍4.3 MongoDB 是一种用的比较多的文档数据库 。 是非 关系数据库当中功能最丰富,最像关系数据库的数据库。非关系型数据库 Mongo 介绍4.3MongoDB 是 一个基于分布式文件存储的数据库,它是由 C+语言进行编写的

8、,它的目的是为 web应用提供可扩展的高性能数据存储解决方案。非关系型数据库 Mongo 介绍4.3MongoDB 的 最大特点就是说它支持的查询语言非常强大,它的语法就类似于面向对象的查询语言,几乎可以实现类似关系数据库当中表单查询的绝大部分的一些功能。非关系型数据库 Mongo 基本概念4.3mongoDB的应用场景网站 缓存 应用场景非关系型数据库 Mongo 基本概念4.3文档有固定格式(有序键值对)的文本文件,相当于表中的一条记录文档的键键是字符串类型,MongoDB 的文档不能有重复的键集合多个文档组成一个集合,相当于关系型数据库的表数据库一个 MongoDB 实例可以包含多个数据

9、库、一个数据库可以包含多个集合、一 个集合可以包含多个文档非关系型数据库 Mongo 常用操作4.3MongoDB 连接MongoDB 安装目录的bin 目录下执行 mongodb非关系型数据库 Mongo 常用操作4.3创建和删除数据库创建数据库: use DATABASE_NAME删除数据库: db.dropDatabase()非关系型数据库 Mongo 常用操作4.3创建和删除集合创建集合: db.createCollection(name, options)删除集合: db.collection.drop()非关系型数据库 Mongo 常用操作4.3插入和更新文档插入文档: db.CO

10、LLECTION_NAME.insert(document)更新文档: db.collection.update()非关系型数据库 Mongo 常用操作4.3查询和删除文档查询文档: db.collection.find(query, projection)删除文档: db.collection.remove()非关系型 数据库4.3MongoDB 介绍基本概念MongoDB 操作第 三 讲 :非 关系型 数据库Hadoop2.x 安装与配置Hadoop2.x 启动Hadoop2.x 验证下一 讲 :分布式文件系统第四 节:分布式文件系统分布式文件系统 Hadoop2.x 安装与配置4.4第

11、一 步 第 二 步 第 三 步Hadoop2.x 安装步骤安装 JDK,配置环境变量并生效解压安装Hadoop2.x ,配置环境变量并生效配置免密 SSH分布式文件系统 Hadoop2.x 安装与配置4.4Hadoop2.x 配置文件1. hadoop-env.sh2. hdfs-site.xml3. core-site.xml4. mapred-site.xml5. yarn-site.xml6. slaves分布式文件系统 Hadoop2.x 启动4.4Hadoop2.x 启动 HDFS 服务 使用“ start-dfs.sh”命令启动 HDFS 服务 使用“ jps”命令查看启动进程分布

12、式文件系统 Hadoop2.x 验证4.4Hadoop2.x 检查 dfs 安全模式使用“ hdfs dfsadmin safemode get”命令查看安全模式状态如果安装模式处于“ OFF” 状态,方可对HDFS 系统进行写操作分布式文件系统 HDFS 架构详解4.4HDFS 设计目标 硬件故障 数据访问 大数据集简单一致性模型 移动计算比移动数据更经济 异构软硬件平台间的可移植性分布式文件系统 HDFS 架构详解4.401Hadoop2.x 安装步骤整个 HDFS 系统可能是由数百或数千个存储着文件数据片段的服务器组成,因此硬件故障是常态,而非异态02故障检测和自动快速恢复是 HDFS

13、一个非常核心的设计目标分布式文件系统 HDFS 架构详解4.4硬件故障 整个 HDFS 系统可能是由数百或数千个存储着文件数据片段的服务器组成 因此硬件故障是常态,而非异态 故障检测和自动快速恢复是 HDFS 一个非常核心的设计目标分布式文件系统 HDFS 架构详解4.4HDFS 被设计为适合批量处理,而不是用户交互式的其支持的重点是在数据吞吐量上,而不是数据访问的反应时间数据访问分布式文件系统 HDFS 架构详解4.4关系型数据库,在客户端下一个命令,然后立马会做一个数据的响应,这个速度非常的快。对用户来说这就是交互式的。交互式访问HDFS上面的一些数据,包括数据库的处理。速度没有这么快,所

14、以他重点支持的是数据的吞吐量,而不是数据的反应的一个时间。有可能让他去做一个任务,做一个数据的处理,有可能几个小时甚至几天的时间,他要把这些数据才能处理完毕。分布式文件系统 HDFS 架构详解4.4大数据集典型的 HDFS 文件大小是 GB 到 TB 的级别HDFS 被设计为可支持大文件存储一个集群里扩展到数百个节点,支持千万级别的文件分布式文件系统 HDFS 架构详解4.4简单一致性模型大部分 HDFS 应用程序对文件操作需要的是一次写入多次读取的操作模式文件一旦被 创建 、 写入 、 关闭 之后,就不再需要修改分布式文件系统 HDFS 架构详解4.4在靠近计算数据所存储的位置来进行计算是最

15、理想的状态在数据达到海量级别的时候更是如此可消除网络的拥堵,提高系统的整体吞吐量移动计算比移动数据更经济分布式文件系统 HDFS 架构详解4.4异构软硬件平台间的可移植性 HDFS 被设计为可以简便地实现 平台间的迁移 这将推动需要大数据集的应用更广泛地采用 HDFS 作为平台分布式文件系统 HDFS 架构详解4.4 将 HDFS 用于要求低延迟数据访问的场景 存储大量小型数据文件不适合的存储场景分布式文件系统 HDFS 架构详解4.4 机架 成百上千台机器,其物理组织形式上通常是安装在“机架”中 通常情况下,一个机架可安装 2-8台机器 若干机架再组成一个大型系统分布式文件系统 HDFS 架

16、构详解4.4 HDFS 基本架构分布式文件系统 HDFS 架构详解4.4 组件功能说明 Block(数据块)大文件会被分割成多个 Block 进行存储, Block 大小默认为 128MB。Hadoop 1.0默认的数据块的大小是 64兆。在 Hadoop2.0之后,默认大小才是 128兆。分布式文件系统 HDFS 架构详解4.4 组件功能说明每一个 Block 会在多个 DataNode 上存储多个副本,默认值为 3如果配置的值越高,就会稳定性就越高。默认存储的是三份,一个数据块存了三个不同 data node上。如果其中的一个节点发生了硬件故障,比如说磁盘坏了,整个机器都 down掉了,这

17、个数据节点上的数据块就读取不到了。 没关系,可以从其他的两个数据节点上来读取。分布式文件系统 HDFS 架构详解4.4如果这个值配置的比较高,改成 6也就说一个数据块要存储到 6个数据节点上, 6台机器同时发生故障的概率会非常的小。是不是这个值越大就越好呢 ?并不是这样子的 。如果这个值越大,同一个数据块所存储的份数越多,它所占用的磁盘空间就越大,所以说成本付出的也就会越大。要做一个平衡,一般默认值是 3,相对来说比较合理的。分布式文件系统 HDFS 架构详解4.4 组件功能说明 Rack(机架)一个数据块默认有三个副本。这三个副本在机架当中,它是怎么做存储的呢?HDFS要求是保存到两个或者是

18、两个机架以上的服务器当中。 也就是说同一个数据块的三个备份。如果三个数据块,全都存储到同一个机架当中的三台数据节点当中,那一个机架是同一个电源的,所以通常会把同一个数据块的副本保存到两个或者两个机架以上。分布式文件系统 HDFS 架构详解4.4比如三个副本,一个机架上保存两份,另外一个机架保存一份。好,这样就保存两个机架。如果是一个机架发生了硬件故障,在另外一个机架上还有一份数据,这样做是为了防灾容错。因为一个机架掉电或者整个机架发生故障,还是有这种可能的。分布式文件系统 HDFS 架构详解4.4 组件功能说明 DataNode(存储数据的节点)用来负责处理文件系统客户端读写请求的,也就说客户

19、端读和写,真正操作的节点就是DataNode数据节点,数据的读写、操作、删除和复制都是有 DataNode直接来实现的。Name Node是主节点,它是用来负责管理文件的目录,也就是文件、 Block以及存储位置的对应关系 ,能够实现 Block和 DataNode的映射关系。分布式文件系统 HDFS 架构详解4.4要把一个大的数据存储到 HDFS中,首先 name node要来做一个数据块的划分。比如说把文件划分成了 1000个数据块。这 1000个数据块要存储到哪些 data node上是 name node来负责进行相应的映射和管理。分布式文件系统 HDFS 常用命令4.4HDFS 文件

20、操作命令包括 列目录( ls) 、创建 文件或目录 、修改 权限或属主 、与 本地操作系统(例如 Linux )交换文件等分布式文件系统 HDFS 常用命令4.4HDFS 文件操作命令它们与 Linux 命令基本相同,命令的通用格式为 hdfs dfs args cmd表示具体的操作命令 args表示命令所需的参数例如:以下命令列出 HDFS 指定目录下的文件:hdfs dfs ls 分布式文件系统 HDFS 常用命令4.4HDFS 路径(称为资源)使用 URI 格式来表示:scheme:/authority/pathURI各组成部分说明如下scheme:协议名, file或 hdfsauth

21、ority: NameNode主机名+端口号path:文件路径例 如hdfs:/ubuntu18:9000/data/input/data分布式文件系统 HDFS 常用命令4.4HDFS 路径(称为资源)使用 URI 格式来表示:scheme:/authority/pathURIscheme:协议名, file或 hdfs各组成部分说明如下authority: NameNode主机名 +端口 号path:文件路径分布式文件系统 HDFS 常用命令4.4hdfs:/ubuntu18:9000/data/input/data例 如分布式文件系统 HDFS 常用命令4.4HDFS 命令示例 (一 )

22、在目录 下创建 trunk 子目录hdfs dfs -mkdir /trunk列出 /目录下所有文件和 子目录递归列出 /目录下所有文件和子目录hdfs dfs -ls /hdfs dfs ls -r /将本地当前目录下的 test.txt文件上传至 HDFS 的 /trunk目录hdfs dfs -put test.txt /trunk分布式文件系统 HDFS 常用命令4.4HDFS 命令示例 (二 )将 HDFS/trunk/test.txt 文件下载至本地当前目录查看 /trunk/test.txt 文件的 尾部内容 (最后 1K)查看 /trunk/test.txt 文件内容hades

23、 dfs -ls /hades dfs ls -r /删除 /trunk/test.txt 文件hades dfs -put test.txt /trunkhdfs dfs -get /trunk/test.txt 分布式文件系统 HDFS 常用命令4.4报告 HDFS 信息查看 HDFS 文件系统的基本信息和统计信息hdfs dfsadmin -report分布式文件系统 HDFS 管理命令4.4管理安全模式当 Hadoop 启动时, NameNode 首先进入安全模式dfsadmin 的 safemode 命令用于安全模式的操作:hdfs dfsadmin safemode 分布式文件系统

24、 HDFS 管理命令4.4参数 arg 可以是以下值enter:进入安全模式leave:强制 NameNode 离开安全模式get:获取安全模式是否开启的信息wait:等待,到安全模式结束分布式文件系统 HDFS 管理命令4.4 随着 HDFS 系统上数据读写的不断进行,各 DataNode节点上的数据块会逐渐变得不均衡 可用来根据存储策略重新分配数据,将数据从过度使用的节点移到使用率较低的节点,以达到存储的平衡HDFS 提供了调节存储平衡的 工具start-balancer.sh非关系型 数据库4.3Hadoop2.x 安装与配置Hadoop2.x 启动与验证HDFS 系统架构HDFS 操作命令第 四 讲 :分布式文件系统大数据计算框架简介MapReduceSpark下一 讲 :大数据计算框架

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报