(4.1)--大数据导论第四章.pdf-道客多多

资源描述

1、大数据导论第一章：大数据概述contents目录第二章：大数据技术基础第三章：大数据的采集与清洗第四章：大数据的存储与管理第五章：大数据计算框架第六章：大数据分析挖掘第七章：大数据可视化第八章：大数据与云计算第九章：大数据行业案例第十章：大数据导论课程介绍PART4大数据的存储与管理第一节：数据管理与存储概述第二节：关系型数据库第三节：非关系型数据库第四节：分布式文件系统第一节：数据管理与存储概述数据存储与管理概述4.1数据存储管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。目的在于充分有效地发挥数据的作用。大数据时代存储管理系统广

2、泛使用的存储管理系统数据存储与管理概述4.1普通的文件系统关系型数据库分布式文件系统 HDFS非关系型数据库数据存储与管理概述文件系统4.1提供命名文件及放置文件的逻辑存储和恢复等功能文件被放置在分等级的 (树状 )结构中DOS、 Windows、 OS、 Macintosh 和UNIX-based 操作系统都有文件系统文件系统数据存储与管理概述分布式文件系统4.1分布式文件系统文件分布存储到多个计算机节点计算机节点构成计算机集群常见关系型数据库数据存储与管理概述关系型数据库4.1关系型数据库把复杂的数据结构归结为简单的二元关系(即二维表格形式 )通过对表格分类、合并、连接或选

3、取等运算来实现数据的管理ORACLESQLServerMySQLSQLite常见非关系型数据库数据存储与管理概述关系型数据库4.1非关系型数据库列式存储文档存储Key-Value图结构存储MongodbHbaseRedisNeo4j数据存储与管理概述4.1数据存储与管理概述分布式文件系统关系型数据库非关系型数据库第一讲 :数据存储与管理概述MySQL 介绍MySQL 数据库常用操作下一讲 :关系型数据库第二节：关系型数据库4.2MySQL最初是由“ MySQL AB”公司开发的一套关系型数据库管理系统 (RDBMS)MySQL不仅是最流行的开源数据库 ,而且是业界增长最快的数据库

4、 ,其应用范围从大型企业到专有的嵌入应用系统。关系型数据库 -MySQL发展简史关系型数据库 -MySQL发展简史4.22008年初， Sun Microsystems收购了MySQL AB公司2009年， Oracle收购了 Sun公司，使MySQL并入 Oracle的数据库产品线4.2 关系型数据库 -MySQL产品构成MySQL数据库是公认的简单易用、高性能及高可靠性的产品。具体产品MySQL 企业服务器MySQL 社区服务器MySQL嵌入数据库MySQL集群4.2 关系型数据库 -基本概念表 :二维数组的集合，用来代表和储存数据对象之间的关系。行 :也叫元组

5、或记录，在表中是一条横向的数据集合。列 :一条纵行的数据集合，定义了表中的数据结构，也叫字段。关系型数据库4.2查看 MySQL服务状态的命令 :systemctl status mysql.service启动 MySQL服务的命令为： systemctl start mysql.service停止 MySQL服务的命令为： systemctl stop mysql.service重启 MySQL服务的命令为： systemctl restart mysql.service连接数据库的命令为： sudo mysql -uroot -p关系型数据库4.2关系型数据库 MySQL

6、启动与停止手动启动 MySQL服务的命令为shell net start mysql手动停止 MySQL服务的命令为shell net stop mysql关系型数据库 MySQL 常用命令4.2查看现有的数据库show databases指定当前缺省数据库use 查看当前数据库SELECT DATABASE()关系型数据库 SQL4.2创建数据库表： CREATE DATABASE 其它参数删除： DELETE FROM 表名 WHERE 条件表达式查询： SELECT * FROM 表 WHERE 条件表达式增加： INSERT INTO 表名 (列名 1， .) VA

7、LUES (列值 1， .) 修改： UPDATE 表名 SET 列名 =值 WHERE 条件表达式关系型数据库4.2关系型数据库关系型数据库 MySQL 常用命令关系型数据库 SQL第二讲 :关系型数据库非关系型数据库 Mongo 介绍非关系型数据库 Mongo 基本概念下一讲 :非关系型数据库第三节：非关系型数据库非关系型数据库 Mongo 介绍4.3 MongoDB 是一种用的比较多的文档数据库。是非关系数据库当中功能最丰富，最像关系数据库的数据库。非关系型数据库 Mongo 介绍4.3MongoDB 是一个基于分布式文件存储的数据库，它是由 C+语言进行编写的

8、，它的目的是为 web应用提供可扩展的高性能数据存储解决方案。非关系型数据库 Mongo 介绍4.3MongoDB 的最大特点就是说它支持的查询语言非常强大，它的语法就类似于面向对象的查询语言，几乎可以实现类似关系数据库当中表单查询的绝大部分的一些功能。非关系型数据库 Mongo 基本概念4.3mongoDB的应用场景网站缓存应用场景非关系型数据库 Mongo 基本概念4.3文档有固定格式（有序键值对）的文本文件，相当于表中的一条记录文档的键键是字符串类型，MongoDB 的文档不能有重复的键集合多个文档组成一个集合，相当于关系型数据库的表数据库一个 MongoDB 实例可以包含多个数据

9、库、一个数据库可以包含多个集合、一个集合可以包含多个文档非关系型数据库 Mongo 常用操作4.3MongoDB 连接MongoDB 安装目录的bin 目录下执行 mongodb非关系型数据库 Mongo 常用操作4.3创建和删除数据库创建数据库： use DATABASE_NAME删除数据库： db.dropDatabase()非关系型数据库 Mongo 常用操作4.3创建和删除集合创建集合： db.createCollection(name, options)删除集合： db.collection.drop()非关系型数据库 Mongo 常用操作4.3插入和更新文档插入文档： db.CO

10、LLECTION_NAME.insert(document)更新文档： db.collection.update()非关系型数据库 Mongo 常用操作4.3查询和删除文档查询文档： db.collection.find(query, projection)删除文档： db.collection.remove()非关系型数据库4.3MongoDB 介绍基本概念MongoDB 操作第三讲 :非关系型数据库Hadoop2.x 安装与配置Hadoop2.x 启动Hadoop2.x 验证下一讲 :分布式文件系统第四节：分布式文件系统分布式文件系统 Hadoop2.x 安装与配置4.4第

11、一步第二步第三步Hadoop2.x 安装步骤安装 JDK，配置环境变量并生效解压安装Hadoop2.x ，配置环境变量并生效配置免密 SSH分布式文件系统 Hadoop2.x 安装与配置4.4Hadoop2.x 配置文件1. hadoop-env.sh2. hdfs-site.xml3. core-site.xml4. mapred-site.xml5. yarn-site.xml6. slaves分布式文件系统 Hadoop2.x 启动4.4Hadoop2.x 启动 HDFS 服务使用“ start-dfs.sh”命令启动 HDFS 服务使用“ jps”命令查看启动进程分布

12、式文件系统 Hadoop2.x 验证4.4Hadoop2.x 检查 dfs 安全模式使用“ hdfs dfsadmin safemode get”命令查看安全模式状态如果安装模式处于“ OFF” 状态，方可对HDFS 系统进行写操作分布式文件系统 HDFS 架构详解4.4HDFS 设计目标硬件故障数据访问大数据集简单一致性模型移动计算比移动数据更经济异构软硬件平台间的可移植性分布式文件系统 HDFS 架构详解4.401Hadoop2.x 安装步骤整个 HDFS 系统可能是由数百或数千个存储着文件数据片段的服务器组成，因此硬件故障是常态，而非异态02故障检测和自动快速恢复是 HDFS

13、一个非常核心的设计目标分布式文件系统 HDFS 架构详解4.4硬件故障整个 HDFS 系统可能是由数百或数千个存储着文件数据片段的服务器组成因此硬件故障是常态，而非异态故障检测和自动快速恢复是 HDFS 一个非常核心的设计目标分布式文件系统 HDFS 架构详解4.4HDFS 被设计为适合批量处理，而不是用户交互式的其支持的重点是在数据吞吐量上，而不是数据访问的反应时间数据访问分布式文件系统 HDFS 架构详解4.4关系型数据库，在客户端下一个命令，然后立马会做一个数据的响应，这个速度非常的快。对用户来说这就是交互式的。交互式访问HDFS上面的一些数据，包括数据库的处理。速度没有这么快，所

14、以他重点支持的是数据的吞吐量，而不是数据的反应的一个时间。有可能让他去做一个任务，做一个数据的处理，有可能几个小时甚至几天的时间，他要把这些数据才能处理完毕。分布式文件系统 HDFS 架构详解4.4大数据集典型的 HDFS 文件大小是 GB 到 TB 的级别HDFS 被设计为可支持大文件存储一个集群里扩展到数百个节点，支持千万级别的文件分布式文件系统 HDFS 架构详解4.4简单一致性模型大部分 HDFS 应用程序对文件操作需要的是一次写入多次读取的操作模式文件一旦被创建、写入、关闭之后，就不再需要修改分布式文件系统 HDFS 架构详解4.4在靠近计算数据所存储的位置来进行计算是最

15、理想的状态在数据达到海量级别的时候更是如此可消除网络的拥堵，提高系统的整体吞吐量移动计算比移动数据更经济分布式文件系统 HDFS 架构详解4.4异构软硬件平台间的可移植性 HDFS 被设计为可以简便地实现平台间的迁移这将推动需要大数据集的应用更广泛地采用 HDFS 作为平台分布式文件系统 HDFS 架构详解4.4 将 HDFS 用于要求低延迟数据访问的场景存储大量小型数据文件不适合的存储场景分布式文件系统 HDFS 架构详解4.4 机架成百上千台机器，其物理组织形式上通常是安装在“机架”中通常情况下，一个机架可安装 2-8台机器若干机架再组成一个大型系统分布式文件系统 HDFS 架

16、构详解4.4 HDFS 基本架构分布式文件系统 HDFS 架构详解4.4 组件功能说明 Block（数据块）大文件会被分割成多个 Block 进行存储， Block 大小默认为 128MB。Hadoop 1.0默认的数据块的大小是 64兆。在 Hadoop2.0之后，默认大小才是 128兆。分布式文件系统 HDFS 架构详解4.4 组件功能说明每一个 Block 会在多个 DataNode 上存储多个副本，默认值为 3如果配置的值越高，就会稳定性就越高。默认存储的是三份，一个数据块存了三个不同 data node上。如果其中的一个节点发生了硬件故障，比如说磁盘坏了，整个机器都 down掉了，这

17、个数据节点上的数据块就读取不到了。没关系，可以从其他的两个数据节点上来读取。分布式文件系统 HDFS 架构详解4.4如果这个值配置的比较高，改成 6也就说一个数据块要存储到 6个数据节点上， 6台机器同时发生故障的概率会非常的小。是不是这个值越大就越好呢？并不是这样子的。如果这个值越大，同一个数据块所存储的份数越多，它所占用的磁盘空间就越大，所以说成本付出的也就会越大。要做一个平衡，一般默认值是 3，相对来说比较合理的。分布式文件系统 HDFS 架构详解4.4 组件功能说明 Rack（机架）一个数据块默认有三个副本。这三个副本在机架当中，它是怎么做存储的呢？HDFS要求是保存到两个或者是

18、两个机架以上的服务器当中。也就是说同一个数据块的三个备份。如果三个数据块，全都存储到同一个机架当中的三台数据节点当中，那一个机架是同一个电源的，所以通常会把同一个数据块的副本保存到两个或者两个机架以上。分布式文件系统 HDFS 架构详解4.4比如三个副本，一个机架上保存两份，另外一个机架保存一份。好，这样就保存两个机架。如果是一个机架发生了硬件故障，在另外一个机架上还有一份数据，这样做是为了防灾容错。因为一个机架掉电或者整个机架发生故障，还是有这种可能的。分布式文件系统 HDFS 架构详解4.4 组件功能说明 DataNode（存储数据的节点）用来负责处理文件系统客户端读写请求的，也就说客户

19、端读和写，真正操作的节点就是DataNode数据节点，数据的读写、操作、删除和复制都是有 DataNode直接来实现的。Name Node是主节点，它是用来负责管理文件的目录，也就是文件、 Block以及存储位置的对应关系 ,能够实现 Block和 DataNode的映射关系。分布式文件系统 HDFS 架构详解4.4要把一个大的数据存储到 HDFS中，首先 name node要来做一个数据块的划分。比如说把文件划分成了 1000个数据块。这 1000个数据块要存储到哪些 data node上是 name node来负责进行相应的映射和管理。分布式文件系统 HDFS 常用命令4.4HDFS 文件

20、操作命令包括列目录（ ls）、创建文件或目录、修改权限或属主、与本地操作系统（例如 Linux ）交换文件等分布式文件系统 HDFS 常用命令4.4HDFS 文件操作命令它们与 Linux 命令基本相同，命令的通用格式为 hdfs dfs args cmd表示具体的操作命令 args表示命令所需的参数例如：以下命令列出 HDFS 指定目录下的文件：hdfs dfs ls 分布式文件系统 HDFS 常用命令4.4HDFS 路径（称为资源）使用 URI 格式来表示：scheme:/authority/pathURI各组成部分说明如下scheme：协议名， file或 hdfsauth

21、ority： NameNode主机名+端口号path：文件路径例如hdfs:/ubuntu18:9000/data/input/data分布式文件系统 HDFS 常用命令4.4HDFS 路径（称为资源）使用 URI 格式来表示：scheme:/authority/pathURIscheme：协议名， file或 hdfs各组成部分说明如下authority： NameNode主机名 +端口号path：文件路径分布式文件系统 HDFS 常用命令4.4hdfs:/ubuntu18:9000/data/input/data例如分布式文件系统 HDFS 常用命令4.4HDFS 命令示例 (一 )

22、在目录下创建 trunk 子目录hdfs dfs -mkdir /trunk列出 /目录下所有文件和子目录递归列出 /目录下所有文件和子目录hdfs dfs -ls /hdfs dfs ls -r /将本地当前目录下的 test.txt文件上传至 HDFS 的 /trunk目录hdfs dfs -put test.txt /trunk分布式文件系统 HDFS 常用命令4.4HDFS 命令示例 (二 )将 HDFS/trunk/test.txt 文件下载至本地当前目录查看 /trunk/test.txt 文件的尾部内容（最后 1K）查看 /trunk/test.txt 文件内容hades

23、 dfs -ls /hades dfs ls -r /删除 /trunk/test.txt 文件hades dfs -put test.txt /trunkhdfs dfs -get /trunk/test.txt 分布式文件系统 HDFS 常用命令4.4报告 HDFS 信息查看 HDFS 文件系统的基本信息和统计信息hdfs dfsadmin -report分布式文件系统 HDFS 管理命令4.4管理安全模式当 Hadoop 启动时， NameNode 首先进入安全模式dfsadmin 的 safemode 命令用于安全模式的操作：hdfs dfsadmin safemode 分布式文件系统

24、 HDFS 管理命令4.4参数 arg 可以是以下值enter：进入安全模式leave：强制 NameNode 离开安全模式get：获取安全模式是否开启的信息wait：等待，到安全模式结束分布式文件系统 HDFS 管理命令4.4 随着 HDFS 系统上数据读写的不断进行，各 DataNode节点上的数据块会逐渐变得不均衡可用来根据存储策略重新分配数据，将数据从过度使用的节点移到使用率较低的节点，以达到存储的平衡HDFS 提供了调节存储平衡的工具start-balancer.sh非关系型数据库4.3Hadoop2.x 安装与配置Hadoop2.x 启动与验证HDFS 系统架构HDFS 操作命令第四讲 :分布式文件系统大数据计算框架简介MapReduceSpark下一讲 :大数据计算框架

展开阅读全文