收藏 分享(赏)

大数据学习路径2.docx

上传人:cjc2202537 文档编号:993949 上传时间:2018-05-14 格式:DOCX 页数:36 大小:2.62MB
下载 相关 举报
大数据学习路径2.docx_第1页
第1页 / 共36页
大数据学习路径2.docx_第2页
第2页 / 共36页
大数据学习路径2.docx_第3页
第3页 / 共36页
大数据学习路径2.docx_第4页
第4页 / 共36页
大数据学习路径2.docx_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、大数据经典学习路线(及供参考)1.Linux 基础和分布式集群技术学完此阶段可掌握的核心能力:熟练使用 Linux,熟练安装 Linux 上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;学完此阶段可解决的现实问题:搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务;学完此阶段可拥有的市场价值:具备初级程序员必要具备的 Linux 服务器运维能力。1.内容介绍:在大数据领域,使用最多的操作系统就是 Linux 系列,并且几乎都是分布式集群。该课程为大数据的基础课程,主要介绍 Linux 操作系统、Linux 常用命令、Lin

2、ux 常用软件安装、Linux 网络、防火墙、Shell 编程等。2.案例:搭建互联网高并发、高可靠的服务架构。2.离线计算系统课程阶段1. 离线计算系统课程阶段HADOOP 核心技术框架学完此阶段可掌握的核心能力:1、通过对大数据技术产生的背景和行业应用案例了解 hadoop 的作用;2、掌握 hadoop底层分布式文件系统 HDFS 的原理、操作和应用开发;3、掌握 MAPREDUCE 分布式运算系统的工作原理和分布式分析应用开发;4、掌握 HIVE 数据仓库工具的工作原理及应用开发。学完此阶段可解决的现实问题:1、熟练搭建海量数据离线计算平台;2、根据具体业务场景设计、实现海量数据存储方

3、案;3、根据具体数据分析需求实现基于 mapreduce 的分布式运算程序;学完此阶段可拥有的市场价值:具备企业数据部初级应用开发人员的能力1.1 HADOOP 快速入门1.1.1 hadoop 知识背景什么是 hadoop、hadoop 产生背景、 hadoop 在大数据云计算中的位置和关系、国内hadoop 的就业情况分析及课程大纲介绍国内外 hadoop 应用案例介绍分布式系统概述、hadoop 生态圈及各组成部分的简介1.1.2 HIVE 快速入门hive 基本介绍、hive 的使用、数据仓库基本知识1.1.3 数据分析流程案例web 点击流日志数据挖掘的需求分析、数据来源、处理流程、

4、数据分析结果导出、数据展现1.1.4 hadoop 数据分析系统集群搭建集群简介、服务器介绍、网络环境设置、服务器系统环境设置、JDK 环境安装、hadoop集群安装部署、集群启动、集群状态测试HIVE 的配置安装、HIVE 启动、HIVE 使用测试1.2 HDFS 详解1.2.1 HDFS 的概念和特性什么是分布式文件系统、HDFS 的设计目标、HDFS 与其他分布式存储系统的优劣势比较、HDFS 的适用场景1.2.2 HDFS 的 shell 操作HDFS 命令行客户端启动、HDFS 命令行客户端的基本操作、命令行客户端支持的常用命令、常用参数介绍1.2.3 HDFS 的工作机制HDFS

5、系统的模块架构、HDFS 写数据流程、HDFS 读数据流程NAMENODE 工作机制、元数据存储机制、元数据手动查看、元数据 checkpoint 机制、NAMENODE 故障恢复、DATANODE 工作机制、DATANODE 动态增减、全局数据负载均衡1.2.4 HDFS 的 java 应用开发搭建开发环境、获取 api 中的客户端对象、HDFS 的 java 客户端所具备的常用功能、HDFS 客户端对文件的常用操作实现、利用 HDFS 的 JAVA 客户端开发数据采集和存储系统1.3 MAPREDUCE 详解1.3.1 MAPREDUCE 快速上手为什么需要 MAPREDUCE、MAPRE

6、DUCE 程序运行演示、MAPREDUCE 编程示例及编程规范、MAPREDUCE 程序运行模式、MAPREDUCE 程序调试 debug 的几种方式1.3.2 MAPREDUCE 程序的运行机制MAPREDUCE 程序运行流程解析、MAPTASK 并发数的决定机制、MAPREDUCE 中的combiner 组件应用、MAPREDUCE 中的序列化框架及应用、MAPREDUCE 中的排序、MAPREDUCE 中的自定义分区实现、MAPREDUCE 的 shuffle 机制、MAPREDUCE 利用数据压缩进行优化、MAPREDUCE 程序与 YARN 之间的关系、MAPREDUCE 参数优化通

7、过以上各组件的详解,深刻理解 MAPREDUCE 的核心运行机制,从而具备灵活应对各种复杂应用场景的能力MAPREDUCE 实战编程案例:通过一个实战案例来熟悉复杂 MAPREDUCE 程序的开发。该程序是从 nginx 服务器产生的访问服务器中计算出每个访客的访问次数及每次访问的时长。原始数据样例如下:通过一系列的 MAPREDUCE 程序清洗、过滤、访问次数及时间分析,最终计算出需求所要的结果,用于支撑页面展现:1.4 HIVE 增强1.4.1 HIVE 基本概念HIVE 应用场景、HIVE 内部架构、HIVE 与 hadoop 的关系、 HIVE 与传统数据库对比、HIVE 的数据存储机

8、制、HIVE 的运算执行机制1.4.2 HIVE 基本操作HIVE 中的 DDL 操作、HIVE 中的 DML 操作、在 HIVE 中如何实现高效的 JOIN 查询、HIVE 的内置函数应用、HIVE shell 的高级使用方式、HIVE 常用参数配置、HIVE 自定义函数和 TRANSFORM 的使用技巧、 HIVE UDF 开发实例1.4.3 HIVE 高级应用HIVE 执行过程分析及优化策略、HIVE 在实战中的最佳实践案例、HIVE 优化分类详解、HIVE 实战案例-数据 ETL、HIVE 实战案例-用户访问时长统计HIVE 实战案例-级联求和报表实例:离线数据挖掘系统学完此阶段可掌握的核心能力:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 教育学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报