ImageVerifierCode 换一换
格式:PPT , 页数:35 ,大小:2.15MB ,
资源ID:2716841      下载积分:20 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-2716841.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第8讲:Pig应用开发.ppt)为本站会员(dreamzhangning)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

第8讲:Pig应用开发.ppt

1、第9讲 Pig开发应用,主要内容,Pig 是什么? 安装Pig Grunt shell及shell命令 Pig latin语言 例子,pig,Pig是一个用于并行计算的高级数据流语言和执行框架,是map-reduce上构建的一种高级查询语言。 处理大数据集。 Pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作 Pig方便不熟悉java的用户,使用一种较为简便的类似于SQL的面向数据流的语言pig latin进行数据处理 Pig latin可以进行排序、过滤、求和、分组、关联等常用操作,还可以自定义函数,这是一种面向数据分析处理的轻量级脚本语言 Pig可以看做是p

2、ig latin到map-reduce的映射器,Pig特点:,Pig的底层由一个编译器组成,他在运行的时候会产生一些mapreduce程序序列,并且这里大规模的并行依然存在。当前,pig的语言层由一个叫做Pig Latin的正文型语言组成,有如下特点: 易于编程:对于那些简单的并且不易并行的数据分析任务并不需要实行并行执行的目标。多重关联的数据转换任务需要明确被编码成数据流序列,让他们易于被书写、理解和掌握。 最优化机会:任务被编码的方式允许系统执行的时候进行自动优化,用户更需要注意的是程序语义的设计而不是效率。 扩展性:用户能自定义函数来实现特殊的目的。,Pig框架,安装pig,下载并解压p

3、ig安装包( http:/pig.apache.org/) 设置环境变量 进入grunt shell验证,下载并解压pig安装包,编辑环境变量,重新登录使环境变量生效,用set命令检查环境变量,进入grunt shell,Pig工作模式,本地模式:所有文件和执行过程都在本地,一般用于测试程序 输入pig x local Mapreduce模式(hadoop模式):实际工作模式 输入pig,配置pig的map-reduce模式,设置PATH,增加指向hadoop/bin 设置PIG_CLASSPATH环境变量 修改hosts文件 启动pig,设置PIG_CLASSPATH环境变量,设置完成后重新

4、登录使环境变量生效,修改hosts文件,启动grunt shell,Pig参考文档大全,Pig的运行方法,脚本 ( pig x local /home/pig/sc/sc.pig) Grunt 嵌入式,Grunt,自动补全机制 Autocomplete文件 Eclipse插件PigPen,Grunt shell命令,ls、cd、cat,copyToLocal,执行操作系统命令:sh,Pig数据模型,Bag:表 Tuple:行,记录 Field:属性 Pig不要求同一个bag里面的各个tuple有相同数量或相同类型的field,Pig latin常用语句,LOAD:指出载入数据的方法 FOREA

5、CH:逐行扫描进行某种处理 FILTER:过滤行 DUMP:把结果显示到屏幕 STORE:把结果保存到文件,LOAD、FOREACH、STORE三部曲,结果,UDF,支持使用Java、Python、Javascript三种语言编写UDF Java自定义函数较为成熟,其它两种功能还有限,用PIG实现各种SQL的效果,http:/ Latin 进阶 数据格式 任务目标: 计算一名学生被多少位老师教过 方法一: 先 DISTINCT, 再计数 DISTINCT 能够对所有数据去重 方法二: 先分组 FOREACH 嵌套 使用 DISTINCT,学生成绩处理,任务目标二: 找出每位老师最优秀的两名学生 步骤一: GROUP BY GROUP BY 的嵌套方法 步骤二: ORDER BY FOREACH 嵌套 步骤三: LIMIT 配合 ORDER BY 使用 步骤四: FLATTEN 去括号过程,谢 谢!,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报