ImageVerifierCode 换一换
格式:DOCX , 页数:34 ,大小:5.69MB ,
资源ID:2206587      下载积分:20 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-2206587.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(【大数据学习】数据化运营并不难?关键是这些技术你get了么?!.docx)为本站会员(dreamzhangning)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

【大数据学习】数据化运营并不难?关键是这些技术你get了么?!.docx

1、【大数据学习】数据化运营并不难?关键是这些技术你 get 了么?!本文章来自于阿里云云栖社区摘要: 1 月 15 日在北京举行了首次阿里云大数据合作伙伴深度培训,我司获邀参加,我和两名研发的同学又一次来到了阿里巴巴望京园区。 培训的第一部分内容、数加的介绍及应用 除了介绍性内容之外,还是有干货的,这个干货就是 MaxCompute 的实践。免费开通大数据服务: https:/ 月 15 日在北京举行了首次阿里云大数据合作伙伴深度培训,我司获邀参加,我和两名研发的同学又一次来到了阿里巴巴望京园区。 培训的第一部分内容、数加的介绍及应用除了介绍性内容之外,还是有干货的,这个干货就是 MaxComp

2、ute 的实践。MaxCompute 原来叫做 ODPS, 大数据不是用来吹的! 通过数据分析能够获得的好处有很多,但最重要的是获得数据化运营的能力!为啥要数据化运营?因为:百度、阿里巴巴、腾讯、苹果、谷歌、亚马逊的运营一个比一个的数据化,一个赛一个的赚钱!又开始讲数据仓库了,说这个干嘛,我们不是要数据化运营吗?没有数据咋运营,数据多了自然就需要仓库放呗!数据仓库领域已经发展了 30 多年了,大数据不是在颠覆,而是继承和扩展了相关领域知识。大数据和小数据的分析处理流程是基本一致的。你听说过星型模型么?那你听说过范式模型么?反正,在数据分析应用场景下是不太关注数据重复的,通常采用星型模型组织数据

3、;在线业务应用场景需要尽量避免数据的重复存储,通常采用范式模型进行数据存储。星型模型就是通过把数据组织成维度和事实表的一种数据建模方式,数据通过星型模式组织更有利于理解和分析。这种建模方式数据仓库已经用了三十年,大数据仓库还要继续用。什么是大数据?体量、数量、技术、潮流都不是重点!这个话是阿里说的哈,不是我说的。数据大了,传统方式搞不定了,两个办法来解决:减治和分治。目前有三种主要的大数据计算场景:离线计算、在线计算、流式计算。MaxCompute 主打离线计算、在线计算有阿里云的 ADS(分析型数据库)、流式计算阿里云有正在公测的 StreamCompute。其他的还有图计算和内存计算,阿里

4、自己内部在用,目前还没有通过阿里云对外输出。阿里云大数据的使用场景包括:数据仓库:最大一坨的应用场景,最顶层是数据可视化、下面是 BI 报表和机器学习、开发用的是大数据开发平台(DateIDE)、基础是计算平台(其中最主要的是 MaxCompute)。数据可视化:数据可视化可以单独拿出来应用,只要你把数据给它,他就能给你变出“花” 来。智能算法:机器翻译、人脸识别、智能语音交互、印刷文字识别、电商图片分析、通用图片分析等算法你都可以通过 API 调用的方式来使用。数据应用:通过把算法结合具体的应用场景,阿里推出了推荐引擎、规则引擎、移动定向营销、移动数据分析等数据应用。刚才那个图,换一种方式来

5、表示。阿里的人总是反复说:他们最关注的还是底层的计算引擎、数据加工和分析工具,上面的应用和解决方案主要还是得依靠合作伙伴来结合具体的应用场景进行创新。阿里云大数据的场景解决方案和大数据产品。第一场景、经典的数据仓库和 BI,第一是说最经典的、还是最常见、或是最重要的、还是最赚钱的?这个场景,其实就是基于阿里云大数据平台在做传统 BI。开发人员借助于大数据开发平台(DateIDE)操作大数据计算服务(MaxCompute)完成数据分析任务、最终数据通过 BI 报表(QuickBI)呈现。场景二、只是稍微复杂了那么一点儿。最主要的差别是引入了智能算法,通过对存储在对象存储(OSS)中的海量非结构化

6、数据运用机器学习算法进行处理,形成结构化数据之后再导入大数据计算服务(MaxCompute),结合关系型数据库中导入的数据一起来做分析。一种可能的场景是:在客服满意度调查分析中,对存储在 OSS 中的客户服务录音进行语音识别,形成文本,再对文本信息通过语义建模抽取关键信息后结合用户交易历史数据对客户服务的最终效果进行跟踪分析。场景三、数据平台除了自己的数据以外,还引入了第三方数据,打造数据生态。阿里云方面的产品嘛,还是那些东西。场景四:经典人工智能。主要就是 MaxCompute 结合了阿里云提供的机器学习算法。应用场景一:个性化推荐阿里是做电商起家的,对于产品推荐自然是行家。应用场景二:数据

7、可视化阿里帮你把数据可视化的框架搭起来了,你往里填数据就行了。应用场景三:智能语音阿里自己的电话客户服务可以做到 100%质检,指望人来听是不现实的,阿里都是用机器听的。更牛的是,据说今年阿里双 11 的客户服务绝大部分都是机器做的,不过,你信么?开始讲干货了:MaxComputeMaxCompute 主打批处理,底层模型和 Hadoop 的 MapReduce 类似,据说阿里是用 C+把 Hadoop 的 MapReduce 重新实现了,原来是基于 Java的。MaxCompute 的主要应用场景:第一、最基本的就是数据仓库和 BI,主要用 SQL 开发,结合少量UDF(用户自定义函数)。第

8、二、目前 Graph 在公测,是基于图计算模型的分布式应用,这个主要用在机器学习领域,当阿里提供的算法不够用时,可以自己 DIY。第三、支持机器学习和数据挖掘,阿里提供了很多成熟算法,这些算法的训练和分析数据主要是存储在 MaxCompute 上的。图计算的主要用户应该是科学家。机器学习和大数据统计是统计分析师们的最爱。重点是 MaxCompute SQL,对于计算机工程技术人员来说,日后主打的工具就是它了。以下是 MaxCompute SQL 的介绍。MaxCompute 的主要概念:项目空间、表、分区。三种用户自定义函数:UDF、UDTF、UDAF。目前的用户自定义函数都是用 Java 语

9、言实现的,编译形成 JAR 包后上传到 MaxCompute 作为资源使用,可以在 SQL 中和内置函数一样调用。UDF 的输入和输出是一对一的。UDTF 的输入和输出是一对多的。UDAF 的输入和输出是多对一的。用户自定义函数的开发和使用过程。第二部分、Date IDEMaxCompute 有一个命令行工具,还有一个图形化开发环境叫做 Date IDE。Date IDE 的功能不仅是一个开发环境,还包括调度管理和监控运维。数据化运营是一个长期过程,一旦开始就意外着要进行不断的投入和运维。开了一个项目空间,看看有啥功能。数据的处理步骤通过节点来组织。可以对节点设置调度、依赖和监控,如果真的开始

10、了数据化运营,如果哪一天没有数据输出就是一场灾难。第三部分、一个案例:海量日志数据分析把前面介绍的内容整体穿起来,放在一个应用场景下介绍。为啥要分析日志?案例中用到的产品:MaxCompute、Date IDE、Quick BI。整体的流程:这个流程图是在 Date IDE 中通过拖拽形成的。第一步,数据的采集。MaxCompute 支持各种导入数据的方式。第二步,数据的处理分析。阿里自己通常会把数据分成三层来处理:ODS 层、为了避免影响在线业务的运行,通常不进行处理,先把数据直接导进来放在 ODS 层。DW 层、使用星型模型重新组织数据,分成维度表行和事实表。RPT 层、具体报表使用的数据,因为要进行在线的查询和访问,而MaxCompute 不擅长在线访问,所以通常都会导回到 RDS(关系型数据库)或 ADS(分析型数据库)存储。Quick BI 可以呈现出的效果, Quick BI 支持各种数据源,除了支持阿里云提供的数据库服务外,还支持外部用户自建的各种数据库。第四部分、流计算引擎阿里 StreamCompute 还在公测,春节后估计就能上线。

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报