收藏 分享(赏)

【大数据学习】数据化运营并不难?关键是这些技术你get了么?!.docx

上传人:dreamzhangning 文档编号:2206587 上传时间:2018-09-05 格式:DOCX 页数:34 大小:5.69MB
下载 相关 举报
【大数据学习】数据化运营并不难?关键是这些技术你get了么?!.docx_第1页
第1页 / 共34页
【大数据学习】数据化运营并不难?关键是这些技术你get了么?!.docx_第2页
第2页 / 共34页
【大数据学习】数据化运营并不难?关键是这些技术你get了么?!.docx_第3页
第3页 / 共34页
【大数据学习】数据化运营并不难?关键是这些技术你get了么?!.docx_第4页
第4页 / 共34页
【大数据学习】数据化运营并不难?关键是这些技术你get了么?!.docx_第5页
第5页 / 共34页
点击查看更多>>
资源描述

1、【大数据学习】数据化运营并不难?关键是这些技术你 get 了么?!本文章来自于阿里云云栖社区摘要: 1 月 15 日在北京举行了首次阿里云大数据合作伙伴深度培训,我司获邀参加,我和两名研发的同学又一次来到了阿里巴巴望京园区。 培训的第一部分内容、数加的介绍及应用 除了介绍性内容之外,还是有干货的,这个干货就是 MaxCompute 的实践。免费开通大数据服务: https:/ 月 15 日在北京举行了首次阿里云大数据合作伙伴深度培训,我司获邀参加,我和两名研发的同学又一次来到了阿里巴巴望京园区。 培训的第一部分内容、数加的介绍及应用除了介绍性内容之外,还是有干货的,这个干货就是 MaxComp

2、ute 的实践。MaxCompute 原来叫做 ODPS, 大数据不是用来吹的! 通过数据分析能够获得的好处有很多,但最重要的是获得数据化运营的能力!为啥要数据化运营?因为:百度、阿里巴巴、腾讯、苹果、谷歌、亚马逊的运营一个比一个的数据化,一个赛一个的赚钱!又开始讲数据仓库了,说这个干嘛,我们不是要数据化运营吗?没有数据咋运营,数据多了自然就需要仓库放呗!数据仓库领域已经发展了 30 多年了,大数据不是在颠覆,而是继承和扩展了相关领域知识。大数据和小数据的分析处理流程是基本一致的。你听说过星型模型么?那你听说过范式模型么?反正,在数据分析应用场景下是不太关注数据重复的,通常采用星型模型组织数据

3、;在线业务应用场景需要尽量避免数据的重复存储,通常采用范式模型进行数据存储。星型模型就是通过把数据组织成维度和事实表的一种数据建模方式,数据通过星型模式组织更有利于理解和分析。这种建模方式数据仓库已经用了三十年,大数据仓库还要继续用。什么是大数据?体量、数量、技术、潮流都不是重点!这个话是阿里说的哈,不是我说的。数据大了,传统方式搞不定了,两个办法来解决:减治和分治。目前有三种主要的大数据计算场景:离线计算、在线计算、流式计算。MaxCompute 主打离线计算、在线计算有阿里云的 ADS(分析型数据库)、流式计算阿里云有正在公测的 StreamCompute。其他的还有图计算和内存计算,阿里

4、自己内部在用,目前还没有通过阿里云对外输出。阿里云大数据的使用场景包括:数据仓库:最大一坨的应用场景,最顶层是数据可视化、下面是 BI 报表和机器学习、开发用的是大数据开发平台(DateIDE)、基础是计算平台(其中最主要的是 MaxCompute)。数据可视化:数据可视化可以单独拿出来应用,只要你把数据给它,他就能给你变出“花” 来。智能算法:机器翻译、人脸识别、智能语音交互、印刷文字识别、电商图片分析、通用图片分析等算法你都可以通过 API 调用的方式来使用。数据应用:通过把算法结合具体的应用场景,阿里推出了推荐引擎、规则引擎、移动定向营销、移动数据分析等数据应用。刚才那个图,换一种方式来

5、表示。阿里的人总是反复说:他们最关注的还是底层的计算引擎、数据加工和分析工具,上面的应用和解决方案主要还是得依靠合作伙伴来结合具体的应用场景进行创新。阿里云大数据的场景解决方案和大数据产品。第一场景、经典的数据仓库和 BI,第一是说最经典的、还是最常见、或是最重要的、还是最赚钱的?这个场景,其实就是基于阿里云大数据平台在做传统 BI。开发人员借助于大数据开发平台(DateIDE)操作大数据计算服务(MaxCompute)完成数据分析任务、最终数据通过 BI 报表(QuickBI)呈现。场景二、只是稍微复杂了那么一点儿。最主要的差别是引入了智能算法,通过对存储在对象存储(OSS)中的海量非结构化

6、数据运用机器学习算法进行处理,形成结构化数据之后再导入大数据计算服务(MaxCompute),结合关系型数据库中导入的数据一起来做分析。一种可能的场景是:在客服满意度调查分析中,对存储在 OSS 中的客户服务录音进行语音识别,形成文本,再对文本信息通过语义建模抽取关键信息后结合用户交易历史数据对客户服务的最终效果进行跟踪分析。场景三、数据平台除了自己的数据以外,还引入了第三方数据,打造数据生态。阿里云方面的产品嘛,还是那些东西。场景四:经典人工智能。主要就是 MaxCompute 结合了阿里云提供的机器学习算法。应用场景一:个性化推荐阿里是做电商起家的,对于产品推荐自然是行家。应用场景二:数据

7、可视化阿里帮你把数据可视化的框架搭起来了,你往里填数据就行了。应用场景三:智能语音阿里自己的电话客户服务可以做到 100%质检,指望人来听是不现实的,阿里都是用机器听的。更牛的是,据说今年阿里双 11 的客户服务绝大部分都是机器做的,不过,你信么?开始讲干货了:MaxComputeMaxCompute 主打批处理,底层模型和 Hadoop 的 MapReduce 类似,据说阿里是用 C+把 Hadoop 的 MapReduce 重新实现了,原来是基于 Java的。MaxCompute 的主要应用场景:第一、最基本的就是数据仓库和 BI,主要用 SQL 开发,结合少量UDF(用户自定义函数)。第

8、二、目前 Graph 在公测,是基于图计算模型的分布式应用,这个主要用在机器学习领域,当阿里提供的算法不够用时,可以自己 DIY。第三、支持机器学习和数据挖掘,阿里提供了很多成熟算法,这些算法的训练和分析数据主要是存储在 MaxCompute 上的。图计算的主要用户应该是科学家。机器学习和大数据统计是统计分析师们的最爱。重点是 MaxCompute SQL,对于计算机工程技术人员来说,日后主打的工具就是它了。以下是 MaxCompute SQL 的介绍。MaxCompute 的主要概念:项目空间、表、分区。三种用户自定义函数:UDF、UDTF、UDAF。目前的用户自定义函数都是用 Java 语

9、言实现的,编译形成 JAR 包后上传到 MaxCompute 作为资源使用,可以在 SQL 中和内置函数一样调用。UDF 的输入和输出是一对一的。UDTF 的输入和输出是一对多的。UDAF 的输入和输出是多对一的。用户自定义函数的开发和使用过程。第二部分、Date IDEMaxCompute 有一个命令行工具,还有一个图形化开发环境叫做 Date IDE。Date IDE 的功能不仅是一个开发环境,还包括调度管理和监控运维。数据化运营是一个长期过程,一旦开始就意外着要进行不断的投入和运维。开了一个项目空间,看看有啥功能。数据的处理步骤通过节点来组织。可以对节点设置调度、依赖和监控,如果真的开始

10、了数据化运营,如果哪一天没有数据输出就是一场灾难。第三部分、一个案例:海量日志数据分析把前面介绍的内容整体穿起来,放在一个应用场景下介绍。为啥要分析日志?案例中用到的产品:MaxCompute、Date IDE、Quick BI。整体的流程:这个流程图是在 Date IDE 中通过拖拽形成的。第一步,数据的采集。MaxCompute 支持各种导入数据的方式。第二步,数据的处理分析。阿里自己通常会把数据分成三层来处理:ODS 层、为了避免影响在线业务的运行,通常不进行处理,先把数据直接导进来放在 ODS 层。DW 层、使用星型模型重新组织数据,分成维度表行和事实表。RPT 层、具体报表使用的数据,因为要进行在线的查询和访问,而MaxCompute 不擅长在线访问,所以通常都会导回到 RDS(关系型数据库)或 ADS(分析型数据库)存储。Quick BI 可以呈现出的效果, Quick BI 支持各种数据源,除了支持阿里云提供的数据库服务外,还支持外部用户自建的各种数据库。第四部分、流计算引擎阿里 StreamCompute 还在公测,春节后估计就能上线。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报