收藏 分享(赏)

大数据原理及技术.pptx

上传人:IT人 文档编号:1420753 上传时间:2018-07-15 格式:PPTX 页数:53 大小:4.60MB
下载 相关 举报
大数据原理及技术.pptx_第1页
第1页 / 共53页
大数据原理及技术.pptx_第2页
第2页 / 共53页
大数据原理及技术.pptx_第3页
第3页 / 共53页
大数据原理及技术.pptx_第4页
第4页 / 共53页
大数据原理及技术.pptx_第5页
第5页 / 共53页
点击查看更多>>
资源描述

1、大数据原理及技术,最近几年,关于物联网,大数据,云计算,炒的沸沸扬扬。似乎随便2个节点之间能够实现通信就能称作物联网;只要数据足够大就称之为大数据;只要有数据足够大的计算就叫做云计算。,当时国外社交媒体对于大数据的热度称呼其为:Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too。 这比喻恰到好处。似懂非懂

2、,似是而非的感觉。,大数据是近两年被反复吟唱的一首骊歌。自从1980年,著名未来学家阿尔文托夫勒在第三次浪潮一书中将大数据热情地赞颂为“第三次浪潮的华彩乐章”开始,IT界就不断的为之倾倒。不过,“大数据”真的闯入凡人世界成为这个时代的流行词汇还是从2012年开始。从baidu指数当中可以清晰地看到,“大数据”在2012年6月之前还处在默默无闻阶段,自此之后“大数据”指数一路飙升。,努力回忆下生活中的小场景吧!,此刻做PPT,稍微一转眼,又看到了这些,这就不能算巧合吧!,1. 好友亲密度、qq空间、淘宝推送的东西等等涉及到数据与数据之间的相互关系,而并不是因果关系(往往习惯于因果思维逻辑去思考和

3、理解问题)2.DT(分销商),可以设想一下,当淘宝下单20分钟就收到到货信息,该是一种什么样的体验。(其实你的信息,什么时候想要什么东西都已经被商户预测啦,已经提前将商品运往目的地。甚至你路过的广告屏,视频网站,包括使用的APP都将引导你消费。)3.数据足够大就称呼其为大数据吗?(其实不然,关键在于其中承载的信息。数据处理之后才可以称之为信息或者叫做知识。其实大数据可以这样理解,当数据增长速度超过了计算机处理能力的增长速度,这时就产生了大数据问题,好比马车怎么也赶不上汽车,更别看汽车后备箱里面装了什么东西。当前流行的Hadoop等工具、MapReduce等方法有效地形成一套可以灵活扩展的解决方

4、案,允许用空间(集群规模)换取时间(运算时间),通过良好地管理,集群的处理能力能够跟得上数据的增长速度,由此允许人们处理更大的数据(赶上汽车),从中提取出小数据所无法获得的信息与价值(发现汽车后备箱里面藏的东西)。)当然这里面设计很多技术,数据采样、数据处理、并行计算、建模、机器学习,如何使用这些数学工具以及专业知识,便成为核心问题。,Some fantastic scenes,Some funny ideas,1.现在的数据挖掘、人工智能以及大数据的结合还只在一个较浅显的层面,这方面还存在很大的突破瓶颈。大数据的应用应该体现在数据挖掘的深度上面。例如深圳的大疆无人机虽然占据全世界消费级无人机

5、百分之70的市场份额,但是相比军事无人机,与美国的许多无人机存在不小的差距。因为大疆的大多数产品还是依靠遥控控制,离真正的人工智能还是有一定的距离的。2.在baidu关键词中对比了“大数据”和“云计算”的近几年趋势,发现了一个有意思的曲线,2012年“云计算”热度消退后,“大数据”走上了前台,但却再也没有恢复到“云计算”的高度。这是不是表示“大数据”是“云计算”概念落空后的一餐冷饭呢?也许,谁知道呢。3.快速的处理数据尽快用于公司决策当最低限度的数据边界找到后,保证数据的快速处理就是你的能力所在。尽你的最大可能快速与客户、设备、平台基于这些数据进行接受和反馈,将分析和决策工作与执行行动实时对接

6、。,4.小规模的数据分析,会有很大噪音。1个人买了啤酒又买了尿不湿就说两者有什么关联,但是如果几百万个用户都显示了这样的关联,那就能说明一些问题了。可是数据量一旦上了规模,传统的系统就没办法很好的处理了。此案例还是被纳为营销界最成功的案例之一,究其竟还是巧妙的产品捆绑销售方式!PS:(发现啤酒和尿不湿多为男人在周末采购,而且购买这两种产品的顾客一般都是年龄在25至35周岁的青年男子,由于孩子尚在哺乳期,多数男人都接到了夫人的“圣旨”,下班后带尿不湿回家,而周末正是美国体育比赛的高峰期,一杯啤酒就着比赛是多么惬意的事!)于是有销售人员得到启发,在超市刻意将这2件商品摆放距离放近了许多,并且放置了

7、一些牛肉干之类的。最后每年可增加几百美元的销售额。 阿里亚马逊ebay这些,成千上万种货物,每天成TB的甚至PB的数据量,要对大量不同的货品种类作分析和推荐,近实时地更新给用户看;推特和Facebook这些,根据用户发布的信息和行为模式,快速地分析整合数据给出精确广告投放是这些公司生存的根本。等移动互联网或者物联网更普及,数据量只会更大,结构更随意,分析更困难。能从中找到有意思的信息,用传统手段就更难了。,大数据的产生,大数据技术的介绍,大数据技术的应用,大数据的产生,来源,基于历史数据,利用数据建模定量分析不同球员特点,合理搭配,重新组队;,打破传统思维,通过分析比赛数据,寻找“性价比”最高

8、球员,运用数据取得成功;,布拉德皮特主演的点球成金是一部美国奥斯卡获奖影片,所讲述的是皮特扮演的棒球队总经理利用计算机数据分析,对球队进行了翻天覆地的改造,让一家不起眼的小球队能够取得巨大的成功。,来源,数据的爆炸式增长,每分钟的数据,来源,大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。,这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。,来源,传统数据管理方式的缺陷:,范围非结构化数据、内外部数据混搭、云化处理等都会冲击传统管理模式。,形式数据加工的复杂度和速度要求越来越高,也对传统管理模式提出挑战。,内涵数据的交换、转让、租赁、交易等各种创新模式

9、,也要求新的管理手段。,来源,每天几百 GB、 几 TB 的资料,且持续成长中,储存Storing,在收数据的同时做必要的前置处理 (pre-processing),并区分数据处理的优先等级 (prioritizing),计算Processing,如何有效的避免因硬件毁坏所导致的资料损毁,管理Managing,如何从中挖掘出所关注事件的 pattern 或 behavior,分析Analyzing,我们需要什么样的数据管理方式?,来源,大数据应运而生,那么,什么是大数据?,大数据技术的介绍,目前对大数据尚未有一个公认的定义,不同的定义基本上是从特征出发,试图给出大数据的定义。,大数据技术介绍,

10、大数据很抽象,表示数据规模的庞大。 大数据泛指巨量的数据集,因可从中 挖掘出有价值的信息而受到重视。 华尔街日报将大数据时代、智能化生 产、 无线网络革命称为引领未来繁荣发 展的重大技术变革。,大数据技术介绍,何为大数据,大数据指的是规模超过现有数据库工具获取、存储、管理和分析能力的数据集额,并同时强调并不是超过某个特定数量级的数据集才是大数据,大数据是具备海量、高速、多样、可变等特征的多维数据集,需要通过可伸缩的体系结构实现高效的存储、处理和分析。,技术能力视角,大数据内涵视角,大数据技术,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

11、。大数据就是“未来的新石油”。,大数据带来的思维变革:,更多 不是随机样本而是全部数据,更杂 不是精确性而是混杂性,更好 不是因果关系而是相关关系,大数据技术,更多,人口大普查全数据模式,随机采样样本模式,大数据应用全数据模式,是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准,对全国人口普遍地、逐户逐人地进行的一次性调查登记;主要特点是调查组织高度集中性,普查对象的全面完整性;人口大普查耗时费力,一般来讲是十年一次,新中国成立以来共进行了6次人口大普查;人口大普查是一种典型的全数据模式;,大数据时代,小数据时代,大数据技术,更多,人口大普查全数据模式,随机采样样

12、本模式,大数据应用全数据模式,人口大普查是一种耗时耗费的工程,一般是以十年为单位;各国每年需要进行几百次的小规模人口调查,采取随机采样分析的方式,这是一种样本模式;源于实用并且很好的创新!随机采样分析是小数据时代的产物;,大数据时代,小数据时代,大数据技术,更多,人口大普查全数据模式,随机采样样本模式,大数据应用全数据模式,我们已具备了大数据的各种技术能力,思维需要转换到大数据的全数据模式:样本=全部;大数据不用随机分析法这样的捷径,而采用所有数据的方法;这里的“大”是相对的相扑比赛所有数据存储还不需要一个TB,但是是所有的数据!在大数据时代采用随机采样法,就像在汽车时代骑马一样,虽然特定情况

13、下仍可采样随机采样法,但是慢慢地我们会放弃它;,大数据时代,小数据时代,大数据技术,更多,大数据技术,更杂,从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;,大数据的简单算法比小数据的复杂算法更有效;IBM的机器翻译 VS Google的机器翻译;纷繁的数据越多越好;大数据时代要求我们重新审视数据精确性的优略;大数据不仅让我们不再期待精确性,也让我们无法实现精确性;错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;混杂性,不是竭力避免,而是标准途径;,大数据技术,更好,Kaggle,一个为所有人提供数据挖掘竞赛的

14、公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半。为什么?探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”,大数据技术,Volume,Variety,Value,Velocity,非结构化数据的超大规模和增长;总数据量的8090%;比结构化数据增长快10倍到50倍;是传统数据仓库的10倍到50倍。,大数据的异构和多样性;很多不同形式(文本、图像、视频、机器数据);无模式或者模式不明显;不连贯的语法或句义。,大量的不相关信息;对未来趋势与模式的可预测分析;深度复杂分析(机器学习、人工智能Vs

15、传统商务智能),实时分析而非批量式分析;数据输入、处理与丢弃;立竿见影而非事后见效,4V特征,大数据技术,Volume,1Bity,1KB,1MB,1GB,1TB,1PB,1EB,1ZB,1YB,大数据技术,Variety,数据来源多,数据类型多,关联性强,企业内部多个应用系统的数据、互联网和物联网的兴起,带来了微博、社交网站、传感器等多种来源。,保存在关系数据库中的结构化数据只占少数,7080%的数据是如图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据。,数据之间频繁交互,比如游客在旅行途中上传的图片和日志,就与游客的位置、行程等信息有了很强的关联性。,大数据技术,Value,

16、大数据不仅仅是技术,关键是产生价值,可以从各个层面进行优化,更要考虑整体,挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;价值密度低,是大数据的一个典型特征;,大数据技术,Velocity,中央政府对大数据的重视程度,30,大数据涉及的关键技术,需求 海量数据存储技术 实时数据处理技术 数据高速传输技术 搜索技术 数据分析技术,技术Hadoop,X86/MPPMap ReduceStreaming dataInfini BandEnterprise SearchText Analytics EngineVisual Data Modeling,描述分布式文件系统流计算引擎服务器

17、、存储间高速通信文本检索、智能搜索、实时搜索自然语言处理、文本情感分析、机器学习、聚类关联、数据模型,大数据的技术生态,大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。这里限于时间考虑只介绍了Hadoop HSFS和MapReduce / Tez / Spark。,该图为一个Hadoop生态圈示意图,HDFS(Hadoop Distributed FileSystem分布式文件系

18、统)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。 接下来处理数据,虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。那么我如果要用很多台机器处理,我就面临了如何分配工作,如果一台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapReduce / Tez / Spa

19、rk的功能。MapReduce是第一代计算引擎,Tez和Spark是第二代。MapReduce的设计,采用了很简化的计算模型,只有Map和Reduce两个计算过程(中间用Shuffle串联),什么是Map什么是Reduce? 考虑如果你要统计一个巨大的文本文件存储在类似HDFS上,你想要知道这个文本里各个词的出现频率。你启动了一个MapReduce程序。Map阶段,几百台机器同时读取这个文件的各个部分,分别把各自读到的部分分别统计出词频,产生类似(hello, 12100次),(world,15214次)等等这样的Pair(我这里把Map和Combine放在一起说以便简化);这几百台机器各自都

20、产生了如上的集合,然后又有几百台机器启动Reduce处理。Reducer机器A将从Mapper机器收到所有以A开头的统计结果,机器B将收到B开头的词汇统计结果(当然实际上不会真的以字母开头做依据,而是用函数产生Hash值以避免数据串化。因为类似X开头的词肯定比其他要少得多,而你不希望数据处理各个机器的工作量相差悬殊)。然后这些Reducer将再次汇总,(hello,12100)(hello,12311)(hello,345881)= (hello,370292)。每个Reducer都如上处理,你就得到了整个文件的词频结果。这看似是个很简单的模型,但很多算法都可以用这个模型描述了。 MapRed

21、uce的简单模型虽然好用,但是很笨重。第二代的Tez和Spark除了内存Cache之类的新feature,本质上来说,是让Map/Reduce模型更通用,让Map和Reduce之间的界限更模糊,数据交换更灵活,更少的磁盘读写,以便更方便地描述复杂算法,取得更高的吞吐量。,大数据涉及的关键技术,基于SQL语言: 面对OLAP的传统行和列,不基于SQL或map-reduce的: 由谷歌率先发起,数据流: 基于运行商数据直接生成任意图形,数据入口/汇聚,数据平台,分析,传统交付模式-单片或基于设备的解决方案,云: 能够充分利用物理设施的弹性,以实现处理快速增长数据的能力,“数据库将演变成一个虚拟的,

22、基于云计算,超级可扩展的分布式平台。”- Forrester analyst Jim Kobielus,大数据涉及的关键技术,关于大数据相关性关系的一些争议性的观点,我觉得大数据的信息来源还存在着局限性。首先,目前网络并不能覆盖生活的全部。依然存在一部分人群与网络的联系不密切。如果单凭网络数据就对信息做判断,其实是很片面的。还有关于在不少关于大数据的书籍或是论文中强调的以相关关系替代因果关系的说法。我表示不太明白这点。因为目前计算机所作出的都是相关关系的判断,而无法提供给人类明确的因果关系。但是基于自己以前的知识积累,感觉人类在利用计算机进行数据处理的时候,基本上都是由计算机给出的基础之上再加

23、以人为的因果判断。哪怕是格兰杰因果检验,虽然没学过,但是个人理解其实质也不是反映两个变量之间的因果关系,而是“依赖于使用过去某些时点上所有信息的最佳最小二乘预测的方差”。因此在多数情况下,比如在学习多元统计、计量经济课程的时候,我们还是考虑变量之间的相关性。但是相关不代表因果。这就跟女士的裙长和股市涨跌一样,不是说女士裙子越短股市就越能往上走的。而大数据就真的没运用到因果关系吗?我觉得也不是这样。比如说之前谷歌通过大数据做的流行病预测,其实还是运用了因果关系。谷歌就是假定人们去网上进行相关搜索的原因是人们自己或者身边的人出现了相关症状。我觉得这个世界是不可能单纯地依靠“相关性”来决策的,因为这

24、违背了人类的好奇心。事物之间相关性越大,就越是让人想要知道这背后的原因。对我来说,仅仅基于相关关系而不考虑背后的因果关系的决策有点空中楼阁,不太靠谱。因此我不认为因果关系会退出历史舞台。,大数据技术,大数据目前所存在的安全隐患:,大数据基础设施安全威胁,大数据存储安全威胁,隐私泄露问题,针对大数据的高级持续性攻击,数据访问安全威胁,其它安全威胁,大数据时代下没有隐私,一个技术领域的大牛讨论过关于隐私信息重组(这个词我们自己造),实际就是充分利用掌握的信息去破解密码。常规的算法是跑密码字典,不得不承认,中国人在密码上不在乎,当初学校我在的校区我同级的共7000多人,有3000多人的密码,我能用我

25、设计的37个密码跑出来,37个啊。在利用学校bug后,我拿到个人信息,然后通过我们设计的算法,利用了个人信息,得出几组最可能的密码,加入37个密码中,经过测试有4900多个人密码被破解自那以后我发现人们对密码设置规则固定而且与个人信息有关在大数据下,基于云计算,加上特定的网络爬虫,完全可以爬取任何一个人的信息。接着,我们可以尝试撞库了,常用的126.163。新浪,QQ邮箱,雅虎,天涯,csdn等等只要设计再设计时将所有网站的后台或者前台登录模拟出来了,完全可以利用这些信息去尝试登录。,搜索电影女主角的故事(人肉搜索),Some tips,一、谨防钓鱼网站二、慎连免费WiFi三、不在社交平台中随

26、意透露个人信息四、慎重参加网络调查、抽奖活动五、妥善处理快递单、车票、快递包装盒上六、及时清除旧手机的数据信息、废弃的手机卡,大数据的应用,应用,分析,预测,大数据的应用,此事经被纽约时报报道后,塔吉特“大数据”的巨大威力轰动全美。 在美国,有一位父亲怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中的女儿? 然而后来证实,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以及在社交网站所显露的行为轨迹,使沃尔玛捕捉到了她的怀孕信息。 模型发现,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。

27、最后塔吉特选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠广告寄发给顾客。,大数据的应用,亚马逊 “预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单购物前,提前发出包裹。 这项技术可以缩短发货时间,从而降低消费者前往实体店的冲动。从下单到收货之间的时间延迟可能会降低人们的购物意愿,导致他们放弃网上购物。 所以,亚马逊可能会根据之前的订单和其他因素,预测用户的购物习惯,从而在他们实际下单前便将包裹发出。根据该专利文件,虽然包裹会提前从亚马逊发出,但在用户正式下单前,这些

28、包裹仍会暂存在快递公司的转运中心或卡车里。 亚马逊为了决定要运送哪些货物,亚马逊可能会参考之前的订单、商品搜索记录、愿望清单、购物车,甚至包括用户的鼠标在某件商品上悬停的时间。,大数据的应用,在筹备大选的过程中,奥巴马背后的数据分析团队一直在收集、存储和分析选民数据。 在这次的大选中,奥巴马竞选阵营的高级助理们决定将参考这一团队所得出的数据分析结果来制定下一步的竞选方案。利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。 比如,在东海岸找到一位对女性群体具备相同号召力的名人,从而复制“克鲁尼效应”并为奥巴马筹集竞选资金。 “Twitter的政治指数”提供了一个衡量社会化媒体平台的用户

29、如何评价候选人的方式。奥巴马积极的情绪指数是59,而罗姆尼的只有53。,大数据的应用,回顾“老鼠仓”的查处过程,在马乐一案中,“大数据”首次介入。深交所此前通过“大数据”查出的可疑账户高达300个。 实际上,早在2009年,上交所曾经有过利用“大数据”设置“捕鼠器”的设想。通过建立相关的模型,设定一定的指标预警,即相关指标达到某个预警点时监控系统会自动报警。 而此次在马乐案中亮相的深交所的“大数据” 监测系统,更是引起了广泛关注。深交所有几十人的监控室,设置了200多个指标用于监测估计,一旦出现股价偏离大盘走势,深交所利用大数据查探异动背后是哪些人或机构在参与。,大数据的应用,在摩托车生产厂商

30、哈雷戴维森公司位于宾尼法尼亚州约克市新翻新的摩托车制造厂,软件不停的在记录着微小的制造数据,如喷漆室风扇的速度等等。当软件察觉风扇速度、温度、湿度或其它变量脱离规定数值,它就会自动调节机械。哈雷戴维森同时还使用软件,还寻找制约公司每86秒完成一台摩托车制造工作的瓶颈。最近,这家公司的管理者通过研究数据,认为安装后挡泥板的时间过长。通过调整工厂配置,哈雷戴维森提高了安装该配件的速度。 美国一些纺织及化工生产商,根据从不同的百货公司POS机上收集的产品销售速度信息,将原来的18周送货速度减少到3周,这对百货公司分销商来说,能以更快的速度拿到货物,减少仓储。对生产商来说,积攒的材料仓储也能减少很多。

31、,大数据的应用,谷歌基于每天来自全球的30 多亿条搜索指令设立了一个系统,这个系统在2009 年甲流爆发之前就开始对美国各地区进行“流感预报”,并推出了“谷歌流感趋势”服务。 谷歌在这项服务的产品介绍中写道:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。虽然并非每个搜索“流感”的人都患有流感,但谷歌发现了一些检索词条的组合并用特定的数学模型对其进行分析后发现,这些分析结果与传统流感监测系统监测结果的相关性高达97%。 这也就表示,谷歌公司能做出与疾控部门同样准确的传染源位置判断,并且在时间上提前了一到两周。”,大数据的应用,国际大石油公司一直都非常重视数据管理。如雪佛龙公

32、司将5万台桌面系统与1800个公司站点连接,消除炼油、销售与运输“下游系统”中的重复流程和系统,每年节省5000万美元,过去4年已获得了净现值约为2亿美元的回报。 准确预测太阳能和风能需要分析大量数据,包括风速、云层等气象数据。丹麦风轮机制造商维斯塔斯( Vestas Wind Systems),通过在世界上最大的超级计算机上部署IBM大数据解决方案,得以通过分析包括PB量级气象报告潮汐相位、地理空间、卫星图像等结构化及非结构化的海量数据,优化风力涡轮机布局,有效提高风力涡轮机的性能,为客户提供精确和优化的风力涡轮机配置方案不但帮助客户降低每千瓦时的成本,并且提高了客户投资回报估计的准确度,同

33、时它将业务用户请求的响应时间从几星期缩短到几小时。,大数据的应用,UPS最新的大数据来源是安装在公司4.6万多辆卡车上的远程通信传感器,这些传感器能够传回车速、方向、刹车和动力性能等方面的数据。收集到的数据流不仅能说明车辆的日常性能,还能帮助公司重新设计物流路线。 大量的在线地图数据和优化算法,最终能帮助UPS实时地调配驾驶员的收货和配送路线。该系统为UPS减少了8500万英里的物流里程,由此节约了840万加仑的汽油。,大数据的应用,与传统电视剧有别,纸牌屋是一部根据“大数据”制作的作品。制作方Netflix是美国最具影响力的影视网站之一,在美国本土有约2900万的订阅用户。 Netflix成

34、功之处在于其强大的推荐系统Cinematch,该系统基于用户视频点播的基础数据如评分、播放、快进、时间、地点、终端等,储存在数据库后通过数据分析,计算出用户可能喜爱的影片,并为他提供定制化的推荐。 Netflix发布的数据显示,用户在Netflix上每天产生3000多万个行为,比如暂停、回放或者快进,同时,用户每天还会给出400万个评分,以及300万次搜索请求。Netflix遂决定用这些数据来制作一部电视剧,投资过亿美元制作出纸牌屋。 Netflix发现,其用户中有很多人仍在点播1991年BBC经典老片纸牌屋,这些观众中许多人喜欢大卫芬奇,观众大多爱看奥斯卡得主凯文史派西的电影,由此Netfl

35、ix邀请大卫芬奇为导演,凯文史派西为主演翻拍了纸牌屋这一政治题材剧。2013年2月纸牌屋上线后,用户数增加了300万,达到2920万。,大数据的应用,Farecast 已经拥有惊人的约2 000 亿条飞行数据记录。用来推测当前网页上的机票价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应该有差别。但实际上,价格却千差万别,其中缘由只有航空公司自己清楚。Farecast预测当前的机票价格在未来一段时间内会上涨还是下降。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。 Farecast 票价预测的准确度已经高达75 ,使用Farecast 票价预测工具购买机票的旅客,平均每张机票可节省50 美元。,大数据的应用,大数据挖掘技术的底层技术最早是英国军情六处研发用来追踪恐怖分子的技术。 中国大数据的概念其实源于最早公安部抓法轮功分子。 大数据筛选犯罪团伙,与锁定的罪犯乘坐同一班列车,住同一酒店的两个人可能是同伙,过去,刑侦人员要证明这一点,需要通过把不同线索拼凑起来排查疑犯。 通过对越来越多数据的挖掘分析,某一片区域的犯罪率以及犯罪模式都将清晰可见。大数据可以帮助警方定位最易受到不法分子侵扰的区域,创建一张犯罪高发地区热点图和时间表。不但有利于警方精准分配警力,预防打击犯罪,也能帮助市民了解情况,提高警惕。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 网络科技 > 管理信息系统

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报