1、1 大数据对未来社会的影响 范玉顺 清华大学 自动化系 2015年 9月 20日,北京 主要内容 无所不在的信息服务社会 大数据的产生背景 大数据的特征与思维模式转变 大数据应用 2 1. 信息的价值 三元世界:分立 互联 Cyber-Physical System(信息物理融合系统 ) 物理世界:物质、能量 虚拟世界:信息 精神世界:人 3 1948年香农( Shannon):信息是通信的内容,是用来消除未来某种 不确定性 的东西。 信息的本质: 交流, 共享经济模式 信息的价值:信息量的 多少 反映了消除了的 不确定性的大小 。 信息的效用、价值、信息量 2 数据、信息、知识、智能 4
2、数据 1.85 米智能做正确 的行动自动调节驾驶员车座的高度,让不同身高的人都感觉很舒适知识规律、操作程序、行动指南 大部分成年黑人身高超过1 .8 5 米信息具有实际意义的数据 奥巴马身高 1 . 8 5 米没有 实际 意义的 数字2. 信息应用的层次 5 3. 网络效应 信息技术古已有之 :烽火报警 信息获取与传递:茶馆饭店、朋友聚会、 600里加急、 信息价值 (V T)S V信息量, T传播速度、 S共享范围 “好热闹的帖子,讨论实质性的东西并不多,不得不承认,一群寂寞的人啊!” 央视女记者徐莉因为想与网友们分享网购经历,帖主在论坛上发了几张组装鞋柜图,竟会被人从茫茫人海中“搜”了出来
3、:从地面状况推理房子是租的,然后从放上鞋架的鞋子推断楼主是某运动品牌的狂热爱好者。从房间结构猜测所处北京的租房地段,并据此到租房网上寻找相关信息,最终逐步锁定了楼主的毕业院校、工作单位及真正身份。 众包就是社会生产,是未来的一个趋势,也是一种主流的组织方式。 众包指的是把传统意义上由内部员工或外部承包商所做的工作外包给一个大型的、没有清晰界限的群体去做。 众包模式的出现打破了传统上认为企业是组织生产的最好组织形式的看法。 杰克 .尼克尔和雅各布 .德哈特(两个高中辍学生)创建了T。杰克的卧室就是他们的办公室。 所有人都可以提交 T恤设计,用户投票,选出最好的设计。网站奖励设计者 2500美元,
4、花 5美元生产,以 12 25美元出售,无需广告。 上传一张本人穿的 ThreadlessT恤的照片,奖励 1.5美元,推荐的朋友买了一件 T恤,奖励 3美元。 大牌明星、节目主持人也选择他们的 T恤。 在商学院人们在研究和宣讲商业规则,而 T的创立则打破了这些规则。 众包模式 3 开放网络创新 众包的优势来源于:一是网络的有机互联,即平台资源共享,二是节点的多元灵活,即个体的多样化创新。 雷夫利( Lafley)担任宝洁( P&G)公司 CEO后,提出将公司从外部获得新产品和创意的比例从 15%提高到 50%。创立了YourEncore网站,吸引全球 150万名科学家加入其创新网络。 宝洁希
5、望发明一种染料,在加入一定量的洗涤剂后能让洗涤水变蓝,意大利的乔治亚学习专业是化学(在一家杀虫剂工厂上班,做程序化的质量管理工作,没有挑战),每天晚上安置好丈夫和小孩后,开始做实验,完成该染料的研制,宝洁付了她 3万美元,后来又付了 1.5万美元,因为她的技术又被用于衡量肌肤无力症治疗效果的指示体中。 Rally Fighter 8 信息技术的未来 超强计算能力: 2013年 11月:我国 3.8千万亿次超级计算机系统 天河二号成为最快超级计算机。 信息传递速度: 2004年 12月 25日,在清华大学启动了中国下一代互联网CERNET2主干网、连接分布在全国 20座城市的 25所高校、传输速
6、率达到 10G。 2007年 8月,由美国 120多所大学、协会、公司和政府机构共同努力建设的网络 Internet2推出,由Level3Communications负责运营,它与目前的普通互联网并行运作,为各个大学、研究所提供每秒 10G实时的信息交换服务,其最高网速可达 100G。 我国生产的光交换机速度 3.2Tb/s,1Tb 1024Gb 4G网络 9 4 10 信息技术的未来 超高速网络: 北斗导航系统应用。 韩国 : 1Gb/s的超高速信息网,为全国家庭服务。 从 2010年 7月 1号起,芬兰把 宽带接入权确认为公民基本权利之一 。根据新规,自 7月 1号起,芬兰所有网络服务商有
7、义务为用户提供 1兆比特的宽带上网服务,无论用户身处何地。 Facebook基于太阳能无人机的网络服务 用 1000个无人机编队,为全球 50亿人提供网络服务。 2015年 3月 29日,在英国成功进行了旨在向偏远地区提供互联网接入的太阳能无人机飞行测试。 12 信息技术的未来 无线传感网络应用发展迅速:“ Internet of Thing” , “物联网”得到广泛的重视。 无线射频识别( Radio Frequency Identification, RFID)是一种非接触式的自动识别技术,它通过射频信号自动识别目标对象并获取相关数据信息。 RFID技术最早应用于第二次世界大战,用来识别盟
8、军飞机,并在50年代用于民航机场。 12 近年来,由于美国国防部 (DoD)、Wal-Mart的推动,以及市场的潜在需求, RFID技术得到广泛关注和一定的应用,成为炙手可热的技术之一。 5 13 RFID 基本部件 13 标签打印机,将产品信息写入标签中; RFID标签 芯片,用来存储产品编码 (EPC, Electronic Product Code) 天线,用来接收来自 Reader发射的射频信号 阅读器,读取标签的信息; 14 更准确的库存管理 现在到底有多少库存? 哪些商品快到保质期了? 防止偷盗、假冒 假货,尤其是假药严重威胁人们的身体健康! 食品安全与召回管理 15 未来发展方向
9、无线传感器网络 RFID的发展方向就是:电子标签集成传感器、通信模块,构成 无线传感器网络 。利用大量的低成本、小尺寸、多功能以及低能耗的传感器节点来协同地完成通过一般手段难以完成的物理世界信息获取和处理任务。 美国 商业周刊 在其 “ 未来技术专版 ” 中发表文章指出,效用计算 、 传感器网络 、塑料电子学和仿生人体器官是 全球未来的四大高技术产业 ,它们将掀起新的产业浪潮。 15 T ran s c e ive rP o we r Un itL o c a ti o n Fin d ing S y s tem Mo b il ize rP roc e s s ingS tora g eS
10、e n s o r ADCS e n s ing Un it P roc e s s ing Un it图 1 传感器节点结构6 16 传感器网络部署与结构 IDTechEx公司预测 IP编址的传感器节点的 产 值将从 2015年的 6.8亿美元增长到 2025年的 480亿美元,其年复合增长率达到 47%。 17 无线传感器网络举例 17 (1324,1245) 军事应用 : 了解我方军队的装备、战场机动;敌方军队的监控、战场损失评估等;( Smart Dust) 环境科学 :森林防火、洪水检测、精准农业 医疗应用 : 远程监控人体生理数据、监控和跟踪医院的医生和病人、医院的药物管理; 家庭
11、应用 : 智能家庭应用环境 (传感器节点嵌入到家具和家用电器中,互相协作 )、 其他商业应用 : 办公环境的监控(空调、微尘等 )、交互式图书馆、检测和监控偷车、库存控制、车辆跟踪和检测。 18 云计算 云计算 概念和应用发展迅速:所谓 “ 云 ” 是指互联网,所以云计算是一种 基于互联网的计算 ,它是一种能够将动态伸缩的虚拟化资源(硬件、平台、软件)通过互联网以服务的提供给用户的计算模式。 云计算是一种共享的网络交付信息服务的模式。 提供资源的网络被称为 “ 云 ” , “ 云 ” 中的资源在使用者看来是可以无限扩展的,并且可以随时获取,这种特性经常被比喻为像水电一样使用软硬件资源, 按需购
12、买和使用 。 云计算与网格 世界需要 5台计算机。 谷歌、微软、 IBM、 亚马逊 和中国电信 7 19 G o o g l e A p p E n g i n e软 件 即 服 务S a a S平 台 即 服 务P a a S基 础 设 施 即 服 务I a a S业 务 即 服 务B a a S典型云计算服务模式 软件定义的汽车 : 通过 APP定制客户汽车环境 来源: BMBF April 2013 发动机管理 APP 辅助驾驶 APP 智能用户接口 APP 节能驾驶 APP 云计算的应用效益 商业: 降低 IT成本、简化 IT管理和快速响应市场变化 运营:规范流程、降低成本、节约能源
13、计算:更大的数据量、更多的用户 技术:虚拟化、多核、自动化、 Web技术 8 信息技术的未来人机交互方式 语言 图像 手势 面部表情 物理动作 眼镜信号 字符终端 DOS 图形界面 Windows 人体生物特征识别 23 脑电信号思维控制 信息技术的未来人机交互方式 2010年 10月 19日清晨,克里斯蒂安遇车祸身亡 DUKE大学猴子使用操纵杆实验 Watson是什么? 危险边缘 ( Jeopardy!) Watson的未来应用 9 25 信息技术的未来信息服务社会 在 3G、 4G移动通信技术、网格技术、 无线传感技术 基础上,将各种智能化终端与分布在各地的服务器连接在一起,形成资源共享的
14、高效 信息服务 系统。 Ubiquitous Network:基于个人和社会的需求,实现人与人、人与物、物与物之间按需进行的信息获取、传递、存储、认知、决策、使用等服务,网络具有超强的环境感知、内容感知及其智能性,为个人和社会提供泛在的、无所不含的信息服务和应用。 25 解决方案 知识服务 分析与决策支持云 计算 云 数据 云 超高速互联网 射频识别 ( RF ID ) 无线传感器网络( WS N ) 从 e-社会到 u-社会 ,i-社会, Ubiquitous(无所不在的) 计算技术发展的结果是创造一个看不见计算机的以人为本的信息服务世界。 主要内容 无所不在的信息服务社会 大数据的产生背景
15、 大数据的特征与思维模式转变 大数据应用 26 单位 英文 大小 含义 位 Bit 1或者 0 一个二进制数位, 0或者 1 字节 Byte 8位 计算机存储信息的基本单位,存储一个英文字母在计算机上,其大小就是一个字节 千字节 KB 1024个字节,210个字节 一页纸上的文字大约 3-5KB 兆字节 MB 1024个 KB,220个字节 一个普通的 MP3格式的歌曲大约 3 4MB 吉字节 GB 1024个 MB,230个字节 一部 DVD原版影片大约 5 6GB 太字节 TB 1024个 GB,240个字节 美国国会图书馆所有登记的印刷版书本的信息量为 15TB。 拍字节 PB 1024
16、个 TB,250个字节 美国邮政局一年处理的信件大约为 5PB,谷歌每小时处理的数据为 1PB, eBay每天处理的信息量大于 100PB 艾字节 EB 1024个 PB,260个字节 相对于 13亿中国人每人一本 500页书加起来的信息量。 泽字节 ZB 1024个 EB,270个字节 截止 2010年,人类拥有的信息总量是 1.2ZB 尧字节 YB 1024个 ZB,280个字节 大数据时代的到来 -数据驱动的决策 10 28 数据增长的速度 保险公司 美国航空 联邦快递 花旗银行 沃尔玛 谷歌 脸谱网站 信息技术的发展催生大数据热 基础 :计算机存储、计算能力的提升,数据存储成本下降 1
17、955年, 1MB的存储器, 6000美元 1993年, 1MB的存储器, 1美元 2010年, 1MB的存储器, 1美分 大数据的来源 1. 交易数据,包括电子商务 2. 移动互联、社交网络 3. 物联网感知数据:海洋、天气、工业设备监控、物流跟踪 4. 政府开放数据 离散制造业 政府 传媒业 流程制造业 银行业 医疗业 投资证券业 专业服务业 零售业 教育业 保险业 交通业 批发业 共用事业 服务资源行业 消费娱乐业 建筑业 美国各行业数据存储量( PB) 966 848 715 694 619 434 429 364 411 269 243 227 202 194 116 106 51
18、沃尔玛 2010数据库的大小为 2500TB,大约 2PB 1. 交易数据 电子商务产生更大数据: 淘宝数据量大约 20PB,每月会增加 1.5PB。 11 Google 从单纯的搜索引擎公司发展为目前包括 blog、Email、网络分析、新闻、问答、数字图书 、日历、 SaaS、云计算、地图、广告、阅读、图片、视频等数十种服务的综合 IoS服务提供商; 搜索:至少拥有 10亿用户;在线视频:每月5亿的访问量; 博客: 4亿读者; Gmail: 2亿用户; Android:智能手机 OS的 25%市场份额;Chrome: 17%的市场份额。 31 Facebook 25亿: 分享的内容条数 2
19、7亿: “赞”的数量, 3亿: 上传照片数 500+TB: 新产生的数据 105TB: 每半小时通过 Hive扫描的数据 100+PB: 单个 HDFS(分布式文件系统)集群中的磁盘容量 1. 网络用户数据 24亿互联网用户 6.34亿个网站 12000亿次谷歌搜索( 2012年) 10亿位 Facebook用户 2亿位 Twitter用户 2亿位 LinkedIn用户 1.35亿位 Google+活跃用户 2. 社交媒体交互数据 2012年共发布了 1.75亿条 Tweet信息 全球 90%的数据产生于过去两年 3. 移动端和影像 11亿智能手机用户 50亿手机用户 2. 社交网络 对于大多
20、数网站来说,社交推荐流量无疑是极其重要的流量来源。 Shareaholic的报告更进一步,列出了各社交网络的推荐流量占比在整个 2014自然年内的变动情况 。 32 为什么 Facebook比 Google值钱? 由于传感器大规模全方位的布网和高速高精度传感器的使用,物联网将产生海量的数据。 截至 2010年,全球 RFID数量已经超过了 300亿个。 一个大型城市电力物联网每天产生的数据可达 TB级,一个大型城市交通物联网每天产生的数据可达 10TB。 各种记录、通信和可穿戴设备。 智能手环 谷歌眼镜 智能手机 行车记录仪 3. 物联网感知数据 12 GB TB PB 回收 维护 运行 销售
21、 装配 制造 设计 研发市场开发 制造过程 使用 /服务过程 研发 /设计过程 产品生命周期上下游过程的数据量可达 PB/EB数量级 从小数据到大数据 EB 以前 现在 Boeing 787 全球协同设计 /制造 Source: Siemens AG. 2013. 每台燃机 24小时运行信息约 2TB 产品使用服务过程中的技术状态管理 监测变量数目 5000个 /每秒 计算 1000个以上的中间模型 实时诊断故障,优化运行状态 减少故障、提高效率、降低废气排放 13 美国政府开放数据网站 37 www.data.gov, 截止到 2014年 4月, data.gov平台上已经包含了 95,11
22、8个数据集,这些数据集涵盖了农业、天气、教育、能源、制造等近 40个公共管理和生活领域。 金融 38 小微业务贷款 美国人的时间花费、小时工资、劳动力统计和失业人数统计 39 经济与人口 14 2000年,新产生的数据 1000PB 2010年,全球企业新存储的数据超过 7000PB。 Jim Gray提出“新摩尔定律” 大数据的意义是人类可以分析和使用的数据大大增加,通过对这些数据的交换、整合和分析,人类可以发现新的知识、创造新的价值,带来“大知识”、“大科学”、“大利润”和“大发展”。 麦肯锡 2011年报告:大数据,将成为全世界下一个创新、竞争和生产率提高的前沿。 40 Jim Gray
23、,计算机领域图灵奖获得者, 1944年出生, 1998年提出新摩尔定律, 2007年1月 28号迷失在大海中 主要内容 无所不在的信息服务社会 大数据的产生背景 大数据的特征与思维模式转变 大数据应用 41 大数据的组成 海量交易数据 企业内部的经营交易信息主要包括联机交易数据和联机分析数据 , 是结构化的 、 通过关系数据库进行管理和访问的静态 、 历史数据 。 通过这些数据 , 我们能了解过去发生了什么 。 大数据包括 海量交易 数据集 和交互数据集 在内的所有 数据 海量交互数据 源于 Facebook、 Twitter、 LinkedIn及其他来源的社交媒体数据构成 。 它包括了呼叫详
24、细记录 、 设备和传感器信息 、 GPS和地理定位映射数据 、 通过管理文件传输协议传送的海量图像文件 、 Web文本和点击流数据 、科学信息 、 电子邮件等等 。 可以告诉我们未来会发生什么 。 海量数据处理 大数据的涌现已经催生出了设计用于数据密集型处理的架构 。 例如具有开放源码 、 在硬件群中运行的 Apache Hadoop。 大数据 = ( 海量 + 类型复杂)的 数据 15 大数据的特征 1(量大) 价值 密度( Veracity) 数据类型( Variety) 处理速度( Velocity) 数据规模 ( Volume) 大数据 Big Data 政府以及企业数据的开放使得社会
25、获取传统的海量数据成为可能,而互联网、智能终端的发展则以前所未有的速度为人类数据库不断增加着新的数据。 大存储量 大计算量 在数据产生的地区分布方面 , 新兴经济体 ( 如中国 、 印度等 ) 将产生并持有越来越多的数据 。 到了 2012年 , 新兴市场的数据份额达到 36%, 在 2020年这一比例将会达到62%, 其中我国所占比例将达到 21%。 谷歌每天处理的搜索量超过 30亿次 , 每秒响应 3.4万次搜索 。 大数据的特征 2(种类多) 44 价值 密度( Veracity) 数据类型( Variety) 处理速度( Velocity) 数据 规模 ( Volume) 大数据 Bi
26、g Data 数据来源多 数据格式多 结构化数据 半结构化数据 非结构化数据 互联网企业: SNS、 微博 、 视频网站 、电子商务网站 。 物联网 、 移动设备 、 终端中的商品 、 个人位置 、 传感器采集的数据 。 通信和互联网运营商 。 天文望远镜拍摄的图像 、 视频数据 、 气象学里面的卫星云图数据等 。 社会组织各部门统计数据 , 如人口抽样调查 、 交通数据 、 卫生统计数据等 。 传统数据库所处理的数据,即存储在数据表中的行数据。 不能直接用数据库中的二维逻辑表来表现的数据 , 它包括所有格式的办公文档 、 文本 、 图片 、 XML、 HTML、 各类报表 、 图像和音频 、
27、 视频信息等 。 是结构化的数据,但是不同数据的字段和数据长度差异很大。 大数据的特征 3-价值密度低 45 价值 密度( Veracity) 数据类型( Variety) 处理速度( Velocity) 数据 规模 ( Volume) 大数据 Big Data 数据良莠不齐 , 价值密度低 , 但是通过挖掘可以从数据中可以获得大量的价值 在 爆发 一书中 , 复杂网络研究领域的权威巴拉巴斯指出 , 人类的活动是有迹可循的 , 其中 93%的人类行为都是可以预测的 。 一旦掌握了足够多的 历史信息 , 就可以从其中得到规律 , 并对未来即将发生事件进行 准确的预判 。 而大数据的出现无疑是给了
28、人们一把打开未来之锁的钥匙 。 通过收集 、 分析 海量数据 , 并快速地从数据模型中分析未来的趋势 , 人们可以提前实现对未来的预判或是准备 。 斯特金定律:互联网上90%的信息是垃圾。 16 大数据的特征 4-处理速度快 46 价值 密度( Veracity) 数据类型( Variety) 处理速度( Velocity) 数据 规模 ( Volume) 大数据 Big Data 购物推荐 网络搜索 在实际的应用中 , 从数据的采集到运算分析得到结果之间的时间要求可能是秒 、 甚至是毫秒级的 。 股票交易、应急救援、基于地理位置的服务( LBS) 对搜索的时间要求 如果网页加载时间超过4秒
29、, 25%的用户会放弃该网页 如果网页加载时间超过10秒 , 50%的用户会放弃该网页 抓住用户 冲动购物 的瞬间提供货品推荐 大 数据所带来的思维 转变 -因果 关系到相关关系 与因果关系不同 , 相关关系并不关注和回答 “ 为什么 ” , 它只需要能够通过相关性确认变量之间的关联 , 并用来进行数据的预测 。 在掌握了海量数据的情况下寻找相关关系的实现难度明显小于因果关系 。 整个 亚马逊网站 的销售额中 , 有近三分之一来自于 “ item-to-item” 推荐系统根据用户购书记录进行的推荐 , 但是亚马逊并不关注用户为何对某本书感兴趣 。 空气污染和癌症发病率的关系 存在明显的正相关
30、性 社交网站情绪指数与股价走势 美国印第安纳大学的约翰 博伦 “ 我们发现 , 预测道琼斯指数每日收盘涨跌的准确度高达 87.6%。 ” 算法玩笑 2011年 4月 8日,加州大学伯克利分校的迈克尔 .艾登登陆亚马逊网站买一本书“ The Making of a Fly”,书中介绍苍蝇是如何从一个单细胞成长为一只嗡嗡响的飞虫。 亚马逊的 2个商家的价格分别为 1,730,045美元,2,198,177美元,第二天,价格为 2,194,443美元,2,788,233美元 ,4月 18日,价格 23, 698,655美元, 4月19日价格下降到 106美元。 第 1家书店把书价定位第 2家的 0.
31、9983 倍,第 2家把书价定为第 1家的 1.270589倍,机器自动定价。 0.9983* 1.270589=1.26842899871 48 17 思维转变 -从锱铢必较到良莠不齐 按照美国相关规定,公共卫生部门需要随时对流感疫情进行监控、统计疫情状况,然而由于大部分患者都是在患病长时间后才会向医院寻求帮助,导致卫生部门的统计信息可能 存在一定的延迟。 在对搜索引擎上的用户检索词条和流感爆发数据进行对比分析时,谷歌公司的工程师们惊奇地发现,在流感疫情爆发的前期,搜索引擎上用户搜索的词条会发生变化,而这些变化可以帮助卫生部门更好地预测流感疫情 。 49 科学家 们 通过对 频繁检索词条和美
32、国疾控中心2003年至 2008年季节性流感传播时期的数据进行了对比分析 , 最终 发现了 45条检索词条的组合 ,使用 这些词条 进行流感发病预测的 准确率高达97%。 这个研究成果发表于 2009年 2月的 自然 杂志上 , 如今来自全球的用户都可以在谷歌流感趋势网站上查看当前全球流感分布图 , 以了解世界上大部分国家的流感疫情 。 在 2009年甲型 H1N1流感爆发时 , 谷歌流感预测为卫生部门提供了更加及时准确的疫情信息 ,为疫情的防控立下了汗马功劳 。 http:/www.google.org/flutrends/ 大数据所带来的思维转变 -从单一数据集到多类型数据集的关联分析 5
33、0 我们所生活的世界原本就是一个由紧密关联的众多要素所组成的复杂系统,在这个系统中,要素与要素之间的联动最终使得事物以我们所看到的模式而运行。大数据的出现使得人们可以更好地完成不同类型数据之间的联合分析,更加完整准确地呈现出世界的本来面目。 大数据技术和思想的发展使得 跨类型 、 领域的数据分析 成为了可能 , 随着政府 、企业等社会组织对于数据分析的重视和对于数据共享意识的提升 , 越来越多的公开数据可以被获取 , 取得跨领域的数据集并用于数据分析变得比以前便利得多 。 而基于海量数据分析的技术使得用户可以对海量的数据进行相关分析 , 而不用将自己的精力花在讨论因果关系上 , 这样使得用户可
34、以输入品类繁杂的大量数据 , 并最终得到 “ 有趣 ” 的相关关系结论 。 反恐 大数据兴起源于 911事件恐怖分子的监控失败 恐怖分子监控失败唯一原因 缺乏信息的关联分析 19 个恐怖分子中的 6个在中央情报局 (CIA)的监控名单上 16 个人获得美国的签证 (旅游 , 学生 , 工作 ) 最起码有 4 个人有驾驶执照;所有人都有社会保险号码 (SSN) 关键人物使用真名租车,购买飞机票,等等 州法律执行机构和其他联邦特工不知道他们在哪里,甚至也不知道有什么渠道可以监控他们 信息全部都可获得,但是没有分析,没有共享 美国利用大数据维护城市安全 18 52 从数据资源 数据资产 数据竞争力
35、Facebook的市值 1250亿美元 Facebook的核心价值正是在于它掌握的海量数据金矿 10亿名用户、 2400亿张照片和 1万亿次页面访问量。 贝弗利山一家广告网络公司 Ad.ly的首席执行官肖恩 赖德( Sean Rad)与 2万名Twitter用户签约,让他们把广告放入自己的 tweet中,由公司为其付费。为了决定付款额,这家新兴公司开发了一种可以衡量个人影响力的计算方法。电视真人秀明星金 卡戴珊拥有近 300万粉丝,她每发布一条 tweet可获得 1万美元;而商业博主盖伊 川崎有 20万粉丝,他发布一条 tweet可得 900美元。 Farecast网站根据 2000亿条飞行数
36、据记录预测出每一条航线上每班飞机每个座位的综合票价变更趋势( Farecast网站于 2009年 6月被微软公司收购,现在作为微软旗下 Bing搜索中旅游板块的组成部分而存在, 2014年微软公司关闭了其机票价格走势预测功能)。 主要内容 无所不在的信息服务社会 大数据的产生背景 大数据的特征与思维模式转变 大数据应用 53 数据驱动的决策 品质 12.145+0.00117 冬天降雨量 +0.0614 生长期平均气温0.00386 收获季节降雨量 1986年 帕克:“品质一流,甚至非常出色” 奥利:生长期平均气温过低,收获期过多的雨水,品质注定是平平 1989年 奥利:“令人震惊地一流,是过
37、去 35年中最好的品质,世纪佳酿” 帕克:“奥利的估计愚蠢可笑” 1990年 奥利:“比 1989年品质更好” 奥利证明了帕克的评级具有系统性上偏,帕克不得不经常降低自己最初的评级。 奥利普林斯顿大学经济学教授, 美国经济评论 主编 19 大数据助力奥巴马竞选团队 在 2012年的美国总统竞选中 , 奥巴马竞选阵营的数据挖掘团队为竞选活动搜集 、 存储和分析了大量数据 ,作为奥巴马的数据收集 、 处理和分析助手 , 帮助整个竞选团队成功策划多场活动 , 从资金筹集到选民分析提供了完整的支持 , 促成了奥巴马的成功 连任 使用海量 社交网络统计 数据和多数据库综合数据构建了庞大 的分析系统 选民
38、分析 : 1000多个特征群体 , 对选民的被说服可能性和影响力重要性进行 排序 模拟: 奥巴马的数据团队每晚要实施 6.6万次模拟选举 宣传 :广告投放从新闻到电视剧节目 , 推广效率提升 14%;Reddit社交网站 回答 问题 55 我们会在此次竞选活动中测量每一件事情 , 创造一次以数据驱动 、 完全不同于以前的竞选活动 。 吉姆 梅斯纳 ( 奥巴马竞选团队主管 ) 56 莎拉 杰西卡 帕克 (欲望城市) 募款:乔治 克鲁尼晚宴 ( 西部 , 40-49, 女性 ) , 2012年 5月 10日在好莱坞举办了竞选筹资晚宴 。 一晚筹款 1500万美元 。 ( 西海岸 ) 急诊室的故事
39、在东海岸选择了女明星莎拉 杰西卡 帕克 , 成功地复制了西海岸的筹款效果。 在数据的支持下,竞选团队帮助奥巴马筹措到了创纪录的 10亿美元竞选资金。 大数据制造与设计行业应用案例 57 在福特公司内部 , 每一个职能部门都会配备 专门的数据分析小组 , 同时还在硅谷设立了一个专门依据数据进行科技创新的实验室 。 这个实验室收集着大约400万辆装有车载传感设备的汽车数据 , 通过对数据进行分析 , 工程师可以了解司机在驾驶汽车时的感受 ,外部的环境变化以及汽车的环境相应表现 , 从而改善车辆的操作性 、 能源的高效利用和车辆的排气质量 ,同时 , 设计图案对还针对车内噪声的问题改变了扬声器的位置
40、 , 从而最大程度地减少了 车内噪声 。 同时 , 福特团队还开发了具有特殊功用的分析工具 ,如 福特车辆采购计划工具 。 该分析系统能根据大宗客户的需求帮助他们进行采购分析 , 同时也帮助他们降低成本 , 保护环境 。 福特认为分析模型与大数据将是增强自身创新能力 、 竞争能力和工作效率的下一个突破点 。 福特公司数据分析小组 在 2014年举行的北美国际车展中 , 福特重新设计了 F-150皮卡车 , 使用轻量铝代替了原来的钢材 , 有效减少了燃料消耗 。 负责 F-150 皮卡车设计的数据分析师Michael Cavaretta说 , 在减少燃料消耗的过程中 , 技术团队选择了多项备选方
41、案 ,并在估算了这些技术的成本和利润 、 以及实现技术需要消耗的时间的基础上进行了优化分析和抉择 , 而轻量铝就是团队进行数据分析和综合评估之后的选择 。 使用轻量铝的福特新型F-150皮卡 20 大数据金融与保险行业应用案例 数据分析在金融业中最直接的应用是个人信用等级的评估,进入大数据时代后,越来越多新的指标被纳入评估体系,包括在过去常常被认为是不可能获取的社交网络数据。 Lenddo公司是一家创立于 2011年的个人贷款在线社区 , 目前该社区已经在全球范围内拥有超过 25万的会员 , 其会员数量以每 6090天翻番的速度在增长 。 Lenddo公司最初聚焦于向用户提供用于教育 、 医疗
42、等领域的小额贷款 , 与时下热门的 P2P(peer-to-peer)贷款模式不同 , Lenddo并不提供平台用户之间的借贷服务 , 他们放贷的资金源于公司的自有资金以及投资者和合作伙伴的资金 。 在 Lenddo, 就会将用户的社交网络资料纳入考虑范畴 , 例如他们的教育信息 、 职业信息 、好友信息 、 关注者数量 , 同时 , 他们在用户发生欠款时还会通过用户的好友网络对用户进行施压 , 以催促用户还款 , 如果用户逾期不还 , 则他的好友在 Lenddo系统中的评分也会降低 。 Lenddo公司基于社交网络评价个人信用 在线注册 照片上传 连接社交网站 邀请好友创建信誉社区 申请贷款
43、 大数据金融与保险行业应用案例 59 在 Lenddo 平台上设置有LenddoScore( Lenddo得分 ) , 这是用户的声望信誉在网上的排名 , 它与用户的性格以及社交网络有关 ,Lenddo以用户在线上社区的社交数据和信息为基础 , 来给出相应的LenddoScore。 提高个人 LenddoScore的途径有三种 1. 关联真实且活跃的社会化网络账户; 2. 在 Lenddo上关联与最亲密的朋友和家人 , 他们的 LenddoScore可以帮助你; 3. 关联真实且活跃的社会化网络账户;你能够及时还贷的历史 , 或者是在Lenddo上你有信任的朋友 , 并且他们愿意为你的声誉 、
44、 你的品质做担保 。 换个角度来看,用户在提高自己 LenddoScore的同时,也使得 Lenddo社区更加活跃,这也能从侧面解释为何 Lenddo的会员数量增长如此之快。 保险行业大数据应用案例 理赔欺诈预防 费埃哲 ( FICO) 公司在 2013年的报告中指出 , 在面向保险公司的调查中 , 约有 35%的受访者认为当前的保险欺诈比例达到了 5-10%, 有 31%的受访者认为这些保险欺诈给公司带来的损失达到了营收的 20%, 而且保险欺诈的比例还在不断增长 , 已经逐渐成为威胁保险公司利润率的一个关键因素 。 案例:使用大数据分析技术排除保险欺诈 加拿大保险局 ( The Insur
45、ance Bureau of Canada, IBC) 是加拿大的财险 、 汽车险和商业险官方联合会 。 在近年的工作中 , 加拿大保险局发现对于汽车保险欺诈的调查往往会耗费数年时间 ,为此他们的调查部门希望能够借助大数据技术加速保险欺诈调查的过程 。 加拿大保险局和 IBM公司合作 , 推出了一项概念验证计划 ( Proof of Concept, POC) , 这项计划在安大略省率先推行 , 在这项计划中 , 他们利用历史数据定义了关键的保险欺诈标志物 , 用以辅助保险调查人员进行欺诈预防 。 同时 , 该计划中还对客户关系 、 标志物关联 、 欺诈风险等关键要素进行了可视化展示 , 进一
46、步提升了调查人员的工作效率 。 在该计划中 , 共分析了六年时间内的 230000个理赔请求 , 最终发现涉及金额约为 4100万加元的 2000多个理赔请求存在欺诈嫌疑 ,IBM和 IBC估计 , 该计划最终能够为安大略省的汽车保险行业每年节省约 2亿加元 。 在 承保环节 ,保险公司可以使用大数据解决方案快速检索申请者的海量信息数据,以排除可能会发生欺诈行为的投保客户。 在保险公司接收到用户的 理赔请求 后,可以利用社交网络和公开数据对对用户的理赔请求核查,不仅能够减少保险欺诈成功的概率,也能够减少保险理赔请求中假阳性的发生,从而提升客户满意度。 21 大数据应用案例 61 大数据广泛应用
47、的背景是互联网的全面占领人们的生活,互联网企业通过在线广告的方式获取大量的利润,数据分析的引入使得在线广告相对于传统的广告而言 可以进行 更加精细 的 投放 ,而对广告效果数据分析的引入,则可以更好地指导广告投放过程。 基于多年的数据积累和不断优化的技术 , 亚马逊的个性化推荐技术闻名业界 。 同时 , 亚马逊所推出社交新功能还能还允许其用户可将亚马逊帐户与 Facebook帐户关联起来 , 亚马逊将根据用户使用 Facebook“Like”( 赞一个 )功能的情形和在 Facebook网站上的其它活动记录来推荐商品 。 亚马逊的预测发货 , 客户还没有下单 , 货物已经发出 。 国内的互联网
48、和电商平台也在推出自己的个性化推荐技术 , 在用户通过淘宝进行过货品的浏览之后 , 一旦用户使用相同的浏览器登陆新浪微博 , 那么新浪微博的淘宝专用广告栏中就会出现与用户浏览货品相类似的商品 , 而这一部分数据的贯通和整合无疑将给淘宝商家带来更多的收入 。 在线广告的个性化推荐 新浪微博边栏出现的个性化推荐 用户在亚马逊上的Facebook页 大数据零售行业行业应用案例 62 在零售业的发展中,积累数据并分析数据自沃尔玛始,逐渐成为每一家大型零售企业了解用户、控制库存的重要手段。 Pop Tarts什么时候会脱销 啤酒和尿布的故事 ZARA: 把消费者声音化成数字 Zara平均每件服饰价格只有 LV的四分之一; 但是, Zara税前毛利率比 LVMH集团还高,达到 23.6%。 走进店内,柜台和店内各角落都装有摄影机,店经理随身带着 PDA。当客人向店员反映:“这个衣领图案很漂亮”、“我不喜欢口袋的拉链”,这些细微末节的细项,店员向分店经