1、数据仓库 与 数据挖掘,本 节 内 容,产业界与学术界的关注,2012年最热科技词汇:大数据(Big data)纽约时报华尔街日报的专栏封面 求是杂志刊登长文:大数据时代的机遇与挑战2012年中国管理科学与工程年会主题:应对多质大数据的挑战,产业界与学术界的关注,大事件预测 奥斯卡金像奖预测:微软纽约研究院的经济学家大卫罗斯柴尔德(David Rothschild)2013年,成功预测24个奥斯卡奖项中的19个。2014年,成功预测24个奖项中的21个。 统计学家Nate Silver的模型预测:奥巴马有超过80的机会赢得大选(后来模型提升到90.9%),产业界与学术界的关注,2011年2月1
2、1日出版的科学杂志刊登专题数据处理,2008年9月3日出版的自然杂志刊登专题大数据,自然科学大数据专刊,产业界与学术界的关注,麦肯锡咨询公司“大数据”研究报告 “Big data: The next frontier for innovation, competition, and productivity” McKinsey Global Institute, May 2011.,6,高德纳(Gartner)研究与顾问咨询公司,产业界与学术界的关注,Data are becoming the new raw material of business: an economic input al
3、most on a par with capital and labor. 数据正逐渐变成商业所需的原材料之一:一项几乎和资本或劳力一样重要的经济原料。(Feb. 27th, 2010),7,产业界与学术界的关注,20世纪大萧条以来,美国作为世界强国的开放历史,数据技术浪潮的兴起过程,气势磅礴,波澜壮阔。美国政府为什么能,中国到底缺什么? “大数据”之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。,8,2012-7,产业界与学术界的关注,爆发:大数据时代预见未来的新思维。 巴拉
4、巴西的研究是在人类生活数字化的大数据时代基础上进行的,移动电话、网络以及电子邮件使人类行为变得更加容易量化,将我们的社会变成了一个巨大的数据库。 巴拉巴西揭开人类行为背后隐藏的模式“爆发”,提出人类日常行为模式不是随机的,而是具有“爆发性”的。,9,2012-6,KMGTPEZYK Kilo 1K字节 = 1, 024字节 M Meg 1M字节= 1, 048, 576字节 G Giga 1G字节 = 1, 073, 741, 824字节 T Tera 1T字节 = 1, 099, 511, 627, 776字节 P Peta 1P 字节= 1, 125, 899, 906, 842, 624
5、字节 E Exa 1E字节 = 1, 152, 921, 504, 606, 846, 976字节 Z Zetta 1Z字节 = 1, 180, 591, 620, 717, 411, 303, 424字节 Y Yotta 1Y字节 = 1208, 925, 819, 614, 629, 174, 706, 176字节,容量单位:从K到Y,大数据现象,10,大数据现象,An Everest Sized Opportunity!,11,12,无所不在的数据(1),国家(省、市)统计局(http:/),70万家企业联网“直报”统计数据 从2012年2月18日开始,全国70万家“三上“企业和房地产开
6、发经营企业将在统一的数据采集和处理平台上,通过互联网直接向国家数据中心或国家认定的省级数据中心报送统计数据。,13,无所不在的数据(2),金融数据(http:/ RFID技术与物联网应用,15,无所不在的数据(4),到2020年,北斗卫星导航系统将拥有35颗卫星(已发射15颗),形成覆盖全球的卫星网络。,全球四大卫星导航系统 北斗卫星导航系统 美国的GPS 俄罗斯的格洛纳斯 欧盟的伽利略系统,16,无所不在的数据(5),生物信息学(人类基因组计划) 来自全球27个族群的2500个人的全部基因组信息,产生的数据量已达到50TB 神经信息学(人类脑计划),17,无所不在的数据(6),无所不在的数据
7、(7),18,智慧城市,新信息世界观:物理世界、信息世界、人类社会组成三元世界,19,大数据,李国杰院士,“大数据”对社会发展的影响,科学研究 第四种范式公共管理 智慧城市工业生产与商业经营 商务智能与数据,20,第四种范式,观察与经验描述与实验、理论建模、仿真与计算等科研模式之后,当代又出现了数据密集型的科研范式。微软公司于2009年10月发布了The Fourth Paradigm: Data-Intensive Scientific,首次全面地描述了快速兴起的数据密集型科学研究。“The Next Science Revolution”,Harvard Business Review,N
8、ovember 2010,21,22,商务智能与数据解析学,目前决策制定者正在被大量的数据淹没,数字信息从各种各样的传感器、工具和模拟实验那里源源不断地涌来,令企业的组织能力、分析能力和储存信息的能力捉襟见肘。 正如麦肯锡的报告揭示的那样,管理作为科学的一个特性正在越来越凸现出来。,23,决策需要信息与知识,24,三类智能的融合,25,人的智能,商业(业务)智能,机器智能,数据,当前大数据领域中的重点投资方向,数据、分析、服务、平台、企业、应用,当前大数据领域中的重点投资方向,数据、分析、服务、平台、企业、应用,当前大数据领域中的重点投资方向,数据、分析、服务、平台、企业、应用,大数据泡沫,2
9、013夏季达沃斯开辟专场: “大数据概念是否被过度炒作” 四位嘉宾分成正反两方,展开一场激辩。 是四位嘉宾中更年轻、更接近“技术宅男”的两位,持正方观点,其中一位是美国Kaggle公司总裁兼首席科学家Jeremy Howard,另一位是加纳MPedigree网络公司总裁Bright Simons认为:“大数据已被过度炒作” 。 北京大学光华管理学院新媒体营销研究中心副主任苏萌,另一位是日本政治家、内阁成员,曾是摇滚音乐人的山本一太,为大技术时代的到来欢呼。,大数据泡沫,首先,我们真需要这么多数据吗?美国Kaggle公司总裁兼首席科学家Jermy Howard认为,人类所需要的关系并不复杂,太多
10、大数据分解了人们的注意力。“搜集这么庞杂的数据要花费很多时间,处理数据也是。最好的方式是只提取最重要的数据,不该把时间浪费在无关数据的搜集和处理上。”加纳MPedigree网络公司总裁Bright Si-mons也认为,大数据面临着集中化的危险,对于人们而言,更重要的是“洞察”能力,是个人的自主性,从繁杂的大数据中挑选出有用的部分。,大数据泡沫,第二个问题:个人隐私怎么办?在超市购物时,你的会员卡会记录你的消费信息,相关商品的打折促销活动会不定时发送到你的手机。上网时你的cookie信息被读取,如果一年前你在电商网站里浏览了一张沙发,直到现在很多网页上都会自动弹出沙发的广告和促销信息,不管你需
11、不需要。你在微博、人人等社交网站上发了一条“写论文好辛苦”的状态,结果每天都有无数的论文代写机构找上门来。我们的个人信息被各种数据供应商收集,成了数据产业链上无偿的原料。更令人担心的是,在网上任何设置了隐私屏障的信息在技术上都是可以被获取的。大数据时代,我们没有隐私,没有秘密。,大数据泡沫,第三点质疑:如何保证数据安全?只要以数据形态存在,就天生带有安全隐患。数据库可能被盗、被黑、被扭曲、被替换。网上订了一份鸡肉饭送来了鱼丸粗面都是小事,结婚纪念日送太太的鲜花被写上了别人的名字就可能引发一场血案而涉及到国家安全的信息,更是十分敏感。一旦数据安全受到危险,大数据会产生大隐患。 几年前爱沙尼亚遭到黑客攻击,由于该国政府部门和私营部门的数据集中存放,网络攻击导致该国几乎全面瘫痪,,大数据泡沫,从投资方向上看:国内与国外在基础设施方面1:18的差距无疑暴露了国内企业在基础设施领域的短板。 从技术上看:信息的存储、接口设计、加速计算等基础设施类的业务非硬技术不能支撑,相对来说,垂直应用类的产品,一个成熟的工程开发团队能够快速复制成功案例; 从时间上看:国外大数据的基础设施建设并非一开始就出现,也是经过长期的应用产品的积累期,需要有技术和理念的成长。因此,国内创业公司的这种落后是成长的必经之路。,Thank You !,