1、大数据时代的全球竞争与对策,袁 卫 人民大学2015.8.21,一、大数据时代的全球竞争二、大数据改变我们的生活三、全球竞争需要政府主导四、大数据人才竞争与培养五、媒体大数据的误区,李克强总理2015年5月26日在贵阳大数据峰会贺信中说:“数据是基础性资源,也是重要的生产力。大数据与云计算、互联网等新技术相结合,正在迅速并将日益深刻改变人们的生活方式,互联网+对于提升产业乃至国家综合竞争力将发挥关键作用.中国是人口大国和信息应用大国,拥有海量数据资源,发展大数据产业空间无限.”,一、大数据时代的全球竞争,大数据三个基本特征:1,数据PB级(volume);2,数据类型繁多,不仅结构化数据,还有
2、网络日志、视频、图片和地理位置信息等非结构化数据(variety);3,处理速度越来越快(velocity)。,摩尔定律(Moores Law),存储的价格从上个世纪60年代1万美元1M,降到现在的1美分1G的水平,其价差高达亿倍,在大数据时代,国家竞争力将部分体现为一国拥有数据的规模以及解释、运用数据的能力;国家网络空间主权体现对数据的占有和控制。数据主权将是继边防、海防、空防之后,另一个大国博弈的空间。数据已同固定资产、人力资本等生产要素一样重要。在联合国2008年新国民经济核算体系中,强调数据、数据库、研究与开发(R&D)对GDP的贡献。数据是一种很特殊的资本,首先它没有排它性,没有消耗
3、性,却有整合性,通过1+1可以大于2。所以数据竞争将成为商业、国家竞争的一种重要形式。,亚马逊前首席科学家安德雷斯 韦斯岸直白地指出:数据是新的石油。在贵阳大数据峰会上马云预测:数据将取代石油,成为未来制造业最大的能源。,大数据新技术发展规律周期,Gartner公司2014年Hype cycle曲线揭示了Big Data经历了2012-2013的上升期和快速成长期,基础理论趋于成熟,应用与产业技术逐渐成熟Big Data技术源自企业需求,落地于开源社区项目,推动于企业大数据分析应用,成熟于IT企业平台Big Data已经成为人类社会新的基础设施,通过数据描述社会动态与发展变迁,大数据竞争力分析
4、,我国信息化发展的桎梏缺乏核心技术结构化数据处理时代:数据库市场被Oracle、IBM、Microsoft、SAP等国外数据库产品所垄断,国产数据库在夹缝中生存大数据时代:国内大数据平台技术依赖Hadoop等国外开源平台,在短期内获得巨大的成功,但难以跳出以仿制为主,缺乏自主创新能力的窠臼,在大数据平台架构方面缺乏影响力,重走IT产业的“中国制造”大国而非“中国创造”大国之路,重蹈我国在电脑和手机操作系统方面处处受制于人的覆辙大数据发展方向偏差重商业应用,轻基础产业引领我国大数据产业的是BAT(百度、阿里、腾讯)等互联网和电子商务产业需要大力推动科学研究、疾病防治、灾害预测与控制、国防安全、食
5、品安全与群体事件等民生领域的大数据应用,提高大数据国际竞争力,提高信息资源开放程度IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”大数据的价值取决于大数据的可得性和开放性提高基础数据服务水平,消除数据孤岛,提高数据共享,挖掘数据价值通过制订标准、立法等手段解决数据开放性与隐私保护之间的矛盾,二、大数据改变我们的生活,2012年5月18日Facebook在纳斯达克上市,开盘后总市值1000亿美元左右。2011年评估公司审核时 Facebook公布资产约66亿美元 ,包括计算机硬件、专利、其他价值等。大量数据值多少钱?2009到2011
6、年Facebook收集2.1万亿条信息,每条信息值4美分,每位用户价值越100美元,全球每10人中就有1位用户。数据与品牌、人才、战略等形成巨大的无形资产,无形资产在2002年约占上市公司市值的75%。,例1.1 奥巴马2012年竞选,2012年大选前建立竞选数据库通过数据分析发现美国西海岸,40-49岁的女性非常喜欢乔治.克鲁尼(奥斯卡影帝),同时这个年龄段的女性也是捐款最多的,所以奥巴马团队就搞了一个项目:通过捐款获得一个与奥巴马和克鲁尼一起吃饭的机会。对Facebook数据分析, 奥巴马支持者对摇摆州朋友的影响大数据分析帮助奥巴马2012年拉到1billion美元的竞选经费,包括改善电视
7、广告, 摇摆州投票的影响。,例1.2,数据帮助降低犯罪率,上世纪70-80年代的纽约是犯罪之都,1990年平均每天6人死于恶性犯罪,每小时16辆被盗。1970年杰克.梅普尔(Jack Maple)高中毕业后成为地铁警察,开始研究地铁抢劫案发生规律。办公室挂满各种地图,将犯罪标在地图上并决定第二天出警地点(charts of future). 1990年这一图表引起新任局长布雷特(William Bratton)注意,得到推广。1991年纽约地铁案件下降27%。共和党人鲁迪.朱利安尼(Rudy Giuliani)竞选当上市长,立即任命布雷特为局长,布立即任命梅普尔为第一副局长。电子版的chart
8、s of future就是CompStat, 纽约76个警区全部数据,1994年起案件下降,2009年每天1起(全年466起)。,1996年CompStat获哈佛大学的Innovations in American Government Award, 引起美国总统和副总统注意,在全国推广Crime Mapping and Data-Driven Management. 到2006年将20多年犯罪数据和交通事故数据结合在一起,发现高度相关。不同联邦部门联合治理,10万人以下城市至少4年以上数据。提高效率,改善治安。,例1.3, 佛罗里达州警车超速调查,2011年10月佛罗里达州劳德代尔市(For
9、t Lauderdale)发生一起恶性交通事故,警车超速。太阳哨兵报记者克斯汀(Sally Kestin)开始调查:2004年起,该州发生320起警车超速导致的交通事故,19人丧生,只有一名警察入狱。难在取证。根据美国信息自由法,克斯汀申请交管信息开放。获得110万条警车通过不同高速路收费站信息,用3个月时间算出13个月中,3900辆警车发生5100宗超速事件。96%超速在144公里到176公里之间,当地1/5警车都有超过144公里记录。,而且,绝大多数超速在上下班途中。2012年2月第一篇报道“他们凌驾于法律之上”。查实800名警察,48名州高速路巡警受处分,迈阿密市38名警察受处理,1名被
10、开除,10名停发工资等。2012年底克斯汀又作了与2011年同月的对比分析,2月到12月超速数从3179件减少到495件,减少84%,写第二篇报道“警察猛踩刹车!”太阳哨兵报是当地县里的小报,23万份,获得2013年普利策新闻奖。,例1.4, 世界杯的大数据,我7月初就收到微信:意大“离”了、西班“哑”了、英格“烂”了、乌拉“归”了.八强赛:哥伦比“哑”了、法兰“熄”了、比利“失”了、哥斯达“离家”了!四强赛:巴“熄”了、荷“烂”了.决赛:阿根“停”了,德“过”了。德国队用SAP Match Insight系统,球员鞋内、护腕内放置传感器,足球和球场内布满传感器,捕捉球员动作细节和位置变化,实
11、时传回到SAP HANA平台上,几分钟后处理完显示在教练的平板显示器上,每个球员跑动线路、技术特征、成功率等数据都一目了然。教练可以用它安排技战术,球员可用它发现问题。,三、全球竞争要政府主导:美国,2004年11月奥巴马赢得联邦参议院选举,他当了三年多参议员,作为第一发起人提了137个法案,只有2个成为法案。同时作为合署人与其他议员发起600多个法案,他上任成功推出的第一份法案就是有关数据开放的法案联邦资金责任透明法案(科伯恩-奥巴马法案),要求公开所有公共财政支出的原始数据USAspending.gov2009年1月21日上任第一天签署的首份总统备忘录透明和开放的政府,签署的第二份信息自由
12、法2009年3月5日他上任不到两个月就任命联邦政府首席信息官,4月18日又任命了首席技术官。Data.gov。,美国从“信息高速公路计划”过渡到“大数据计划”,大数据战略第一轮行动,大数据战略第二轮行动,大数据战略第三轮行动,2013年6月,八国集团首脑在北爱尔兰峰会上签署了开放数据宪章,法国、美国、英国、德国、日本、意大利、加拿大和俄罗斯承诺,2013年年制定开放数据行动方案,2015年年底开放可机读的政府数据。 八国用共同的网站:data.gov. 目前美国data.gov网站包含来自90个联邦机构的200个发布主体,176个组织主页,提供了129,950个数据集.,Big Data fo
13、r Development: Challenges & OpportunitiesMay 2012,联合国,中 国,大数据不仅仅是数据状态和高科技信息技术,而是认识世界的观念与方法。一是用数据说话,科学决策;二是职能辅助决策,提高办事效率。2013年3月14日公布的国务院机构改革和职能转变方案要求,用3至5年时间,基本建成集合金融、工商登记、税收缴纳、社保缴费、交通违章等信用信息的统一平台,实现资源共享;建立以居民身份号码为基础的公民统一社会信用代码制度;建立以组织机构代码为基础的法人和其他组织统一社会信用代码制度;建立不动产统一登记制度;加强技术标准体系建设。,智慧城市建设,2008年 11
14、月,IBM董事长Samuel Palmisano(彭明盛)在美国外交委员会演讲中,提出智慧地球和智慧城市的概念。“全面感知、充分整合、激励创新、协同运作”。截止2009年,全球已有一半以上人口居住在城市,到2030年,将有50亿人口住在城市。到2014年,居住在城市的中国百姓已近55%信息网络宽带化、规划管理信息化、基础设施智能化、公共服务便捷化、产业发展现代化以及社会治理精细化。,2013年全球7大智慧城市全球超过400个城市竞逐最有智慧城市头衔,最后选出这7个城市,分别是:1、美国俄亥俄州的哥伦布市;2、芬兰的奥卢;3、加拿大的斯特拉特福;4、台湾地区的台中市;5、爱沙尼亚的塔林;6、我国
15、台湾地区的桃园县;7、加拿大的多伦多。,2012年12月5日住房与城乡建设部“关于开展国家智慧城市试点工作的通知”,到2015年1月住建部和科技部分三批公布290个试点市、区、镇。智慧城市的三化:物联化、互联化和智能化。智慧城市四大特征:全面职能的感知、宽带互联的便利、职能融合的应用、以人为本的持续创新。近三年国家开发银行投资800亿,整个投资近5000亿搞新型城镇化建设。经过3-5年试点建设,住建部评定1、2、3星。,2012年底广东率先制定广东省实施大数据战略工作方案,采用行政收集、网络搜取、自愿提供、有偿购买等多种方式拓宽数据搜集渠道;政府各部门开展数据开放试点,通过部门网站向社会开放可
16、供下载和分析使用的数据,进一步推进政务公开;建设完善全省网上办事大厅、政府数据档案、企业信用信息网等骨干网路系统;同时,同3年左右时间,在全省范围内推广设立公民个人专属网页。到2015年力争信息化水平达到中等发达国家水平,到2020年,迈进世界先进水平,基本建成“智慧广东”。,案例3.1,广东佛山市南海区成立数据统筹局,硬件设施平台,城市信息服务平台,1、硬件、网络基础平台 网络、核心存储、服务器等硬件基础设施、数据资源、应用系统的运营和管理,由数据中心根据管理制度及流程进行统一管理。 内设运维监控大厅,实行24小时在线值守。,2、智慧城市软件平台 应用系统开发采用统一的基础信息平台,有助于在
17、各个阶段降低成本,共享应用和技术资源,避免重复独立建设,降低技术风险和实施难度,加快“智慧克拉玛依”建设速度和效果。,建成两大平台,奠定智慧城市建设基础,案例3.2, 新疆克拉玛依市的智慧城市建设,数字克拉玛依建设初见成效,数字惠民,数字兴业,数字惠民,数字兴业,数字强政,到2020年,建立完善的信息通信基础设施,突破一批核心技术、共性技术、关键技术和运营技术,以技术、标准、方案、服务模式为主要产品的智慧产业,形成覆盖各行业、各领域、各区域的城市运营服务体系,建成中亚地区领先的智慧城市生态体系和辐射中亚、全国的智慧产业生态系统。,到2015年,信息化成为推动克拉玛依经济发展的重要力量,实现经济
18、形态的两个转变:一是进入“网络形态”,信息化成为企业重要支撑。二是进入“智能形态”,重点企业实现信息共享、高端发展,重点行业进入智能发展的轨道。,第一阶段目标:初级智慧型城市,第二阶段目标:成熟智慧型城市,健康云:实施区域远程医学平台建设项目,引进内地25家优质医疗资源,开展远程会诊、远程教学查房等服务,为建立健康云奠定了基础;教育云:面向全市中小学,建立了教育资源库、数字化图书馆,数字化教研网及数字化教学平台,实现教育资源向社会开放及远程教学,教育云初见成效;政务云:开通电子政务云,完成7套政务系统在政务云上的部署,在5个部门开展云桌面应用,提供了电子政务云应用的范例;石油云:在自治区支持下
19、,正在推动石油云建设,将石油业务的系统和运用集中于云端,提供基于云计算的石油行业信息云计算应用。,目前,克拉玛依已被批准成为中国云计算服务创新示范区。基于华为云平台,在云计算建设和应用方面也取得系列成绩:,问题: 信息孤岛与数据开放,今年两会期间,人大代表雷军提交了关于加快实施大数据国家战略的建议,提出:政府分享数据。今年4月3日国务院办公厅2015年政府信息公开工作要点,“积极稳妥推进政府数据公开,鼓励和推动企业、第三方机构、个人等对公共数据进行深入分析和应用”。如能落实,将具有里程碑性质。,中国赶超的机遇,大数据时代,有两点非常有利于中国竞争力跨越式发展。第一,大数据技术以开源为主,迄今为
20、止,尚未形成绝对技术垄断。即便是IBM、甲骨文等行业巨擘,也同样是集成了开源技术,和本公司原有产品更好地结合而已。开源技术对任何一个国家都是开放的,中国公司同样可以分享开源的蛋糕。但是需要更加开放的心态,更加开明的思想,正确的对待开源社区。第二,中国人口和经济规模,决定中国的数据资产规模,冠于全球。客观上为大数据技术的发展,提供了演练场。后一点急需政府、学术界、产业界、资本市场四方通力合作,在确保国家数据安全的前提下,最大程度地开放数据资产,促进数据关联应用,释放大数据的大价值。,四、大数据人才的竞争与培养,2012年2月11日长篇文章“大数据时代”(The Age of Big Data).
21、 美国需要14-19万数据分析专家和150万数据经理。著名的咨询机构Gartner预测,到2015年,全球将新增440万个与大数据相关的工作岗位,且会有25%的组织设立首席数据官职位。其中有190万个工作岗位将在美国。而每一个与大数据有关的IT工作,都将在技术行业外部再创建3个工作岗位,这将在美国再创建将近600万个工作岗位。但与此相矛盾的是在这些全球新增的大数据工作需求中,只有三分之一的能够得到满足。,数据科学家,近年来受欢迎的新职业,是统计学家、软件工程师、图形设计师和作家的结合,目的是 从大数据中得到新发现。谷歌首席经济学家哈尔.范里安(Hal Varian)说“数据非常之多而且具有战略
22、重要性,但是真正缺少的是从数据中提取价值的能力。这也就是为什么统计学家、数据库管理者和掌握机器学习理论的人是真正了不起的人。”,201318,14,20,1,2013年我们(约):学士:9,000硕士:2,000(学术型) 630(专硕)博士: 400,MBA,计算机,统计与运筹学,商学(市场营销、电子商务等),大数据分析硕士项目,在大数据环境下处理、分析数据的能力,数据分析师,数据到价值关键环节,数据到价值核心环节,数据到价值基础环节,数据挖掘工程师、数据架构师,算法工程师、数据开发工程师,国内大数据人才的培养,应用统计专业硕士(大数据分析方向)专业课程设置,人大、北大、中科院大学、中财大、
23、首经贸五所高校与人民日报、新华社、中央电视台、百度、阿里巴巴、京东等共建“大数据分析硕士”平台。,五、媒体大数据的误区,误区之一:数据越大越好、越准误区之二:不再依赖于样本推断总体,英维克托迈尔-舍恩伯格,大数据时代马克吐温:“世界上三种谎言,分别是谎言,该死的谎言和统计数字(There are three kinds of lies: lies, damned lies, and statistics),例5.1 盖洛普的崛起,1936年美国总统大选,文摘(Literary Digest)杂志邮寄了1千万份调查表, 调查选民是支持民主党的F.D.Roosevelt,还是共和党堪萨斯州州长Al
24、fred Landon。1916年以来文摘在每次选举前都预测了总统选举的获胜者。在回收调查表前,文摘说,“当最后的数据统计出并检查完后,假设过去的经验可以当作判断标准,这个国家将知晓四千万张选票中实际赞成票的比率,误差在1%以内”(1936年8月22日)。文摘收到了240万份答卷, 样本结果表明:Landon57%,FDR43%。,盖洛普的崛起,真实的选举结果是:FDR62%,Landon38%。注:(1)文摘从诸如电话号码薄、俱乐部会员一览表、杂志订阅和汽车注册这样的来源抽取得到它的抽样框。(2)1936年这个国家由于经济政策的分歧在政治上发生分裂-共和党人一般比民主党人更富裕。(3)对它的
25、民意测验文摘依靠自愿回答。,例5.2 美国广播公司(ABC)节目调查,ABC晚间电视新闻 曾有一次问观众: “联合国应不应当继续把总部设在美国?” (1995年)总体:美国所有的成年人参数:支持联合国留在美国的比率样本:那些打电话的人18.5万多人打来电话做出应答,应当= 61,050 不应当= 123,95061,050/185,000=0.33 123,950/185,000=0.67当年进行的一次随机调查, 结果是: 应当=0.72 不应当=0.28差别的原因是什么?,数据代表性的核心:随机性,总体中任何一个个体都有同样被抽中的机会。学校对食堂伙食满意度调查:人民大学20,000在校生,
26、样本n=100人。1,在所有食堂和餐厅门口随机抽取;2,宿舍中随机抽取;3,课堂上随机抽取;4,学生名单抽取,例5.3, 哈医大杀人案网络调查的案例,3月23日下午哈医大风湿免疫科实习医生王浩(28岁)被呼伦贝尔扎兰屯17岁青年李梦男用水果刀刺死,另3人受伤。这次是李梦男和爷爷李禄第6次看病,第一次是2010年9月,后诊断为强直性脊柱炎,要用“类克”药,一支6200元,这个疗程39000元。后又患肺结核,中间多次往返。第5次去年12月初来看病,给了3个月的药,23日药用完了,李感觉好了,来用“类克”,医生说没好,要再休息3个月。李梦男从超市买了水果刀行刺。3月27日晚新闻1+1白岩松针对腾讯网调查结果分析和评论。,例5.4 延迟退休年龄的网络调查,我们将正式进入一个数据为王的时代。如果我们能像三十年前政府可以轻易地拥有土地一样,现在抓紧时间搜集数据、使用数据,这是竞争的一个新的制高点. 汪洋,意见和问题?谢谢!,