1、0中国计算机学会文集中国大数据技术与产业发展白皮书(2014)CCF 大数据专家委员会中关村大数据产业联盟主编1目录前言 .I致谢 .III第一章 大数据背景与动态 11.1 大数据的宏观价值与背景 .11.1.1 国家 保障数据安全,促进数据开放 .11.1.2 政府 转变理念,集成信息,抓住机遇 .31.1.3 学术 科学的研究数据,用数据来研究科学 41.1.4 产业 产业需要变革,行业需要互融互通 .51.1.5 公司 平台化竞争,特色应用化生存 .61.1.6 投资 大数据将提供价值分析新视角 .71.2 国内外大数据发展动态 .81.2.1 国外大数据发展动态 81.2.2 我国大
2、数据发展动态 131.2.3 大数据相关社区 171.2.4 我国大数据行业协会 20第二章 大数据典型应用 222.1 互联网大数据 .222.1.1 互联网大数据应用现状 222.1.2 大数据应用于互联网商务交易 .232.1.3 大数据应用于互联网信息获取 .252.1.4 大数据应用于互联网交流沟通 .262.1.5 大数据应用于移动互联网 282.1.6 互联网大数据发展趋势 302.2 金融大数据 .312.2.1 金融大数据应用现状 312.2.2 大数据信贷 332.2.3 大数据征信 342.2.4 大数据投资 362.2.5 金融大数据发展趋势 372.3 电信大数据 .
3、392.3.1 电信大数据应用现状 392.3.2 电信运营商的网络管理和优化 .412.3.3 电信运营商的精准营销 432.3.4 电信运营商的数据变现 442.3.5 电信大数据发展趋势 522.4 电网大数据 .542.4.1 智能电网大数据应用现状 542.4.2 利用电力负荷值实现智能电力现代化管理 .562.4.3 利用用电信息数据指导用户合理优化用电 .602.4.4 利用消费能耗数据进行节能减排 .642.4.5 智能电网大数据发展趋势 652.5 交通大数据 .6622.5.1 交通大数据应用现状 662.5.2 轨道交通大数据技术创新 682.5.3 轨道交通大数据应用
4、722.5.4 交通运输大数据应用 742.5.5 交通大数据发展趋势 762.6 健康医疗大数据 .772.6.1 健康医疗大数据应用现状 772.6.2 国外健康医疗大数据分析的应用 .782.6.3 大数据技术提升传统医疗信息系统效率 .792.6.4 大数据在区域化医疗卫生管理分析应用 .812.6.5 基于互联网大数据的疾病指数预测应用 .842.6.6 健康医疗大数据发展趋势 872.7 政府大数据 .882.7.1 政府大数据应用现状 882.7.2 政府大数据入口整合 902.7.3 政府大数据惠民服务 932.7.4 政府大数据社会治理 952.7.5 政府大数据宏观经济管理
5、 972.7.6 政府大数据发展趋势 1002.8 农业大数据 .1012.8.1 农业大数据应用现状 1012.8.2 农业监控预警 1032.8.3 农业精准种植 1072.8.4 农业大数据发展趋势 1112.9 地理信息大数据 .1122.9.1 地理信息产业大数据应用现状 1122.9.2 大数据在智慧环保中的应用 1152.9.3 大数据在互联网地图中的应用 1222.9.4 地理信息产业大数据应用的发展趋势 .1242.10 新媒体大数据 .1262.10.1 新媒体大数据应用现状 1262.10.2 基于大数据的收视率测量 1292.10.3 新媒体视频内容监管 1322.10
6、.4 大数据指导节目内容生产 1342.10.5 新媒体大数据发展趋势 136第三章 大数据技术进展 1373.1 大数据技术图谱 .1383.1.1 数据的生命周期 1383.1.2 技术栈 1393.1.3 通用范例 1413.2 大数据基础设施 .1453.2.1 计算资源和计算能力 1463.2.2 内存与存储 1483.2.3 通信与互联 15033.2.4 发展趋势 1513.3 大数据存储与资源管理 .1533.3.1 分布式文件系统 1533.3.2 分布式数据库 1553.3.3 资源管理 1593.4 大数据计算框架与范式 .1633.4.1 计算范式 1633.4.2 流
7、处理 1643.4.3 图计算 1703.4.4 Spark 新动向 .1733.4.5 范式的融合 1763.4.6 编程模型 1783.5 大数据分析 .1823.5.1 大数据的统计查询 1833.5.2 大数据的机器学习 1873.5.3 大数据的降维压缩 1903.5.4 算法的分布式并行 1923.5.5 实用性问题 1993.5.6 机器学习的趋势 2033.6 大数据可视化 .2063.6.1 实时可视化 2073.6.2 不同数据类型的可视化 2093.6.3 交互可视化 2123.6.4 可视化的可用性 2143.7 大数据安全 .2153.7.1 大数据系统的安全 215
8、3.7.2 数据自身安全 2163.7.3 数据使用安全 2183.7.4 审计和问责 2193.7.5 数据定价 220第四章 大数据 IT 产业链和生态环境 .2214.1 国内外大数据产业链现状 .2224.1.1 大数据产业链全景图 2224.1.2 产业链上中下游 2244.1.3 大数据产业链发展趋势 2254.2 产业链和生态环境的瓶颈和建议 2314.2.1 大数据发展产业链和生态环境的瓶颈 .2314.2.2 大数据产业链和生态环境发展建议 .2344.3 大数据人才与教育 .2364.3.1 教育与科研机构 2364.3.2 课程体系 2424.4 国内外大数据政策与法规
9、.2434.4.1 国内外数据共享的政策与法规 2434.4.2 国内外数据跨境的政策与法规 24844.4.3 国内外隐私保护的政策与法规 251第五章 大数据发展趋势与建议 2585.1 大数据学科发展现状与趋势 .2585.1.1 大数据学科发展现状 2585.1.2 大数据学科发展趋势 2605.2 大数据热点问题与技术发展趋势 2615.2.1 大数据热点问题 2615.2.2 大数据技术发展趋势 2625.3 中国大数据发展战略与建议 .2655.3.1 大数据基础研究的发展战略与建议 .2655.3.2 大数据产业的发展战略与建议 270附录 274一、开源组织 2741.1 A
10、pache ASF(Apache 软件基金会) 2741.2 Linux Foundation(Linux 基金会) 2791.3 Free Software Foundation(开源软件基金会) .2801.4 开源软件中心(中国开源软件推进联盟) .281二、产业园与政策措施 2822.1 我国各地大数据产业园区介绍与相关政策 .282三、参考文献 286I前言近两年来,大数据浪潮以排山倒海之势席卷全球,既提供巨大的机遇,也带来一系列的挑战。为了推动大数据科学技术和产业的良性发展,中国计算机学会于2012年6月成立了“大数据专家委员会”,其宗旨是探讨大数据的核心科学与技术问题,推动大数据
11、学科方向的建设与发展;构建面向大数据产学研用的学术交流、技术合作与数据共享平台,并对相关政府部门提供战略性的意见与建议。在中国计算机学会大数据专家委员会和中关村大数据产业联盟得精心组织下,花了大半年时间撰写这本书。中国计算机学会大数据专家委员会的110位专家来自大学、科研单位、企业和政府部门,从事的专业涵盖计算机系统、通信、数据库和数据挖掘、大数据应用等各个不同的领域,本书的编写集中了来自20多家单位的各领域专家的知识和智慧,在一定程度上反映了我国大数据学术界和产业界的共识。组织撰写中国大数据技术与产业发展报告的目的在于,为业界梳理大数据应用现状及发展趋势,为政府制定推动大数据产业发展的政策提
12、供建议;同时,探讨大数据研究面临的科学问题和技术挑战,为研究机构和研究人员提供参考指南。本书包括5章内容:第1章介绍大数据背景与动态,第2章阐述大数据典型应用领域的行业现状和发展趋势,第3章阐述大数据技术体系的发展现状,第4章讨论大数据IT产业链与生态环境,第5章分析了大数据发展趋势并提出相关建议。大数据成为热点以后,众说纷纭。推动者认为是“上帝给中国崛起准备的礼物”;泼冷水者认为是又一场“泡沫”。实际上所谓推动大数据主要是干三件事:一件是提高“数据意识”,用已经掌握的技术大力推动数据产业,这方面主要是企业界要做的事。在企业看来,不管是大数据还是小数据,只要能给企业带来价值,就是好数据。对于数
13、据意识薄弱的发展中国家,经过大数据浪潮的洗礼,提高对数据资源的掌控能力,无疑是一件好事。第二件事是解决现有计算机系统和软件不能对付急剧增长、种类繁多的数据(尤其是网络数据)这一挑战问题,研究各种采集、整理、存储、处理和呈现大数据的变革性技术。各国专家对大数据的定义大都是着眼于这一挑战,这主要是科技界(包括大企II业的研发机构)要做的事。介于这两者之间的第三件事是,推广近几年开始应用的不同于传统事务处理、传统数据库和小样本建模分析技术的大数据处理新方法,如深度学习、MapReduce、Hadoop软件和数据中心的分布式服务器集群等技术。这是从传统的数据处理转向大数据处理的过渡阶段。本书洋洋洒洒二
14、十万字,其中份量最重的部分是第2章和第3章。第2章介绍大数据的典型应用,对应上述第一件事和第三件事。我国的大数据应用刚刚开始,有些应用的数据规模可能还不够大,采用的方法也许不够新,但新兴产业是“用”出来的,只有广泛应用才能发现技术差距和需要突破的技术壁垒。发现典型的大数据应用案例,宣传推广应用大数据技术的经验是本书的主要动机,今后我们会更加关注应用案例的分析介绍。第3章分析大数据技术体系的现状,对应于上述第二件事。专家委员中多数是科研工作者,最熟悉的是本领域科学技术研究的进展,最擅长的是探讨技术发展趋势,分析科学研究和技术开发中面临的问题与挑战。本书的主要价值可能体现在对大数据技术的分析方面。
15、为了反映专家们的群体倾向,专家委每年做一次大数据技术发展趋势的年度预测,通过投票方式将最受关注的科学、技术、产业、应用、政策等相关变化趋势挑选出来。这部分内容反映在第5章5.2节“大数据热点问题与技术发展趋势”中,希望能对读者有所启迪。在其他几章,企业界和政府部门的专家也表达了一些真知灼见,如第4章提出的大数据产业链全景图、国内外大数据产业发展呈现的四个趋势、大数据产业发展的主要瓶颈等都有独到的观点。第4章也把大数据人才资源问题独立出来专门分析,是因为这是一个十分重要而紧迫的大问题,需要各方面高度重视。由于时间和篇幅有限,本书只选择了部分发展较好的典型应用领域进行介绍,还有很多领域的大数据应用
16、情况没有纳入本书。在后续工作中,大数据专家委会将继续不断完善和丰富本书的内容,对于特色行业或应用领域,会进行更为详细地调研,出版有针对性的面向行业应用单行本。本书是专家委第二次组织撰写,虽反复修改了十余次,但书中肯定还存在一些内容和文字的错误,撰写组织工作也有很多不当之处,希望产业界和学术界的专家学者与广大读者提出批评和建议,共同推动中国大数据技术与产业的发展。李国杰III2014年12月1日致谢众多大数据专家委委员和中关村大数据产业联盟单位参与了本书的撰写工作,其中,第1章大数据背景与动态主要由赵国栋、程学旗、杨东日等撰写,第2章大数据典型应用由陈新河、施水才、王维负责整理,其中互联网大数据
17、由沈烁、田野、袁博等撰写;金融大数据由闻学臣、陈继东、林述民等撰写,电信大数据由何鸿凌、孙少陵、徐萌等撰写;电网大数据由邓春宇、张宇航等撰写;交通大数据由杨东日、刘姝祎、刘超等撰写;健康大数据由张彦春、徐红燕、熊锦华、马建刚等撰写;政府大数据由施水才、贺兆辉、晋家骧等撰写;农业大数据由姜春铃、谢润梅等撰写;地理信息大数据由张林、张平、李先怡、陈艳武等撰写;新媒体大数据由王永滨、赵子忠、冯爽等撰写。第3章大数据技术体系现状由吴甘沙,何利文,杜小勇、袁晓如,尹绪森,钟翔,连城,周虎成,石勇,陈继东,王健宗,陆嘉恒,董兆安、张丹,徐红波,沈烁,田野,李航,白小勇,刘睿民等撰写,第4章大数据IT产业链
18、与生态环境由杨东日、潘柱廷、金波、刘姝祎、胡然、周涛、黄道丽、何治乐等撰写;第5章大数据发展趋势与建议由李建中、靳小龙、石勇、潘柱廷、周涛、陈懿冰等撰写;附录由王维、查礼、刘伟等撰写。程学旗、靳小龙、王元卓、杨婧负责材料组织和统稿等工作。等大数据专家委委员积极参与了本书的撰写,不仅提供了素材,还参与了本书的修改工作。由于本书经过了多次修改,对参与专家的统计可能还有遗漏,在此表示歉意。对所有参与本书编写的专家表示感谢。致谢中的各章节负责人和撰稿人员名单还在统计和梳理当中,请各章节负责人发给我明确对本书有贡献的撰稿人名单,以供参考和修改!谢谢!IV1第一章 大数据背景与动态1.1 大数据的宏观价值
19、与背景从大历史观来看, “大数据”的内涵远远超越物联网、云计算等信息技术的概念,它的意义可以比肩“活字印刷术”的发明,大范围的消除信息不对称的现象,释放巨大的生产力,深刻改变社会的面貌,提升国家治理,革新科学研究的思想,促进产业间的跨界、融合和颠覆,并将极大的促进文明的传播、凝聚、和升华。数据自古存在。乌龟壳、树皮、绸缎都曾经是记录数据的媒介,现在都已经退出了舞台;留声机、磁带机也曾经风靡一时,也已难觅踪影;现在当红的信息技术,像个人电脑、智能手机、IPad 在不远的将来也将被陈列在博物馆。唯有数据,虽然不断的变换表现形态,将一直伴随人类走向未来。物联网本质上是器物层面的技术,从大数据的视角而
20、言,是采集数据的终端。云计算本质上是 IT 服务交付手段的变革,并由此引发一系列技术基础架构的更新。物联网和云计算都是信息技术发展的一定阶段的自然延伸,依然属于信息技术范畴。而大数据可以看成是数据积累到一定规模后,引发的质变。大数据超越信息技术,使人们重新界定国家竞争的主战场,重新审视政府治理水平,重新认识科学研究的新范式,重新审视产业变迁的驱动因素,重新理解投资的决策依据,重新思考公司的战略和组织。综上所述,大数据将是保障国家安全、社会治理和推动经济发展的恒久主题!1.1.1 国家保障数据安全,促进数据开放2012 年 3 月份,奥巴马发布了美国版的大数据发展计划 ,通过这个计划,可以看出:
21、国家层面大数据技术领域的竞争事关一国的安全和未来。国家数字主权体现为对数据的占有和控制。数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。大数据必须上升为国家意志,落实为国家战略。欧盟、日本、新加坡等国家已经开始纷纷行动。22013 年,美国人斯诺登给世人揭开了“数据战争”的冰山一角,美国的“棱镜计划”事实上把所有国家、个人都可以玩弄于股掌之上。连其多年的盟友,德国总理默克尔的手机,都在 NSA(美国国家安全局)的监控之下。面对默克尔的愤怒的质问,奥巴马只能言辞闪烁的声称“现在没有监控,未来也保证不会监控您的手机!”人们把战略核潜艇称为“国之重器” ,的确,神出鬼没的毁灭力量令人望之生
22、畏。但是,如果导弹赖以导航的坐标数据被人为修改或者提前探知了呢?如果不具备保护这些核心数据的能力,恐怕就会应了那句老话,搬起石头砸自己的脚。参与棱镜计划的公司包括谷歌、雅虎、Facebook、微软、苹果、思科、Oracle、IBM 等科技巨头。可以看到,大数据时代,IT 产业强大与否已经直接决定一个大国是否成为强国的最为关键的因素。没有数据安全,就不会有国家安全,没有强大的 IT 产业,就不会成为一流国家,也就谈不上中国梦!保护国家层面的数据安全,恰恰是以数据开放为基础的。开放是一种态度,更是一项能力。一些重大基础数据开放,可以构成社会的数据基础,按照大数据定律之一“数据之和的价值远远大于数据
23、价值的和”来推断,来自不同领域的数据聚合在一起,开放给社会,将会产生类似核聚变一样的价值发现效应。现在,电子商务、社交网络、基础通信、国家各部委的数据,具备聚合的效应和产生核聚变价值的基础。国家统计局联合百度、阿里巴巴,已经做了一些探索性的尝试,这是非常好的开端。与此同时, “数据割据、拥数自重”的现象也是普遍存在的。譬如气象观测数据,这类数据对于研究大气变化、气候演变、农业指导等具备非常重要的科学意义。但目前来看,类似此类的数据应用范围还有很大提升空间。再如住建部的购房数据,这类数据对于防止腐败、研究经济走势、人口迁移,甚至制定国家决策都具有至关重要的数据。这类数据如果开放给社会各界,一定程
24、度上会繁荣多学科、跨领域交叉研究,就此有可能会推动中国在各个方面的进步。开放的数据是基础,促使信息产业繁荣,才能诞生真正的数据驱动的企业,企业反过来在数据领域的技术进步,才是确保国家数据安全的长治久安之策。很难想象,如果没有谷歌、微软、Facebook 这样的公司,单凭美国政府一己之3力,难以实施如此庞大的“棱镜”计划。所以制定国家大数据战略,需要重新思考传统的所谓的“国家机密”和国家安全的关系。应当把消除部门数据割据,建立公开、透明、共享的数据公共平台作为长期的战略目标。多年以后,回顾中国这段历史,也许今天的一些举措,将会是社会“数字文明”的起点。1.1.2 政府转变理念,集成信息,抓住机遇
25、近年来,继云计算、物联网之后,又一股技术革命理念席卷而来-大数据。海量、动态、多样的数据,如何让它具备“巨大价值” ,是这次被称作“颠覆性技术革命”的关键。传统的思维方式和行为方式将面临巨大挑战,尤其在公共服务领域,它有效集成信息资源的能力,将会为政府管理理念和治理模式的转变,提供强大的技术支撑。当前世界上越来越多的国家开始从战略层面认识大数据,在政府治理领域融入大数据思维和技术。在此背景下,我国政府也应顺应时代发展趋势,契合推进国家治理能力现代化的时代要求,充分利用大数据提升国家治理能力。大数据时代政府治理能力将面临更多的机遇与挑战!进入 21 世纪,世界上越来越多的国家开始重视和推进大数据
26、的发展。英国 2006 年启动“数据权”运动,韩国 2011 年提出打造“首尔开放数据广场” ,美国 2012 年启动“大数据研究和发展计划” ,联合国 2012 年推出“数据脉动”计划,日本 2013 年正式公布以大数据为核心的新 IT 国家战略。我国也已开始推动大数据发展,政府、企业和科研院所正在进行多方位布局。对于政府治理而言,大数据时代在带来机遇的同时也充满挑战。大数据为政府治理能力的提升带来了发展机遇。首先是为推动政府治理理念和模式的变化带来机遇。在政府治理领域,通过让海量、动态、多样的数据有效集成为有价值的信息资源,推动政府转变管理理念和治理模式,进而加快治理体系和治理能力现代化。
27、其次是为推动政府治理决策精细化和科学化带来机遇。在大数据时代,互联网数据的价值随着海量积累而产生质变,能够对经济社会运行规律进行直观呈现,从而降低政府治理偏差概率,提高政府治理的精细化和科学化。再次是为推动政府治理提高效率和节约成本带来机遇。利用4大数据,可以使政府治理所依据的数据资料更加全面,不同部门和机构之间的协调更加顺畅,进而有效提高工作效率,节约治理成本。大数据对提升政府治理能力的重要性不言而喻,但在实际工作中具体运用大数据却任重而道远。现阶段,大数据在政府治理领域还未得到足够重视。我国政府部门目前几乎没有使用大数据技术,很多政府部门并未对大数据提升业务能力予以足够重视,大数据资源管理
28、的思维尚未建立。大数据在政府治理中的技术运用尚在探索。随着我国信息化技术应用不断扩展,国家及企业层面产生了巨量大数据,但总体集成、掌握、整合、分析这些数据需要成熟的技术投入,目前如何利用大数据进行精细分析仍处于摸索阶段。大数据本身的管理还需要综合完善。如何管理大数据,我国各部门还缺乏统一标准,各部门的数据来源、数据架构、数据体系各自为政,不能有效整合,大大降低了数据的使用效率 1。1.1.3 学术科学的研究数据,用数据来研究科学学术界在大数据时代有了更为广阔的舞台。某种程度而言,近几年计算机领域的发展是谷歌、亚马逊等一线的互联网公司所推动的。虽然学术界在算法方面具备无可替代的优势,但在算法工程
29、应用领域,由于缺乏实践场景而裹足不前。之所以呼吁学术界像谷歌公司学习,正是看到了学术界不能再走一条从文献到文献的封闭道路。 在大数据时代,许多学科表面上研究的方向大不相同,但从数据的视角看,其实是相通的。例如自然语言处理和生物大分子模型中都用到隐式马氏过程和动态规划方法。其最根本原因是它们处理的都是一维的随机信号。再如用于图像处理的算法和用于压缩感知的算法也有着许多共同之处。以自然语言的机器翻译研究为例。最初科学家们试图为计算机建立一系列的语法规则,按照语法、词义,来翻译成另外一门语言。该思路非常直观,因为人们就是如此理解学习语言的。但在实践中困难重重,基于语法规则的翻译器,几乎没有商用过。而
30、当科学家们改弦易张,计算每一个词,每一句话的“合理概率”时,复杂的机器翻译就简化成了文字的概率计算。通俗来讲就是:1作者:西北大学经济管理学院 吴建树5“如果大多数人都这么说,就认为是对的!”这种思想在越来越多的领域得到应用,宏观尺度研究的天体信息学、社会行为学、微观尺度上分析人类的基金组,追踪物理学家们梦寐以求的“上帝粒子” 。随着社会的数字化程度逐步加深,越来越来多的学科在数据层面趋于一致。可以采用相似的思想来进行的统一的研究。而这恰恰是数学家的特长。因此数据科学在数学和实际应用之间建立起了一个直接的桥梁。而这些实际应用正是来自于像信息服务等现代产业中最为活跃的一部分。对数学来说,这是一个
31、千载难逢的机会。通过建立大数据实验室,搭建产业界和学术界的桥梁,为学术界优秀的算法提供演练的舞台,为产业界困扰的难题提供破解的机会。从而间接推动数据科学领域学科建设与人才培养的工作。1.1.4 产业产业需要变革,行业需要互融互通产业需要变革,行业需要互通互融。所谓“大数据+” ,就是将大数据思维嫁接到不同的产业中,推动大数据在各行各业落地。大数据不仅仅只关系到 IT 行业。众多行业龙头公司,都已经意识到了大数据新思维的巨大冲击。给企业家们带来冲击的并不是大数据本身,而是一些新兴公司不可思议的跨界能力。行业之间的界限变得越来越模糊,这些新兴公司所采用新的技术、新的模式,大规模采集数据,迅速形成预
32、判,并迅速扩张到相关企业行业。譬如乐视网,已经涉及电视销售,电影拍摄;小米公司除手机销售外,也开始涉及电视销售;百度、360 等企业也都开始做各种硬件,如百度影棒,360 随身 WiFi 等。互联网金融行业发展快速,该行业对传统金融行业造成的冲击非常之大,彷佛一夜之间就成了传统金融业的公敌,阿里巴巴旗下的余额宝产品仅仅用了5 个多月的时间,累积申购金额就超过了 1000 亿元人民币。事实上,目前互联网金融还是在发展的初级阶段,仅仅是把线上渠道对接了线下金融资源,但就是这种“对接”行为,已经引发了行业性的“地震” 。下一步将是线上渠道向智慧方向演进,这个阶段大数据才真正派上用场。正是:“互联网颠
33、覆金融,大6数据重构信用”!借此回顾阿里集团的战略排序是:平台、金融、数据。数据是在金融之后的第三个发力点。类似案例将在各行业轮番上演。信息化程度越高的行业,受大数据冲击的可能性越高,被颠覆的可能性越大。所以,以大数据的视角来看,任何产业中,数据资产都将成为最核心的竞争力!传统产业、各行各业,都面临在大数据和移动互联网时代如何彻底转型和再造的问题。产业整合,将在大数据时代出现全新的整合逻辑和实现契机。传统产业、各行各业,都可能在大数据和移动互联时代,重现生机、焕发青春。当然,与此对应的是,如果不能跟上这个时代步伐的企业和行业,命运可能就将永久地走进过去,退出未来的舞台。1.1.5 公司平台化竞
34、争,特色应用化生存碎片还是平台?这是一个问题!诸如像小米公司和乐视网之间的竞争,很可能会成为一种奠定产业格局的竞争,一旦格局奠定,一些公司沦为炮灰或人家平台上的碎片化应用的可能性就非常大了。至于这两家公司是否可以最终胜出,尚难下定论。但是这两家公司所代表的商业模式,很可能造就出伟大的企业 2。未来,各行业只有两类公司得以生存,一类是平台,一类就是有特色的应用。这种“星空格局”将呈现众星拱月的景象。平台的竞争可能更加残酷,一个行业甚至只可能存在唯一一个压倒性的平台;应用的竞争同样残酷,产业成熟周期将缩短到 1 年,决胜期短至 2 个月。在星空格局之下,公司的竞争力更多的体现在“平台+特种部队”的
35、模式。就好比美军前线的一个小分队,甚至单兵,可以直接指挥后方的导弹、飞机一样。以星空格局作为产业演化的最终形态,以特种部队作为业务竞争的基本单元,那么公司的战略、组织、文化等方面需要彻底的重组。例如国内的某些公司,组织层级被高度压缩为两级,员工、合伙人。每个合伙人管理一方面的事务,譬如营销、采购、制造等等。但是合伙人直接管理2上述两家公司的商业模式称为泛互联范式,详情可参考大数据时代的历史机遇第七章7许多员工(团队) ,完全颠覆了一般管理学上定义的,管理跨度不要超过 7 人的界限。而另外有些公司,直接向公司最高管理层汇报的团队有多达数十个。在组织高度扁平化的公司里,企业文化必然有其独到的地方,
36、关键词无外乎包括:“专注、极致、口碑、快速、用户体验、全面体察等” 。传统公司的确需要重新审视自己的战略,重构组织,再育文化。否则,胜利的天平总是向这些类似泛互联网范式的公司倾斜。这也便是为什么要强调大数据思维的原因。1.1.6 投资大数据将提供价值分析新视角由于各家公司的成立及上市时间不同,运营结构、体制机制也各具特色,如果单从某些指标着手,评价结果难免有失偏颇,导致投资价值评估不具备典型性,无法实现投资价值评估的目的,也无法向投资者正确反馈上市公司投资价值高低的信息。其中, “高科技”行业尤其难以研究。隔行如隔山,以软件公司为例,虽然都是软件公司,但是他们服务的行业不同,采用的技术不同,产
37、业成熟周期不同,最为关键的是,产业成熟周期有越来越短的趋势。但是一旦发现机会,就惊世核俗,成为产业的新标杆。谷歌公司仅仅用了 15 年的时间,跨入了千亿美元市值公司的行列;小米公司成立三年,估值已达到 100 亿美元。如此高速的成长,在传统行业几乎是不可能发生的事情。长期研究分析发现,以 TMT(电信、媒体、科技)为代表的高技术含量企业,虽然发展迅速,机会众多,但也随时可能出现潜在的风险,基于此,许多基金经理因看不懂看不准而从不涉足。这的确是一个两难的问题。基金经理不了解,资金就会投入的少,客观上对行业发展不利。用所谓的 WACC 方法评估TMT 公司价值,在当前来讲已经不那么现实了。虽然大数
38、据的起源要归功于互联网与电子商务,但大数据最大的应用前景却在传统产业。一是因为几乎所有传统产业都在互联网化,二是因为传统产业仍然占据了国家 GDP 的绝大部分份额。随着数据逐渐成为企业的一种资产,对大量消费者提供产品或服务的企业、做小而美模式的中长尾企业、面临互联网压力之下急需转型的传统企业,这三类企业的投资价值与市场发展前景愈发显8得难以看透。针对这种情况,有没有一个简单明了的逻辑,可以帮助投资人发现公司的潜在价值呢?答案是肯定的!大数据将提供分析公司价值的新视角。所谓公司的价值与其拥有的数据资产的规模和活性成正比,与其解释、运用数据的能力成正比。这里提出数据资产的概念,并强调数据资产的两个
39、属性规模、活性。事实上书中提出数据资产评估模型,从五个维度来评估数据资产的商业价值。规模和活性仅仅其中的两个 3。利用数据资产评估商业价值的这种思想,获得了越来越多的投资人认可。大数据已经成为基金经理切入企业发展前景与价值评估的绝好视角和新型工具。产业界和资本市场沟通的“纽带”在大数据时代将显得越来越重要。需要让越来越多的投资人理解大数据,洞察行业发展趋势,帮助产业界更好地开拓产融结合的路子。综上所述,不能狭隘的看待大数据,不能把它当数据挖掘的工具,不能唯技术论,更不能一概斥之为炒作。从大历史观来看, “大数据”的内涵远远超越物联网、云计算等信息技术的概念,它的意义可以比肩“活字印刷术”的发明
40、,在世界尺度上大范围的消除信息不对称的现象,释放巨大的生产力,深刻改变社会的面貌,革新科学研究的思想,促进产业间的跨界、融合和颠覆,并将极大的促进文明的传播、凝聚、和升华。1.2 国内外大数据发展动态1.2.1 国外大数据发展动态 国际战略动态总管世界各国的大数据策略可以发现存在着一下三个共同点:一是推动大数据全产业链的应用;二是数据开放与信息安全并重;三是政府与社会力量共同推动大数据应用。3 引自大数据时代的历史机遇第三章 赵国栋9 美国美国从 2009 年至今全面开放了 40 万联邦政府原始数据集。日前Data.gov(美国政府数据库)宣布采用新“开源政府平台”管理数据,代码将向各国开发者
41、开放。奥巴马政府将“大数据战略”上升为最高国策,认为大数据是“未来的新石油”,将对数据的占有和控制作为陆权、海权、空权之外的另一种国家核心能力。首批共有 6 个联邦部门宣布投资 2 亿美元,共同提高收集、储存、保留、管理、分析和共享海量数据所需核心技术的先进性,并形成合力;对信息技术研发投入推动超级计算和互联网的发展。目前,已有美国大学专门开设了研究大数据技术的课程,培养下一代的“数据科学家”,一些美国公司也在向大学提供教育研究资助,并赞助与大数据有关的比赛,扩大大数据技术开发和应用所需人才的供给,提高美国的科学发展、环境与生物医药研究、教育和国家安全的能力;美国国家卫生研究院开展的免费开放国
42、际千人基因组计划,它将创建的人类遗传变异研究数据集,供研究人员自由访问和使用;美国国家科学基金会和美国国家卫生研究院对大数据进行联合招标,改进核心科学与技术手段,提高从各种大型数据集中提取重要信息并对其进行有效管理、分析和可视化的能力;美国国防部则计划每年投资 2.5 亿美元左右,在各个军事部门开展一系列研究计划,以创新方式使用海量数据,通过感知、认知和决策支持的结合,加强大数据决策能力;美国能源部则将斥资 2500 万美元建立可扩展数据管理与可视化研究所(SDAV),帮助科学家对数据进行有效管理,促进其生物和环境研究计划、美国核数据计划等的研究成果。此外,美国纽约州能源研究和发展管理局运用一
43、系列的大数据技术来评估气候变化对纽约州的影响,并为农业、公共卫生、能源和交通运输等领域提供应对气候变化的策略。这一应用也被引入美国疾病控制中心,它正与美国其他10 个州和城市一起开展“阅读州和城市计划”,共同研究和应对气候变化,而大数据技术是其中一个非常重要的组成部分。 英国2011 年 11 月,英国政府发布了对公开数据进行研究的战略政策,英国内阁部长弗朗西斯莫德说,其实英国政府早有意带头建立“英国数据银行”,政府想算清楚究竟这个国家或政府创造了什么;英国不只是要成为世界首个完10全公布政府数据的国家,还应该成为一个国际榜样,去探索那些公开数据在商业创新和刺激经济增长方面的潜力。2013 年
44、 1 月,英国商业、创新和技能部宣布,将注资 6 亿英镑发展 8 类高新技术,大数据独揽其中的 1.89 亿英镑,将近三成。2013 年 8 月 12 日,英国政府发布英国农业技术战略。该战略指出,英国今后对农业技术的投资将集中在大数据上,目标是将英国的农业科技商业化。2013 年英国首个综合运用大数据技术的医药卫生科研中心在牛津大学成立,这个研究中心总投资达 9000 万英镑,可容纳 600 名科研人员。中心通过搜集、存储和分析大量医疗信息,确定新药物的研发方向,减少药物开发成本,同时为发现新的治疗手段提供线索。同时,以英国为首的欧洲核子中心(CERN)将在匈牙利科学院魏格纳物理学研究中心建
45、设一座超宽带数据中心。建成后,魏格纳数据中心将成为连接 CERN 且具有欧洲最大传输能力的数据处理中心,未来该设施在处理大型强子对撞机(LHC)的数据以及实验方面发挥重要作用。 日本日本面临着由于长期经济低迷导致国际地位下降、人口老龄化以及日益增大的社会保险费用和社会基础设施老化等诸多问题。为了扭转这一现状,日本政府决定通过大力发展 IT 产业,特别是大数据及开发数据和云计算,以发展开放公共数据和大数据为核心的日本新 IT 国家战略,要把日本建设成为一个具有“世界最高水准的广泛运用信息产业技术的社会”,并且将其发展成就扩展到国际范围内。 加拿大随着大数据在全球范围内继续火热,加拿大的大数据产业
46、也在慢慢升温。例如,在科研领域,加拿大政府科学、技术与创新委员会已要求科研组织就与加拿大经济发展和社会福利密切相关的问题,为加拿大政府提出基于证据的科技建议。 2007 年,加拿大开始实施数字信息战略 。2011 年 5 月加拿大广播电视和电信委员会(CRTC)就发布了新的“国家宽带计划”,该计划显示,到 2015 年加拿大全体国民将享有 5Mbps 的宽带接入速度。2012 年 9 月 IBM 正式启动在加拿大国内兴建智能数据中心,该中心全称为 IBM 加拿大领导数据中心(IBM Canada Leadership Data Centre)。11 法国虽然法国在数学和统计学领域具有独一无二的
47、优势,但法国的大数据产业发展情况远不如美国、英国等国家发展的火热。但近年来,法国在智慧城市建设方面却投入了大量精力,包括法国电信、施耐德集团和达索集团等诸多法国知名企业都在旗下设立了专门从事智慧城市设计和研发的工作室或实验室,在政府引导下积极投身智慧城市建设。 2013 年 2 月,法国政府发布数字化路线图,列出 5 项将会大力支持的战略性高新技术,其中一项就是大数据。2013 年 3 月,法国国家教育部推出了四项数字化服务。2013 年 4 月,法国经济、财政和工业部宣布,将投入 1150 万欧元用于支持 7 个未来投资项目,目的在于“通过发展创新性解决方案,并将其用于实践,来促进法国在大数
48、据领域的发展。” 德国德国 IT 行业协会 BITKOM 日前发表报告称,大数据业务在德国发展迅速,2014 年有望增长 59%,营业额达 61 亿欧元,到 2016 年有望再翻一番达到 136亿欧元。同时因为严谨的名族习惯,德国在数据保护方面做的非常出色,据了解,德国在保护个人信息方面的立法已有几十年历史,现在的相关法律对互联网等领域中个人数据的使用都做出了明确规定,还提出设立专职信息保护人员的建议,较好地维护了德国社会的信息安全。 澳大利亚澳洲政府关于数据制定了一系列政策措施,其中包括澳洲公共服务大数据战略等,2013 年更是出台了开放公共部门信息原则(Open PSI),全文提出八条开放
49、数据策略以及实施的难易程度,并提出了需开放数据的首要领域。 印度印度联邦内阁批准了国家数据共享和开放政策。在数据开放方面,印度效仿美国政府的做法,制定了一个一站式政府数据门户网站 data.gov.in,把政府收集的所有非涉密数据集中起来,包括全国的人口、经济和社会信息。 国际业界动态互联网、金融、电信、医疗、政府等是大数据运营的重点领域。而大多数领域的大数据发展应用仍处在初级阶段,在大数据应用的实践过程中也遇到了数据资产不明、应用需求不定、平台建设、技术路线、安全隐私问题等方面的12挑战,但是,各领域在大数据应用方面还是做出了一些有益的探索,并取得了一定的成绩。在电信行业,一些发达国家电信运营商一方面提升服务质量,改善内部管理。包括客户维系、精准营销和网络运营与管理,这三点的代表企业分别为法国电信、英国 O2、NTTDoCoMo 和沃达丰。法国电信开展针对用户消费的大数据分析评估,借助大数据改善服务水平,提升用户体验。英国 O2 在英国推出了免费 WiFi 服务,以积累更多的用户,从而收集到更多的用户数据,用在精准的媒体广告和营销服务方面。NTTDoCoMo 通过制作精细化表格,收集用户详细信息,大大加强了 CRM 系统和知识库,准确定位目标客户,提高了业务办理的成功性。沃达