1、全局数据:大数据时代数据治理的新范式 朱琳 赵涵菁 王永坤 金耀辉 华东理工大学社会与公共管理学院 上海优天网络技术有限公司 上海交通大学网络信息中心 摘 要: 随着人类交流和连接方式的改变,数据体量呈现爆炸性增长态势,人类迎来了大数据时代,开启了用数据探索世界规律的新纪元。然而在万物互联、数据爆炸的态势下,原有的大数据概念及应用并不能完全满足人类利用数据完成决策科学化、产业升级、驱动社会生产力变革的需要。需要让“数据”发挥出更“大”的现实价值,就必须对“大数据”进行升级,完成“大数据”的自我进化。全局数据则是大数据时代数据治理的新范式。研究提出全局数据基于场景化的概念,认为全局数据具有场景化
2、、开放性、可度量、及时性、价值化的特点,以及收集数据、治理数据和应用数据三大能力,被赋予不危及国家安全、不侵犯公民隐私和不违背个体意愿的界限。通过全局数据有助于实现治理决策科学化、智能化、协同化,治理目标精准化。关键词: 全局数据; 场景化; 数据治理; 大数据; 开放数据; 作者简介:朱琳,博士,华东理工大学社会与公共管理学院副教授,MPA 教育中心副主任。研究兴趣包括:数据治理、电子政务、智慧社区。作者简介:赵涵菁,TopDigital 首席研究员,华中科技大学传播学硕士,十年数字营销行业经验,专注观测数据领域的概念创新与营销模式创新。作者简介:王永坤,博士,上海交通大学网络信息中心数据架
3、构师。研究兴趣包括:大规模分布式系统设计与实践、可扩展非结构化数据库理论、多源数据的情报综合与分析。作者简介:金耀辉,博士,上海交通大学教授,网络信息中心副主任。研究兴趣包括:全局数据管理与分析、时空数据挖掘与应用、公众参与的开放创新。收稿日期:2015-11-26基金:国家自然科学基金“面向非常规突发事件应急管理的风险理论与方法(91324202)”Received: 2015-11-26一、万物互联与数据爆炸的时代在人类文明的伊始,日光之下,人与人的第一声交流即意味着“连接”的开始。语言使人与人连接,产生了可被符号记录的事物,于是这样的“连接”便产生了“数据”,并演化为人类文明最初的信息与
4、知识。在整个农耕文明时代,“连接”仅是以语言和书面文字沟通的形式存在;在工业文明时代,“连接”开始通过无线电台、电报、电视的形式存在,但这样的“连接”产生的信息往往是单向性而缺乏互动的。在互联网时代,伴随着移动互联网的发展和物联网的逐渐普及,人类的沟通和交互日渐趋向零成本、零时差,使随时随地收集数据成为可能。以移动设备为媒介,人类与人类之间、人类与设备之间、设备与设备之间建立了更密切、更即时的连接方式。社交网站、电子邮件、搜索引擎、聊天工具等使得人类建立连接的方式更加多样化、多维化,人类社会产生的数据也因此激增。同时,产业的数据化及技术的进步,让人类社会可被收集、记录的数据量产生了爆炸性增长。
5、在万物互联的语境下,数据不再仅仅是人类思维独有的实体产物。触网及智能化的产品替代了人类部分的所思所想,一举一动的背后,无时无刻不在制造海量的数据。而这些数据被传感器记录,上传到云端,共享、计算与产生价值。智能终端与“可穿戴”计算设备的出现,使得人类的行为、位置、生理数据等都成为可供记录和分析的精准数据,而任何物品都成为数据产生的节点,并开始反映出客观世界的部分。数据,成为客观世界的映射。时光的长河流淌过无数日夜,人类却从未停止对未知世界的探索,和与世界万物的交流与连接。如果说生命的意义在于传递,那么数据是见证这一切变革最根本的存在形式。然而,当数据以无处不在的形态围绕在我们周围,我们如何利用数
6、据准确洞见未来,如何让数据更好地驱动信息社会生产力变革,如何最小化数据大爆炸带来的负面影响,让数据真正因人而生,为人所用?二、信息时代驱动力的变革:从技术驱动到数据驱动,走向场景驱动由于技术的发展,人们相互连接、交流的方式趋于多样化、多维度、零成本、零时差等特点,直接造成了人类社会可被收集、记录的数据呈爆炸性增长。信息时代的驱动力也发生了变革。在万物互联、数据爆炸的态势下,经历了信息社会从“技术驱动”到“数据驱动”的变革。起初,信息时代的驱动力仅仅是技术驱动,它使“用户参与”成为可能。顾名思义,技术驱动指的是利用不断推陈出新的科学技术,推动社会生产力的进步。技术驱动有可能自然而然地产生新生事物
7、,引起市场革命的巨变。它最重要的特点是用户参与(User Engagement),用户通过各种技术手段自主收集初始化信息,并根据信息制定策略及执行实施的过程。技术的不断发展使数据驱动成为可能,人类收集的数据量逐渐增加,开始可直接通过数据进行趋势预测和决策分析,可绘制用户画像,进行针对性产品或服务推介,信息社会进入数据驱动阶段。而在此基础上,场景驱动成为可能。现在更优质量的数据已经开始具备可针对不同个体、群体所处情境,洞察情境中“人”的决策机制,提供更精准、更智慧决策结果的能力。从技术驱动到数据驱动再到场景驱动,存在内在的递进关系。技术驱动以两次工业革命与信息革命初期为代表阶段,数据革命以互联网
8、的高速发展和普及为典型,而场景革命则是近一年及之后的发展趋势。即便存在递进关系,并不意味着我们已经结束了以“技术”和“数据”为代表的发展阶段,恰恰相反,它们仍是推动社会向上革新的重要力量。“技术驱动”“数据驱动”和“场景驱动”,是并存的状态。场景驱动可以帮助决策者更敏锐地洞悉事件根本,产生更精准、更智慧的决策。然而,它对数据收集的维度和质量的要求也更高,这样才能根据不同的场景,制定不同的决策方案,推动事件向良好的态势发展。不过现实世界中并不缺乏数据,而是缺乏高质量的数据去适应“场景驱动”的需要。场景驱动具有三个要素:1 场景驱动的基础一定是经过治理的数据;2 场景驱动不仅会驱动人类的决策,亦会
9、驱动机器的自我进化和升级;3 场景驱动的场景对应的一定是有应用价值的场景。图 1 展示了信息时代三个阶段的社会驱动力对比。图 1 三个阶段的社会驱动力对比 下载原图三、大数据的应用需要进化随着社会的不断发展进步,社会复杂性在提高,人类更需要依托经过治理的数据去做智慧的驱动和决策,但目前的大数据应用存在的问题在于:一是大数据目前的连接方式,要么是绝大部分的数据处于分散的孤立状态,体系和体系之间囿于商业竞争无法建立连接,导致数据无法流动印证。典型的场景就是 BAT(百度、阿里巴巴、腾讯)之间各成体系,在 BAT 自有体系内,他们的数据量都是非常巨大的。但是,他们仅仅沉积和应用自己产品体系内的各种数
10、据,不能与其他不同体系的相关数据进行关联洞察(如图 2 所示)。二是这种连接可能过于粗放(仅是体系对应体系,或者是映像对应映像,而不能以用户为中心,调用用户在各个体系的相关场景中的数据)或细微(只是碎片化的数据验证,而无法进行场景与场景之间的逻辑关联验证),容易得出管中窥豹的片面结论(如图 3 所示)。解决精准还原,需要数据的场景化。大数据收集方式的混杂、无序、模糊等特点,使得大数据的数据质量堪忧。一旦数据的质量不高,很容易导致错误的场景重现和错误的映像,出现错误的连接以至于形成错误的决策。仅仅是体量大,而不能使数据之间打破体系,互相流动印证是不够的。孤立数据的价值远远小于全局的、广泛连接的数
11、据。分散的数据孤岛,体系与体系间、映像与映像间、场景与场景间都没有连接。数据的核心价值不来源于“大”,而来源于其中蕴含的规律性与智慧性。而这需要打破体系的界限,让数据产生连接,从而导向更深度的洞察。打破数据连接问题,需要数据的“开放性”;若开放数据,开放数据的维度和界限是否“可度量”,以有效评估数据应用效果?显然,质量更好的数据必须具备场景化、开放性和可度量等特征。四、大数据时代数据治理新范式:全局数据全局数据是在大数据基础上的升级和自我进化。从理论上来说,大量数据的集成可以映射出客观世界的部分,形成一个个数据体系。而体系中包含一个个映像,这是不同体系根据不同需求对客观世界的数据化抽象和沉积。
12、在这种抽取和沉积中本身已包含了一种逻辑,映射本身即算法(参见图 4)。图 2 体系间缺乏连接 下载原图图 3 连接过于粗放或细微 下载原图图 4 数据映像与场景的逻辑关系 下载原图(一)全局数据的构成要素不同的映像构成体系,而不同体系组合交叠成为客观世界。映像永远只是客观世界的一部分投影,而非全部。如果再细分,映像中还包含一个个场景,而场景又能拆分为时间、空间、语义、语境四个要素(如图 5 所示)。全局数据主要由四个要素构成:时间、空间、语义和语境。时间是表达事物的生灭排列。其内涵是无尽永前,其外延是一切事件过程长短和发生顺序的度量。主要是指从横向角度分析,全局数据的时间跨度长。空间是与时间相
13、对的一种物质客观存在形式,由长度、宽度、高度、大小表现。通常指四方上下。从纵向角度分析,全局数据有着不同的存在形式和运动状态。全局数据时间和空间两种要素是相对存在的,但是两者密不可分。图 5 全局数据构成要素 下载原图数据的含义就是语义,简单地说,数据就是符号,数据本身没有任何意义,只有被赋予含义的数据才能够被使用,这时候数据就转化成为信息,而数据的含义就是语义,定义为特定场景中的内容表达。全局数据语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。语境一般是指说话时人所处的状态和状况。全局数据语境主要是指数据在不同环
14、境中的运用,同样的数据在不同环境中可以发挥不同的价值。在不同语境下,相同的语义会产生不同的含义。语境可以包括社群、情绪等内容。这四部分在不同的场景中随机组合而存在。场景是映像的子集,不同的场景组合而成映像。(二)全局数据的特点全局数据具有场景化、开放性、可度量、即时性、价值化的特点。场景化不同的场景连接形成对客观世界的不同映像。不同映像的组合形成不同的体系。如果连接只发生在体系与体系间、映像与映像间,这种数据之间的互相印证还是只能支持模糊结论而非精确结果的。解决精准还原需要数据的“场景化”。在任何体系内的数据抽取和沉积都只能是客观世界的映像,是客观世界的一部分,而不是全部。全局数据并不意味着拉
15、平所有数据,进行数据的挖掘和应用,而是要打破体系与体系间的壁垒,凸显场景化的连接。全局数据需要将所有关联性场景进行匹配连接,进行挖掘运用。在全局数据时代,人成为场景的核心,移动设备成为沟通人与人、人与设备、设备与设备的介质,这是场景化连接的基础。场景化包括场景构建、场景连接、场景洞察三部分。一个完整的场景构建由时间、空间、语义、语境四要素组成。时间指场景发生在什么时间,既可以是较长的时间段,亦可以是产生关键决策的时刻。空间指场景产生的地点。语义指场景产生的内容。语境表示场景处于什么样的情绪,带着何种社群特征。场景本身就是连接。场景连接可以是整个场景与场景的连接,亦可以是场景中的某个要素之间的连
16、接。如同一个人,在线上线下不同的场景中,藉由移动设备完成“线下扫码线上支付”的场景切换。场景连接与场景构建可以是同步进行的,即边进行不同情境下的场景构建,边使这些场景发生连接互动。网络与现实生活的不断融合,人在场景中所处的核心地位和移动设备的使用,使打通不同场景进行连接成为可能。这种连接创造的独特价值,能创造独特体验,促进消费,重构生活方式。场景洞察是建立在场景中产生的数据可被记录和分析的基础上。而这些记录下来的数据,可以帮助我们形成最为清晰的用户画像;同时基于数据,我们可以进行场景的量化分析、综合洞察,更深入理解场景和场景中人的决策机制。场景洞察使两个机制成为可能:过去场景可追溯,完全了解过
17、去场景人的决策机制;未来场景可感知,对未来进行动态、持续更新变化的“态势感知”,感知到未来各个场景的发展态势,从而根据需求,有针对性地构建和连接场景。真正运用好全局数据,可以利用其进行合适的场景构建、匹配的场景连接和精准的场景洞察,这会真正赋予数据智慧(如图 6 所示)。开放性数据融合的价值远远大于数据割裂的价值,但是数据融合无法顺畅实现,造成了场景驱动的阻碍。数据的流动和交互是全局数据的基本特征。全局数据一定不是指同一体系内的数据,而是跨越、连接不同体系的数据。同时,这种连接不是粗放的体系与体系之间、映射与映射之间的连接,而是场景与场景之间的连接。为了打破数据孤岛,全局数据必须开放,“开放”
18、包括数据源的开放以及不同体系之间接口的开放两部分。数据源的开放数据源的开放是全局数据的“全局视野”的支柱之一。数据源的开放包括了四个层面:1 政府主导的数据库建设和数据库开放;2 公共部门层面,经个人同意,愿意公开分享的非隐私性人口属性信息、兴趣属性信息、行为信息等;3 企业层面,互联网、移动互联网公司、物联网公司以及其他类型企业共建的第三方开放数据库;4 个人层面,经个人同意,愿意公开分享的非隐私性人口属性信息、兴趣属性信息、行为信息等。开放不等同于公开。公开只是对人公开,开放的结果是让人通过机器更方便地理解数据。开放可以是有偿的,即可以为数据开放支付费用;开放可以是部分的,即可对部分人开放
19、、可分层级开放。图 6 场景化的数据连接 下载原图不同系统之间接口的开放不同接口之间的开放是在不同体系之间通过开放接口调用场景化的数据进行匹配验证和应用。这一方面保证了数据源方可度量数据(知道哪些数据被调用),保护了数据安全(数据的归属权仍在数据源方,应用方仅根据需求调用部分,调用的部分可以通过前期脱敏保证安全);另一方面便利了数据应用方根据实际的场景化需求去匹配数据,同时亦使即时处理数据成为可能。可度量性从技术驱动到数据驱动到场景驱动,我们一直面对的重大问题有两个:若开放数据,开放哪些数据,这些数据的维度和界限是否能被度量;以数据为基础进行的数据应用驱动效果是否可量化和可衡量。解决效果评估,
20、需要数据的“可度量”。当体系与体系之间的开放是由标准化技术接口完成的时候,数据的收集就是完全可度量的。这包括数据收集标准的可度量、数据收集维度的可度量。数据拥有方完全可以定义给出的数据标准、维度,最大限度保护隐私和安全。而根据全局数据得出的结论和决策带来的优化也是可量化的,比如直接可见的效率提升、成本缩减或者是效益提高。即时性即时性包括:在线的即时智能数据收集,在入端即进行数据质量的管护;在线的即时智能数据分析,根据结果反推分析机制;在线的即时智能应用决策,数据价值即时发挥效用。即时性的先决条件取决于“万物互联”“时刻在行动中产生数据”将成为数据的新常态;以及不同体系之间的接口开放。这两个先决
21、条件使数据即时被收集、即时被分析、即时被应用决策成为可能。即时性使全局数据不再是固化的“资产”,而是活动性的“生产力”。即时性使全局数据成为“活数据”。即时的数据=即时的认知=即时的洞察。价值化全局数据可量化的优点就直接带来了一个影响:全局数据是价值化的数据,能直接带来社会价值、商业价值、科学价值的提升。(三)全局数据能力全局数据是被赋能的数据,拥有三个能力:收集数据的能力、治理数据的能力和应用数据的能力。收集数据的能力收集数据就是连接决策相关的各种场景。连接决策相关的场景化数据意味着连接用户与用户,产品与产品,行业、企业与政府,连接与决策相关的每一个场景因素。同时,全局数据的数据收集是通过各
22、个体系间的开放接口进行的,这就保证了数据开放的安全性、可控性以及可追溯性(如图 7 所示)。图 7 全局数据收集能力 下载原图开放数据源包括政府主导开放的数据、运营商数据、商业服务体系内的数据和经个人授权公开的个人数据,等等。各个源头的开放数据源(社交网、物联网、开放数据源)通过标准化接口联合汇入,构成基础数据层。治理数据的能力数据治理是确保数据质量最有效的方式。数据质量定义为数据的“适用性(fitness for use)”,即数据满足使用需要的合适程度。数据治理是数据从基础层到可被智慧洞察运用的全局数据仓库的进化。然而并非所有的数据都具有价值,混杂的数据表现出“乱、杂、错、丢、骗”的特征,
23、给数据治理带来难度。“乱”表现为数据的无序性。包括采集标准乱,存储格式乱,应用机制乱,身份识别乱,以及时、空、身份、场景对应乱等方面。“杂”表现为数据的非标准性。因为结构化数据和非结构化数据并存;非结构化数据的大小、内容、格式、用途可能完全不同,但非结构化数据的体量占数据总量的 80%以上。“错”是数据的错误。包括数据自身的错误及采集手段的错误。在同样的采集方式和渠道下,数据中有一个或几个同类数值与其他数值相比差异较大,而差异究竟是由于随机出现还是其他因素引发难以判断,如果处理不好将会造成系统误差。“丢”是数据的丢失遗漏。包括机械因素、系统因素和人为原因导致。机械因素指由于机械原因导致的数据收
24、集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。系统因素指由于系统设置本身的缺失而带来的数据收集采集缺失。人为因素指由于人的主观失误、历史局限或有意隐瞒造成的数据缺失。“骗”指伪造数据,基于商业或其他目的制造虚假数据,故意导向错误结果。全局数据下的数据治理是关注信息系统执行层面的体系,这一体系的目的是整合知识和意见,通过将流程、策略、标准和组织的有效组合,对信息化建设进行全方位的监管。在全局数据的治理过程中,数据的入端通过治理保证了质量和管护,在出端保证了隐私和安全,保证了数据的时效性、可共享性、高质量、一致性,解决了数据
25、的“乱、杂、错、丢、骗”,保证真实的关联场景化连接,确保数据应用能力真正场景化、可度量、有价值的应用(参见图 8)。图 8 全局数据的治理流程 下载原图全局数据理论体系下的“数据”,并不仅仅停留在收集状态,而包含了数据的“治理”这一重要概念。从全保真度的源数据、整合离散数据成为信息的数据湖、数据科学实验区到全局数据仓库之间,是有一个上升流动通路的。这一通路使处在自然状态的源数据进化为蕴含智慧规律、可被迅疾识别解读观点(无论是人还是机器)的全局数据仓库。而通路的动力,即为治理。应用数据的能力全局数据的应用场景涉及到生活的方方面面,小到消费决策,大到政府决策都可依赖于此。全局数据概念下的应用需要能
26、通过智慧化、可视化的技术揭露海量数据中隐藏的知识,让数据中的智慧能够以一种直观的形式流向决策者,无论决策者是人还是机器。过去不再是不可追溯的,而是可以总结规律的;未来不再是混杂无序的,而是可被预测把控的。数据的获取通过 API,入端可度量;数据的应用按直接价值体现(收益)进行按比例收费,直接创造社会价值、商业价值、科学价值。正如前文所述,全局数据应用建立的是所有与决策相关的场景之间的连接,以及场景之间的规律挖掘。(四)全局数据的界限全局数据拥有三大界限,即不危及国家安全、不侵犯公民隐私、不违背个体意愿。其中,个体包含了个体的“人”和作为“个体”的机构和企业。个人、机构和企业都有能力、渠道、权利
27、去管理和自身相关的信息,可以决定何时公开,以及以何方式公开信息。对自身的数据要有控制权。但全局数据并不提倡个人、机构和企业把数据视为自己的私有资产,而是倡导一种遵从个体意愿、同时有选择地公开部分数据,帮助整个体系进行全局数据价值挖掘和视野进化的理念。人类掌控未来的核心破局点,是以什么样的数据、以何种方式驱动人和机器的进化。这需要经过治理的数据,通过全局数据去做智慧的驱动。更优质量的数据不仅可以帮助人类更好地发挥主观能动性,制定更加精准、智慧的决策,而且还可以驱动机器的自身进化和升级。参考文献1Manzano A,Martin M L,Valero F,et al.A Single Method
28、 to Estimate the Daily Global Solar Radiation from Monthly DataJ.Atmospheric Research,2015,166:70-82. 2Muis S,Guneralp B,Jongman B,et al.Flood Risk and Adaptation Strategies under Climate Change and Urban Expansion:A Probabilistic Analysis Using Global DataJ.Science of the Total Environment,2015,538
29、:445-457. 3Neu S C,Crawford K L,Toga A W.Sharing Data in the Global Alzheimers Association Interactive NetworkJ.Neuro Image,2016,124:1168-1174. 4Giacomo D D,Harris J,Villasenor A.ISC-GEM:Global Instrumental Earthquake Catalogue(1900-2009),I.Data Collection from Early Instrumental Seismological Bulle
30、tinsJ.Physics of the Earth and Planetary Interiors,2015,239:14-24. 5Shabani A,Torabipour S M R.Distinctive Data Envelopment Analysis Model for Evaluating Global Environment PerformanceJ.Applied Mathematical Modeling,2015,39(15):4385-4404. 6梁芷铭.大数据治理:国家治理能力现代化的应有之义J.吉首大学学报:社会科学版,2015(2):32-41. 7杜义华.大数据背景下中科院科研管理数据中心建设探讨J.计算机系统应用,2015(1):79-87. 8章伟,曾峻.大数据时代的国家治理形态创新及其趋向分析J.上海行政学院学报,2015(2):26-35. 9高汉松,桑梓勤.医疗行业大数据生命周期及治理J.医学信息学杂志,2013(9):5-11. 10张春艳.大数据时代的公共安全治理J.国家行政学院学报,2014(5):100-106.