1、浅析大数据特征 陈闽韬 温州商学院信息工程学院 摘 要: 信息化和网络化的高速发展使得大数据成为当前学术界和工业界的研究热点, 是 IT 业正在发生的深刻技术变革。大数据在人们的生活中无处不在, 无所不及, 然而人们对大数据的认识却存在简浅的表面, 到底什么是大数据, 似乎缺乏一语道破的力度, 对大数据学术界的研究特征呈现怎样的状态也不是很清楚。该文从大数据基本概念出发, 对目前主流的概念进行简要总结后得出有关大数据5V 特征, 即数据量大、数据多样性、高速处理、数据真实性和数据价值性特征, 并在此基础对目前大数据运用较为突出的场合进行举例说明, 为人们更好的认识大数据提供借鉴。关键词: 大数
2、据; 概念; 特征分析; 应用; 收稿日期:2017-09-17Received: 2017-09-17随着社会科学技术发展进步, 人们在生活中接触的数据种类也逐步增多。特别在互联网飞跃发展的如今, 音频、文字、图片视频等半结构化、非结构化数据大量涌现, 社交网络、物联网、云计算广泛应用, 使得个人可以更加准确快捷的发布、获取数据。在科学研究、互联网应用、电子商务等诸多应用领域, 数据规模、数据种类正在以极快的速度增长, 并对人们或产生越来越重要的影响。信息时代庞大的数据信息内容正改变着人们发现、解决问题的基本方式。然而, 目前人们对大数据的认识较为模糊, 对大数据基本概念特征以及其要解决的核
3、心问题认识相对欠缺。本体通过对大数据的基本概念进行概述归纳总结出其基本特征, 并从该特征出发了解其目前应用状况, 并对其未来发展方向进行展望。1 大数据基本概念有关大数据的概念版本较多, 尚无确切、统一的定义。目前, 国内外学者主要从三个角度来进行界定。从数据集角度来说。John Rauser 认为:“大数据指任何超过了一台计算机处理能力的数据。”Mckinsey 为大数据下的定义是, “大数据指的是所涉及的数据集规模已经超过传统数据库软件获取、存储、管理和分析的能力。”朱建平认为“大数据指那些超过传统数据系统处理能力, 超越经典统计思想研究范围, 不借助网络无法用主流软件工具及技术进行分析的
4、复杂数据集合。”从技术角度定义来说, Microsoft 认为:“大数据越来越被用于描述应用重要计算机能力过程, 从最新的机器学习、人工智能到描述非常大的和通常极其复杂的一系列信息的术语。”朱杨勇认为“大数据是指为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。”从其组成要素定义来说。谷歌趋势认为大数据是许多技术的结合及有意义的数据集的使用。NEPapp 公司, 认为“大数据应包括三大要素, ABC 即分析、带宽和内容。”我国大数据科学家涂子沛认为“传统的小数据与现代的大记录构成了现在的大数据, 从结构化方面来说其包括结构化数据和非结构化数据, 大数据包含大价值大容量的信息内容。”无
5、论从哪个角度对大数据进行定义都不难发现大数据的概念与“海量数据”有个完全不同的定义。大数据并不仅仅是其数据量之大, 还包括其获取方法之多、数据的表现形式之复杂、捕捉数据时间之快速以及通过专业化的助理方式而获得有用的信息价值能力。2 大数据基本特征关于大数据特征的研究。尽管对大数据的概念各学者目前还没有统一意见, 但对大数据的特征看法相对较稳定。大数据基本特征主要包括数据量大 (Volume) 、数据多样性 (Variety) 、高速处理 (Velocity) 、数据真实性 (Veracity) 和数据价值性 (value) , 即 5V 特点。2.1 数据量大 (Volume) 不同于传统的数
6、据存储管理, 其容量较小管理方便, 如今随着互联网等信息技术的快速发展, 数据存储量常以大于 GB 数千倍数万倍的 TB, PB 来衡量。早期的数据维度低、数据类型简单, 这些数据是对原始事物采用抽象的方式而获取到的。早期数据的处理和储存多为数值, 起容量相对有限。然而随着数据维度不断增加, 应用越来越广泛, 对事物描述所需的数据量也越来越大。尤其是近年来图像、视频等二维数据的不断涌现, 数据对事物的描述能力不断增强, 其所描述的事物越来越接近真实的世界。数据的描述能力不断增强, 数据量将以几何速率快速增长。传统数据处理方法多采用抽样的方法进行数据处理, 通过少量样本数据的处理来近似的描述整体
7、数据的全面, 通常样本数量可根据数据获取、处理能力来进行设定。这就造成人们认识事物的全面性主要通过样本信息来进行认知。由于得到的样本信息数据规模较小, 因此, 如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了当时的重要问题。直接处理所有数据可以获得更好的精确性, 能够让人们从多维度来认识事物属性, 从而避免样本不准确性带来的片面属性, 不会因为样本数据缺失而丢掉大量重要细节内容。因此, 大数据时代所需处理的数据会显著增多。2.2 数据多样性 (Variety) 相比于传统的机构化数据, 大数据的格式还包括半结构化的邮件、视频、微博, 以及非结构化的文本数据等。不同于结构化数据, 非结
8、构化所处理的数据对象多为图片、视频等形式而非传统的文本信息。伴随着云技术的快速发展, 非结构化数据采集、处理技术也飞跃发展以适应不同数据处理的需求。数据的多样性又表现在数据来源和用途上。数据来源的多样性表现在数据获取的方式的多元化, 目前数据采集方法包括搜索引擎法、中间件法、基于 ETL 引擎法以及数据流引擎法。对于一些大数据公司, 其获取数据方式包括广告联盟的竞价交易平台、用户 Cookie 数据、APP 联盟以及与拥有稳定数据源公司进行战略合作。大数据的应用也呈现出多元化, 其中最常见的就是购物信息提示, 网商通过对客户前期的搜索信息进行整理, 通过一定的算法得出客户最有意向的产品, 并将
9、此产品推荐给客户;其次, 大数据在设计网络中有着越来越多的应用, 如 QQ, 微信等社交 APP, 通过后台数据整合匹配, 不定时的向用户推荐自己可能认识的朋友, 扩大用户的朋友圈。此外, 大数据还在新能源中有个广泛的运用, 其中在风电发电机组中的应用最为广泛, 如 Vestas 在对风力发电机组前期选址时采用超级计算机对所采集的气象数据进行计算处理以选出风力发电机组最佳位置, 从而使风力发电机组在后期运行时能捕获更多的风能。此外, 大数据还在交通网络、智能家居生活、智能电网等人们日常生活中有着广泛的运用。2.3 高速处理 (Velocity) 大数据的容量之大、种类之多, 这对数据处理提出了
10、越来越高的要求。快速流动的数据使得人们的的生活变得多姿多彩, 这就使得数据具有一定的时效性, 数据的价值也就随着时间的推移而迅速降低的, 如果数据尚未得到有效的处理, 就失去了价值, 大量的数据就没有意义。批量化的处理方式是目前大数据常用的处理方法, 该方法适用于数据处理频率较低的场合, 对于数据处理频率达到分钟或者秒级的场合, 如股票、实时路况等场合, 其对数据处理要求极高, 要做到实时性。传统处理方法是对数据进行筛选并简化模型从而得出大致的结论, 而随着云计算技术的不断发展, 其为大数据提供了一个数据处理平台, 较大的存储空间, 丰富的计算资源以及分布式计算方法有效降低了大数据运算处理速度
11、。从而为大数据高速处理提供了有效的支撑, 使其运算处理水平显著提升。2.4 数据真实性 (Veracity) 大数据的重要性, 就在于是否可以有用的对决策进行支持, 而大数据的真实性, 是获得有用思路和准确内容的要素之一, 也是决策得以成功进行制定的根底。真实的数据才能有效地反映出真实的情况, 数据的真实性包括三个方面。首选数据的来源必须是可靠的, 在计算初期对数据进行获取收集时应确保所获取数据的真实性, 并对数据的可信度进行严格的考察。正确识别数据真实性剔除虚假数据, 确保数据在其源头处时真实的, 为后期数据处理奠定基础。其次, 数据处理的可靠性。数据处理要确保其处理过程的客观性, 数据处理
12、过程中不应进行人为干预, 提高数据操作员的技术水平, 降低数据传递过程中的失真率, 提高数据处理真实度;最后, 分析结果的真实性。利用科学的数据分析方法对通过对客观真实处理后的数据进行分析, 科学的方法能够有效避免虚假信息和结论的干扰, 从而有利的增强数据结果的可靠性。2.5 数据价值性 (value) 大数据上述 4 项特征决定了其具有不可估量的价值性。大数据的挖掘犹如沙里淘金一般, 过滤掉大量的沙子最后方能获取金子。然而, 由于大数据量之庞大, 而且有效的信息却十分有限。这就最终导致数据价值密度低。根据价值密度低是大数据关注的非结构化数据的重要属性。在大数据出现之前, 传统的结构化数据通过
13、对事物进行一定的抽象处理而得出其关键的数据信息, 而大数据则对事物所有细节所包含的数据进行处理, 而不是进行抽象归纳处理, 通过对原始数据处理, 即全体数据处理, 可以有效地减少采样和抽象, 能够呈现所有数据和全部细节信息, 可以分析更多的信息, 但也引入了大量没有意义的信息, 甚至是错误的信息, 因此相对于特定的应用, 大数据关注的非结构化数据的价值密度偏低。价值性高低是相对的, 但从整体上来说, 其价值值得肯定。3 大数据应用现状3.1 大数据在物联网中的应用物联网是将人与物、物与物相互连接起来的互联网, 它的发展需要大数据提供足够的数据资源支持。同时, 大数据也推动了物联网的发展。新时代
14、的发展提出更高的要求, 这是一种智慧化的新形态, 其外在表现就是物联网, 而其内涵就表现为大数据。随着工业 4.0 以及 2025 制造等一些工业制造概念的提出使得人们对物联网的认识也越来越清晰, 以工业物联网为中心、整合智能感测系统及大数据分析决策技术, 加速制造业的智能化, 可提升实体工厂产业价值链整体效益。如德国提倡的工业 4.0, 西门子的未来工厂就是德国工业 4.0 的最佳示范单位, 其产品利用物联网标示技术与生产设备直接通信, 让生产设备知道需在何时与何地采取适当的动作, 整合数据分析与管理控制技术实现机器控制机器的生产作业, 可对生产流程进行优化调整, 降低产品不合格率。3.2
15、大数据在医疗健康中的应用伴随着计算机、互联网以及大数据等新兴技术的快速发展, 医疗行业根据自身发展的需要, 从实际需求出发不断将其融入到自身行业之中。大数据在医疗健康行业中的应用让人们看到可以帮助医生能够快速准确的进行临床诊断, 并根据诊断结果给出最优的治疗方案, 从而解决人为误诊以及降低病人医疗成本, Clini Cast 利用大数据预测治疗效果以及降低花费。此外, 利用大数据帮助患者建立电子医疗档案, 进而在患者需要医治时能够快速准确地向医生提供患者病例史信息。同时, 对于一些常见病状进行有效的预防3.3 大数据在零售业中的应用市场定位是开拓一个新市场的前提, 只有准确的对市场目标进行定位
16、, 才能在市场拓展时执行有效准确的方案。若市场目标与所开拓的市场不相吻合则会对企业带来难以估量的损失。然而传统市场调研中, 研究人员能够获得的信息量非常有限, 使准确的市场定位存在样本量不足, 时间滞后和准确度低等缺陷。但随着大数据时代的来临, 市场研究人员可以通过对大数据中海量的数据信息进行挖掘筛选, 从而找到自己想要的数据信息, 并对其进行精确的建模从而实现对市场前期的预测。大数据目前在零售业中的应用较为广泛, 尤其是网络购物方面。电商根据消费者进行购物信息, 并分析消费者最近搜索信息进行大数据分析从而得出消费者想要购买的物品, 以及与之相关的产品。从而分析顾客的消费行为和价值趣向, 进而
17、引导消费者进行购物消费, 大大节约消费者搜索时间。此外, 通过对市场上有关物品销售信息进行实时跟踪, 从而确定产品的销售周期。通过对庞大的市场数据进行处理, 从中获取有关竞争对手的数据信息, 进而能够帮助自己了解竞争对手最新的商业动态, 做到“知己知彼, 百战不殆”, 从而为自己的产品进入市场奠定坚实的基础。4 总结如今, 随着信息技术的快速发展, 生活智能化不断提高, 大数据时代给我们的生活带来诸多的便利。数据来源的多样性, 数据样式的多样性, 为人类认识世界、改造世界提供了重要的数据资源。此外, 企业通过对大数据进行跟踪分析, 实时掌握市场最新动态, 了解客户的最新需求;个人通过大数据系统
18、可以方便建立个人医疗档案, 同时利用互联网大数据可以购买自己想要的东西。本文从大数据基本概念出发, 对目前主流的概念进行简要总结后得出有关大数据 5V 特征, 即数据量大、数据多样性、高速处理、数据真实性和数据价值性特征, 并在此基础上归纳总结了目前大数据较为广泛应用的场所。参考文献1张清辰.面向大数据特征学习的深度计算模型研究D.大连理工大学, 2015. 2付佳美.大数据研究特征分析D.哈尔滨工业大学, 2016. 3朝乐门, 马广惠, 路海娟.我国大数据产业的特征分析与政策建议J.情报理论与实践, 2016, 39 (10) :5-10. 4马建光, 姜巍.大数据的概念、特征及其应用J.国防科技, 2013, 34 (2) :10-17. 5黄欣荣.大数据的语义、特征与本质J.长沙理工大学学报:社会科学版, 2015, 30 (6) :5-11. 6李栋梁, 孙俨, 王颖喜, 刘洁.基于大数据时代特征分析研发大数据分析平台的具体策略J.电脑知识与技术, 2016, 12 (27) :3-4. 7张科星.网络大数据平台中的特征数据分类系统设计与实现J.现代电子技术, 2017, 40 (8) :25-28. 8陈兴蜀, 杨露, 罗永刚.大数据安全保护技术J.工程科学与技术, 2017 (5) :1-11.