1、大数据分析与处理方法解读【文章摘要】要知道,大数据已不再是数据大,最重要的现实就是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于此,大数据分析的方法理论有哪些呢?大数据分析的五个基本方面PredictiveAnalyticCapabilities(预测性分析能力)数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的
2、判断。DataQualityandMasterDataManagement(数据质量和数据管理)数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。AnalyticVisualizations(可视化分析)不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。SemanticEngines(语义引擎)我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
3、DataMiningAlgorithms(数据挖掘算法)可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。大数据处理大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导
4、入和预处理、统计和分析,以及挖掘。采集大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库 MySQL 和Oracle 等来存储每一笔事务数据,除此之外,Redis 和 MongoDB 这样的 NoSQL 数据库也常用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。统计/
5、分析统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到 EMC 的 GreenPlum、Oracle 的 Exadata,以及基于 MySQL 的列式存储 Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用 Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是 I/O 会有极大的占用。导入/预处理虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或
6、者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自 Twitter 的 Storm 来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。挖掘与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的 K-Means、用于统计学习的 SVM 和用于分类的Naive Bayes,主要使用的工具有 Hadoop 的 Mahout
7、等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主大数据及其智能处理技术的分析论文发表(点击进入) 论文检测摘 要:随着社会的进步,科学技术的不断发展,信息技术成了目前最受关注,也是发展最快的科学技术。世界各国都在致力于信息化,而各国对于信息化的巨大需求又反过来不断促进信息技术的革新,可以说,我们已经进入了信息时代。数据的密集爆发是信息时代的重要特征之一,更令人惊讶的是,这种数据的变化并不是一个循序渐进的过程,而是一个跨越式的过程。我们的社会已经被各种各样的庞杂的数据围绕了,可以看出,大数据时代已经来临了。本文将对大数据及
8、其智能处理技术作简要的分析。 大数据处理技术的发展研究作者:张慧琴 来源:月坛统计分会 发布日期: 2013-07-03 15:08:00一、大数据的涵义与起源大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V 特点:Volume、Velocity、Variety、Veracity。“大数据” 作为时下最火热的 IT 行业的词汇,随之数据仓库、数据安全、数据分析、数据挖掘等等围绕大数量的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。早在 1980 年,著
9、名未来学家阿尔文托夫勒便在第三次浪潮一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章” 。不过,大约从 2009 年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长 50%,每两年便将翻一番,而目前世界上 90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数
10、据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力” ,通过 “加工 ”实现数据的“增值 ”。且中国物联网校企联盟认为,物联网的发展离不开大数据,依靠大数据提供足够有利的资源。随着云时代的来临,大数据(Big data )也吸引了越来越多的关注。 著云台的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像 MapReduce 一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据分析相比于传统的数据仓库应用,具有数据量大、查询
11、分析复杂等特点。计算机学报刊登的“ 架构大数据:挑战、现状与展望” 一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台并行数据库、MapReduce 及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。对于“大数据”研究机构 Gartner 给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据” 这个术语最早期的引用可追溯到 apache org 的开源项目 Nutch。当时,大数据用来描述为更新网络搜
12、索索引需要同时进行批量处理或分析的大量数据集。随着谷歌 MapReduce 和 GoogleFile System (GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发
13、现和验证大数据的规律及其与自然和社会活动之间的关系。大数据的 4 个“V”,或者说特点有四个层面:第一,数据体量巨大。从 TB 级别,跃升到 PB 级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1 秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为 4 个“V”Volume,Variety ,Value,Velocity。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC 以及遍布地球各个角落的各种各样的传感器,无一不是数据来源
14、或者承载的方式。最早提出“大数据 ”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。“麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。”事实上,全球互联
15、网巨头都已意识到了“大数据” 时代,数据的重要意义。包括 EMC、惠普( 微博)、IBM、微软(微博)在内的全球 IT 巨头纷纷通过收购“大数据” 相关厂商来实现技术整合,亦可见其对“大数据 ”的重视。“大数据” 作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在 12 月 8 日工信部发布的物联网“十二五” 规划上,把信息处理技术作为 4 项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外 3 项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据” 密切相关。二、大数
16、据技术大数据时代的超大数据体量和占相当比例的半结构化和非结构化数据的存在,已经超越了传统数据库的管理能力,大数据技术将是 IT 领域新一代的技术与架构,它将帮助人们存储管理好大数据并从大体量、高复杂的数据中提取价值,相关的技术、产品将不断涌现,将有可能给 IT 行业开拓一个新的黄金时代。 大数据本质也是数据,其关键的技术依然逃不脱:1)大数据存储和管理;2)大数据检索使用(包括数据挖掘和智能分析)。围绕大数据,一批新兴的数据挖掘、数据存储、数据处理与分析技术将不断涌现,让我们处理海量数据更加容易、更加便宜和迅速,成为企业业务经营的好助手,甚至可以改变许多行业的经营方式。(一)大数据的商业模式与
17、架构云计算及其分布式结构是重要途径大数据处理技术正在改变目前计算机的运行模式,正在改变着这个世界:它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据;它工作的速度非常快速:实际上几乎实时;它具有普及性:因为它所用的都是最普通低成本的硬件,而云计算它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构能够很好地支持大数据存储和处理需求。这样的低成本硬件+低成本软件+ 低成本运维,更加经济和实用,使得大数据处理和利用成为可能。(二)大数据的存储和管理
18、云数据库的必然:很多人把 NoSQL 叫做云数据库,因为其处理数据的模式完全是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。它采用分布式技术结合了一系列技术,可以对海量数据进行实时分析,满足了大数据环境下一部分业务需求。 但我说这是错误的,至少是片面的,是无法彻底解决大数据存储管理需求的。云计算对关系型数据库的发展将产生巨大的影响,而绝大多数大型业务系统(如银行、证券交易等)、电子商务系统所使用的数据库还是基于关系型的数据库,随着云计算的大量应用,势必对这些系统的构建产生影响,进而影响整个业务系统及电子商务技术的发展和系统的运行模式。 基于关系型
19、数据库服务的云数据库产品将是云数据库的主要发展方向,云数据库(CloudDB),提供了海量数据的并行处理能力和良好的可伸缩性等特性,提供同时支持在在线分析处理(OLAP)和在线事务处理(OLTP) 能力,提供了超强性能的数据库云服务,并成为集群环境和云计算环境的理想平台。它是一个高度可扩展、安全和可容错的软件,客户能通过整合降低 IT 成本,管理位于多个数据,提高所有应用程序的性能和实时性做出更好的业务决策服务。这样的云数据库要能够满足:A海量数据处理:对类似搜索引擎和电信运营商级的经营分析系统这样大型的应用而言,需要能够处理 PB 级的数据,同时应对百万级的流量。 B大规模集群管理:分布式应
20、用可以更加简单地部署、应用和管理。C低延迟读写速度:快速的响应速度能够极大地提高用户的满意度。D建设及运营成本:云计算应用的基本要求是希望在硬件成本、软件成本以及人力成本方面都有大幅度的降低。 所以云数据库必须采用一些支撑云环境的相关技术,比如数据节点动态伸缩与热插拔、对所有数据提供多个副本的故障检测与转移机制和容错机制、SN(Share Nothing)体系结构、中心管理、节点对等处理实现连通任一工作节点就是连入了整个云系统、与任务追踪、数据压缩技术以节省磁盘空间同时减少磁盘 IO 时间等。 云数据库路线是基于传统数据库不断升级并向云数据库应用靠拢,更好的适应云计算模式,如自动化资源配置管理
21、、虚拟化支持以及高可扩展性等,才能在未来将会发挥不可估量的作用。(三)大数据的处理和使用新型商业智能的产生 传统针对海量数据的存储处理,通过建立数据中心,建设包括大型数据仓库及其支撑运行的软硬件系统,设备(包括服务器、存储、网络设备等)越来越高档、数据仓库、OLAP 及 ETL、BI 等平台越来越庞大,但这些需要的投资越来越大,而面对数据的增长速度,越来越力不从心,所以基于传统技术的数据中心建设、运营和推广难度越来越大。 另外一般能够使用传统的数据库、数据仓库和 BI 工具能够完成的处理和分析挖掘的数据,还不能称为大数据,这些技术也不能叫大数据处理技术。面对大数据环境,包括数据挖掘在内的商业智
22、能技术正在发生巨大的变化。传统的传统商业智能技术,包括数据挖掘,主要任务舒建立比较复杂的数据仓库模型、数据挖掘模型,来进行分析和处理不太多的数据。 也许由于云计算模式、分布式技术和云数据库技术的应用,我们不需要这么复杂的模型,不用考虑复杂的计算算法,就能够处理大数据,对于不断增长的业务数据,用户也可以通过添加低成本服务器甚至是 PC 机也可以,来处理海量数据记录的扫描、统计、分析、预测。如果商业模式变化了,需要一分为二,那么新商业智能系统也可以很快地、相应地一分为二,继续强力支撑商业智能的需求。 所以实际是对传统商业智能的发展和促进,商业智能将出现新的发展机遇,面对风云变幻的市场环境,快速建模
23、,快速部署是新商业智能平台的强力支撑。而不像过去那样艰难前行,难以承受商业运作的变化。三、未来大数据的处理和发展的五个趋势(一)数据科学越来越大众化随着像 Coursera、Udacity 和 Edx 等这些和数据分析相关的网络教育平台的流行,越来越多的人不用花一分钱便可以学到所有的知识,从基础的统计学知识到自然语言处理和机器学习。除了这个,Oxdata 化简和集成了 R 语言后推出的分析产品,Quid 正在做的具有机器学习和人工智能概念的工具也设计了傻瓜式的使用界面和形象具体的用户展示方法。更有像 Kaggle 这样的公司推出了关于预测模型的众包平台。所以大数据的处理的趋势之一便是像 Dat
24、ahero, Infogram 和 Statwing 他们一样,把数据分析变得易用,大众。(二)Hadoop 对 MapReduce 的依赖越来越小Hadoop 平台只为 MapReduce 服务的时代从 Hadoop 的 2.0 版本开始正式结束了。新版本支持的产品和服务将会和 Cloudera 的 Impala 一样用一个 SQL 查询引擎,或者其他的方法来替代MapReduce。HBase NoSQL 数据库就是 Hadoop 离开 MapReduce 约束后的一个很好的例子。大型的网络公司,像 Facebook、eBay 等都已经用 HBase 去处理事务型的应用了。(三)大数据越来越
25、多的被用到了我们身边的应用中首先是大数据应用对我们的开发者的要求变低了,有时候开发大数据应用就像在你的应用的代码中加入几行,或者像是写一段儿脚本一样。其次,大数据的应用范围也得到了拓展,用户习惯分析,网络安全,人工智能,售后服务等等都可以通过将大数据处理做成产品或者应用而实现。现在的大数据技术已经被带入了许多网络和手机的应用中,从购物推荐到找到和自己有关联的人等等。(四)机器学习无处不在很容易就可以看到机器学习越来越流行,从我们身边的小应用Prismatic、Summly、Trifacta 、CloudFlare、Twitter、Google、Facebook、Bidgely、Healthra
26、geous、Predilytics、BloomReach、DataPop、 Gravity如今很难想象一个没有机器学习技术的科技公司可以生存。Heck,甚至是微软都在机器学习上下了很大赌注它将成为一个重要的收入来源。(五)手机将成为人工智能的数据来源我们的手机和手机中的应用目前可能是最大的私人信息来源。通过机器学习,语音识别和其他一些技术,这些应用可以知道我们去哪儿,我们的朋友都是谁,我们的日历上都有哪些提醒,我们上网都浏览什么。通过新一代的私人助理应用(Siri,Saga 和 Google Now 等) 我们的手机更能够理解我们的言论,知道我们经常出入的地方,我们平时吃什么,我们在家、工作和
27、郊游的时间等等。“大数据” 的本质实际上是数据生产的社会化,其对统计尤其是政府统计的冲击是重大的,不仅涉及到整个统计流程,更加对当前的政府统计管理体制、机构设置、数据价值等方面形成了挑战。可以大胆预测,未来政府统计的政府角色会被统计专业性取代,经济分析的职能会被更为专业的经济分析部门取代,宏观数据的重要性会让位于更有信息价值的微观数据。统计部门需要正视这种变革,顺应这种潮流,并借助于“大数据” 的变革的有利形势,加快提高统计能力,使得统计在大变革中处于优势地位。参考文献1林荫,卢莹,王洪元,数据库技术实验教学的探索与实践,时代教育(教育教学版) 2008年 05 期2初文科,数据处理技术发展的
28、研究,2008 年 02 期现在人们再也不用担心数据量太少的问题了。中小企业每天日常运营都会产生出几个 GB 的数据。用于分析这些数据的开源或非开源软件也逐渐多起来了。许多高管都表示,自己的公司已经无法应对这样大量的数据涌入了,他们不知道该如何应对这一大数据挑战。中小企业怎样才能将未能充分利用的数据变成对未来的有效洞察力呢?Enterprise Apps Today 的一篇文章也许为我们提供了一种新的大数据解决方案。Bain and Company 最近的一份报告显示,那些使用大数据分析处理的公司的领导者们要远远比不使用大数据的公司领导者有优势。他们能够比普通领导者快出五倍的速度进行决策,并且
29、这些决策往往都是正确的。他们的法宝是什么呢?IT 预算是其中之一。这些企业通常有充足的预算让IT 来获得分析工具,还有充足的时间让他们来解决数据难题。专业技能在这里面也非常重要,雇佣有经验的数据专家能够直接让你节省从问题到答案的时间。Bain 的研究显示,公司一定要深深地沉浸到大数据之中,仅仅把数据存起来,留着以后使用是不够的,每个决策都要是基于数据的。 对于中小企业而言,往往是从开源的大数据分析工具着手,此外各部门以及管理层都要给予支持。 每个想要将大数据列为公司核心计划的公司都会遇到各种阻碍,而这些阻碍往往都是人。消费者、雇员和管理层都在产生数据,但很多都没有经过定性分析工具的筛选。人们总
30、是不管数据的质量和可用性,就都进行数据分析。数据定性工具已经在学术界悄然发展起来了,这将极大地提升传统数据分析的效率。中小企业 IT 很容易就会陷在大数据之中,忽视了身边更好的工具和方法。添加数据定性功能可能听起来比较繁琐,但的确是有用的。分析效率的提升有助于整个企业决策能力的增强。随着科技的不断发展,各种计算机与移动设备不停地创造出数量巨大的信息,这种现象还会不断的重复下去,当今世界已经从数据时代向着“大数据“ 时代转移。大数据时代的到来给计算机信息处理技术带来了非常大的冲击。本文介绍了计算机信息处理技术,指出了在大数据时代背景下计算机信息处理技术中存在的不足,对其应用与发展前景做出了分析。