1、大数据环境下的电子数据审计:机遇、挑战与方法 陈伟 SMIELIAUSKAS Wally 南京审计大学管理科学与工程学院 多伦多大学罗特曼管理学院 摘 要: 电子数据审计的研究与应用是近年来审计领域的热点问题。大数据时代的到来给电子数据审计带来了机遇与挑战。首先阐述了研究大数据环境下电子数据审计的重要性;然后分析了电子数据审计的内涵及原理;在此基础上,重点研究了大数据环境下电子数据审计面临的机遇与挑战,并结合大数据的特点以及目前已有的大数据分析技术与工具,探讨了大数据环境下开展电子数据审计的方法;最后给出了大数据环境下开展电子数据审计的相关建议。研究结果为今后大数据环境下开展电子数据审计提供了
2、理论基础。关键词: 电子数据审计; 数据密集型科学; 大数据; 云计算; 计算机辅助审计技术; 作者简介:陈伟(1976-),男,博士,教授,主要研究方向为 IT审计;作者简介:Wally Smieliauskas,男,博士,教授,主要研究方向为审计理论。收稿日期:2014-11-13基金:国家自然科学基金(71572080)Opportunities,Challenges and Methods of Electric Data Auditing in Big Data EnvironmentsCHEN Wei SMIELIAUSKAS Wally School of Management
3、Science and Engineering,Nanjing Audit University; Rotman School of Management,University of Toronto; Abstract: The research and application of electronic data auditing are a hot topic in audit area.The arrival of the era of big data is creating opportunities and challenges for electric data auditing
4、 practice and research.However,there are few studies on this issue.In this paper,the importance of researching electric data auditing in big data environments was analyzed firstly.Then,the concept and principle of electric data auditing were analyzed.Then,opportunities and challenges of electric dat
5、a auditing in big data environments were studied.With the characteristics of big data existing and big data analysis technologies and tools,methods of electric data auditing in big data environments were discussed.Finally,advices for implementing electric data auditing in big data environments were
6、given.Research results in this paper can provide theory for implementing electric data auditing in big data environments.Keyword: Electric data auditing; Data-intensive science; Big data; Cloud computing; Computer assisted audit technologies; Received: 2014-11-131 引言审计工作一直得到国内外政府和社会的重视。传统手工审计是通过对纸质账
7、簿的检查来实现这一职责的,20 世纪 80年代,以查账为主要手段的审计职业遇到了信息技术的挑战。传统审计面临着“打不开账,进不了门,审不了数”的困境。随着被审计单位信息化趋向普及,审计对象的信息化使得审计信息化成为必然。审计信息化对审计人员和审计工作的开展提出了更高的要求。我国高度重视审计信息化工作,为了满足审计信息化建设的需要,国家审计署已经成功开展了“金审工程”一期和二期的建设工作1-3。为了探索适合我国国情的联网审计实施方案以及一些数据的采集与分析方法,国家审计署还成功开展了两期国家“863”计划项目,并依托国家“十二五”科技支撑计划项目开展审计信息化的研发及应用示范工作。另外,“金审工
8、程”三期也即将启动建设。对我国来说,在信息化环境下如何审计被审计单位的电子数据,发现大案、要案,是政府审计的一项重要任务;国际内部审计师协会(Institute of Internal Auditors,IIA)也高度关注电子数据分析技术4。可见,电子数据审计是目前国内外审计领域关注的重点。2014 年 12月,国家审计署机构调整,增设了电子数据审计司5,其主要职责为:审计电子数据的归口管理;审计电子数据的采集、验收和整理工作;组织开展跨行业、跨部门、跨地区的数据分析工作,对电子数据进行综合分析和利用等。电子数据审计司的增设充分说明电子数据审计在我国目前审计工作中的重要性。随着信息技术的发展,
9、大数据(Big Data)时代的到来为电子数据审计提供了机遇和挑战。国家审计署刘家义审计长在 2013年 12月 27日的全国审计工作会议上指出:积极跟踪国内外大数据分析技术的新进展、新动态,探索在审计实践中运用大数据技术的途径,为推动大数据背景下的审计信息化建设做好准备。综上所述,研究大数据环境下的电子数据审计问题具有重要的理论意义和应用价值。本文结合目前大数据的研究与应用现状,研究了大数据环境下电子数据审计面临的机遇、挑战以及大数据环境下的电子数据审计方法。2电子数据审计的研究与应用背景分析2.1 电子数据审计的起源及内涵随着信息技术的发展,组织的运行越来越依赖于信息技术(Informat
10、ion Technology,IT)。因此,一方面,在信息化环境下信息技术成为审计的对象,即如何对被审计单位应用的信息技术进行审计,一般情况下多称为信息系统审计(Infor-mation Systems Auditing,ISA);另一方面,在审计信息化环境下,信息技术成为审计的工具,即审计人员如何应用信息技术帮助他们开展审计工作,也即计算机辅助审计技术(Com-puter Assisted Audit Technologies,CAATs)6,7。概括来说,常用的计算机辅助审计技术可以分成两类:一类是用于验证程序/系统的计算机辅助审计技术,即面向系统的计算机辅助审计技术;另一类是用于分析电子
11、数据的计算机辅助审计技术,即面向数据的计算机辅助审计技术,也可以称之为电子数据审计技术。电子数据审计是我国目前开展审计信息化的重点。国际上也高度关注电子数据审计问题,国际内部审计师协会于 2011年发布的全球技术审计指南数据分析技术中重点分析了面向数据的 CAATs在审计数据分析中的应用4。2.2 电子数据审计的原理如前文所述,电子数据审计是目前审计工作的重点。在实际的审计工作中,为了避免影响被审计单位信息系统的正常运行,并保持审计的独立性,规避审计风险,审计人员在开展电子数据审计时,一般不直接使用被审计单位的信息系统进行查询分析和检查,而是将所需的被审计单位的电子数据采集到审计人员的计算机中
12、,利用相关软件进行分析,其原理如图 1所示。图 1 电子数据审计的原理 下载原图对于电子数据审计,目前还没有给出明确的定义。根据目前对该术语的使用情况,电子数据审计一般可以被理解为“对被审计单位的电子数据进行采集、预处理以及分析,从而发现审计线索,获得审计证据的过程”。如前文所述,审计署机构调整,增设了电子数据审计司,这也充分说明电子数据审计在目前审计工作中的重要性。2.3 远程联网电子数据审计持续审计(联网审计)审计人员根据审计任务的需要,到被审计单位现场采集电子数据,然后对这些电子数据进行预处理并完成数据分析,获得审计证据,这种开展电子数据审计的方式可称为现场电子数据审计,这是目前电子数据
13、审计的主要方式。近年信息技术的发展使得审计信息化向持续、动态、实时的方向发展,持续审计(或连续审计)(Continuous Auditing,CA)成为审计信息化的一个重要发展方向4,8-15。我国正在研究与应用的联网审计也是分离式持续审计的一种方式,其原理如图 2所示1-3。不难发现,相对于现场电子数据审计,我国正在研究与实施的联网审计也可以看成是远程联网电子数据审计,其原理可以看成是一个采用远程联网方式从被审计单位采集电子数据,并对其进行分析,获取审计证据的过程。联网审计技术的应用为审计单位积累了大量的电子数据,这为开展审计大数据分析提供了条件。图 2联网审计的实现原理 下载原图3 大数据
14、的相关研究分析3.1 大数据的内涵如前文所述,目前大数据的研究与应用已经成为国内外的热点。科学杂志2011 年的专刊讨论了如何管理大数据16,Gartner 把大数据技术列入全球未来 5年 10大关键技术趋势之一17,我国学者也密切关注大数据领域18,大数据技术将会给科学研究、商业、公共管理等领域带来重大变革19。不同的文献给出了大数据的不同定义,最常见的是世界著名咨询机构麦肯锡公司对大数据的定义:大数据指的是大小超出常规数据库工具获取、存储、管理和分析能力的数据集20。Gartner 把大数据定义为:大数据是具有大容量、快速、和(或)多样性等特点的信息资产,为了能提高决策、洞察发现和流程优化
15、,这种信息资产需要新形式的处理方法17。3.2 大数据的特点概括来说,大数据主要具有以下 4个特点16,17,19:(1)大量(Volume)数据量大,非结构化数据的超大规模和增长比结构化数据增长快 1050倍;另一方面,计算量较大。(2)多样性(Variety)大数据的形式多样,有很多种不同形式,如文本、图像、视频、机器数据等。(3)快速(Velocity)一方面,数据量增长速度快;另一方面,大数据要求实时分析,处理速度要快。(4)真实性(Veracity)数据必须是准确的、可靠的、一致的,具有可追溯性。3.3 大数据分析技术与工具大数据分析需要一些能在有限的时间内对大量数据进行有效分析的技
16、术。为了充分从大数据中挖掘有用的信息,不同种类的大数据技术被研究出来,这些技术覆盖了计算机科学、统计学、经济学等学科。同时,一些用于分析大数据的工具也被开发出来。不同的大数据分析工具有不同的专长,一些主要为批处理数据设计,一些擅长实时数据分析。另外,一个大数据分析工具也有自己特有的功能。概括来说,这些工具可分为 3类19,21-24。图 3 3类工具主要产品的分类比较 下载原图(1)批处理工具这类工具多是基于 Apache Hadoop框架,常见的包括 Mahout、Dryad 等。以Mahout为例,它基于 Apache Hadoop框架,使用 Map/Reduce模式,集成了一批包括聚类、
17、分类、频繁模式挖掘等的典型的大数据挖掘和机器学习算法。(2)流处理工具这类工具多用于流数据(如日志文件、工业传感器数据等)的实时分析,常见的有Storm和 StreamCloud23、SQL-stream24、S4 等。淘宝等企业通过采用流数据挖掘技术分析用户的网上浏览记录来获得有价值的信息,以支持企业决策。(3)交互式分析工具用户可以使用这类工具以图表或表格的形式查看、比较和分析数据,这类工具包括 Googles Dremel22、Apache Drill21等。根据大数据分析工具的数据批处理能力和实时处理能力,3 类工具主要产品的分类比较如图 3所示19,21-24。4 大数据环境下电子数
18、据审计的发展机遇科学研究在经历了实验科学(Empirical Science)、理论科学(Theoretical Science)、计算科学(Computational Science)这 3个阶段后,进入了数据密集型科学阶段(Data-intensive Sci-ence)18,19,25,26,与之相伴的是大数据(Big Data)时代的到来。大数据时代的到来为各行业提供了机遇和挑战27-29。目前,大数据的研究和应用已经成为国内外的热点。世界各国均高度重视大数据相关问题的研究与探索,并从国家战略层面推出研究规划以应对大数据带来的机遇和挑战。2012 年 3月,美国奥巴马政府公布了“大数据
19、研究与发展计划”,未来的十年将是一个“大数据”引领的智慧科技时代。正如 2012 年 2月纽约时报的一篇专栏文章所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析做出,而非基于经验和直觉。在公共卫生、经济发展和经济预测等领域,“大数据”的预见能力已崭露头角。亚马逊公司前任首席科学家 Andreas Weigend认为“数据是新的石油”。IBM 执行总裁罗睿兰认为“数据将成为一切行业当中决定胜负的根本因素,数据最终将成为人类至关重要的自然资源”。麦肯锡认为:大数据可以发挥重要的经济作用,不但有利于私人商业活动,也有利于国民经济和公民。数据可以为世界经济创造重要价值,
20、提高企业和公共部门的生产率和竞争力,并为消费者创造大量的经济剩余20。只要具有适当的政策推动,大数据的使用就将成为未来提高竞争力、生产力、创新能力以及创造消费者盈余的关键要素。同样,大数据时代的到来也为电子数据审计提供了机遇,主要表现在以下方面。(1)审计取证更充分如前文所述,随着被审计单位财务和业务数据的电子化,获取被审计单位的电子数据以开展电子数据审计已经成为审计的重要方式。联网审计技术也使得审计单位获取被审计单位电子数据的范围和频率大大增加。大数据环境下,被审计单位提供更多、更全面的数据,审计单位可以充分利用采集来的各方面数据建立集中统一的被审计单位数据中心。在此基础上,借助不同于传统
21、SQL关系数据库的新的大数据分析技术,构建审计大数据分析平台和使用更智能的大数据分析技术,通过分析“从数据入口到数据库平台”的更大范围的数据来源,对被审计单位的电子数据进行系统、全面以及跨部门的综合分析,从而解决目前数据分析局限于查找单个问题的缺陷,获得更充分的审计证据,更大地发挥审计的威力。(2)更多的数据分析技术可供选择麦肯锡认为:传统的数据分析技术,如关联规则挖掘、分类、数据聚类、遗传算法、机器学习、自然语言处理、神经网络、预测模型等,也可用于目前的大数据分析20。但大数据环境下,开展大数据审计需要更多的智能技术,比如能够针对不同的数据类型进行交叉分析的智能技术、语义分析技术、图文转换技
22、术、模式识别技术、地理信息技术、多媒体数据(图像、音频、视频等)处理技术、社交关系数据处理技术等。目前,为了满足大数据环境下数据分析的需要,一些专门用于处理大数据的关键技术也被研究出来,如 Big Table、云计算、分布式系统、Hadoop、HBase、Map/Reduce30、可视化技术等,这为开展电子数据审计提供了机遇。因此,大数据环境下开展电子数据审计时,可以尝试采用这些技术来完成审计数据分析。(3)大数据的可视化技术更有助于审计数据的分析可视化技术是大数据应用的重点之一20。目前,针对可视化分析的需要,一些企业已成功推出一些可视化数据分析软件,如 tabealu31、IBM Many
23、 eyes 等。可视化审计分析方式能够帮助审计人员快速有效地交互分析大量的数据,所提供的洞察力有助于审计人员更快、更准确地从复杂的被审计数据中发现审计线索。(4)审计大数据的实时和快速分析将得以实现随着云计算、流处理等技术的应用,以及采用粒计算(Granular computing)、量子计算(Quantum computing)等来解决大数据的大计算量技术的研究不断发展,审计大数据的实时处理和快速决策将得以实现。另一方面,大数据环境下的审计数据实时分析能够使联网审计更好地实现实时的审计,真正达到持续审计的目的。(5)审计结论更科学大数据环境下,审计证据的获取、审计报告的形成、审计意见的决策等
24、都可以基于对审计大数据的分析,只要数据可靠,审计结论必然可靠,这使得审计结果更科学。5 大数据环境下电子数据审计面临的挑战尽管大数据技术给审计信息化带来了机遇,但在大数据时代开展电子数据审计将面临一些挑战,主要表现在如下方面。(1)审计大数据的真实性大数据环境下,影响数据真实性的因素很多。为了能得到正确、可靠的审计证据,防止大数据环境下的“假账真审”,必须保证被审计的数据是真实的,防范与控制大数据环境带来的审计风险非常重要,其中审计大数据质量控制是关键问题。(2)审计大数据的控制和保护大数据环境下,为了获得全面、可靠的审计证据,需要从众多的被审计单位采集大量敏感和重要的数据来进行分析,这些审计
25、大数据常常会含有一些详细的、潜在的能够反映被审计单位机密的信息,如银行客户的用户名、密码等。这些采集来的数据一般以分布的方式集中存储在审计单位的数据中心,如采用云计算平台方式存储。来自网络的攻击会影响审计大数据的安全,一些对审计数据中心的恶意进攻也会造成更严重的后果,这就需要审计大数据拥有合适的、贯穿审计数据采集、审计数据传输、审计数据存储、审计数据维护、审计数据分析等整个数据生命周期的控制和保护,以降低审计风险。(3)审计大数据分析风险审计大数据的复杂性给数据分析带来了一定困难。大数据环境下,数据信息全面,隐藏的或未知的信息较多,采集到的大量数据为审计数据分析提供了基础。为了能做到事中审计或
26、者是实时审计,需要强大、高效、实时的审计数据分析方法。另一方面,大数据环境下,数据复杂性也急剧增长,其多样性(多源、异构、多模态、不连贯语法或语义等)、低价值密度(大量不相关信息、知识“提纯”难度高)、实时性(数据需实时生成、存储、处理和分析)等复杂特征日益显著。审计单位现有的计算机系统和审计软件不能应对急剧增长、种类众多的被审计数据,审计大数据的复杂性给数据分析带来了一定困难,造成了审计数据分析的风险。因此,大数据环境下,如果不采用大数据技术实现从传统的审计数据分析向审计大数据分析的过渡,必将影响审计数据分析结果和分析效率,造成一定的审计风险。(4)大数据分析平台的选择风险大数据环境下,开展
27、审计大数据分析需要借助大数据分析平台与工具。目前,大数据分析平台供应商的数目较多,因此,审计单位在采用大数据技术开展电子数据审计时如何选择合适的大数据分析平台非常重要,审计单位和被审计单位应该根据自己的需求,尝试使用多个大数据分析平台来测试应用程序,以选择最佳的大数据分析平台。如果选择的大数据平台不合适,则会造成一定的审计风险。(5)审计大数据的全面性尚不够大数据环境下,审计单位需要访问第三方数据来源并将自己的信息与外部信息进行集成,以充分发挥大数据的潜力。然而,目前尚未建立起数据访问与数据共享机制,这为充分获得大数据的价值带来了障碍,影响了审计取证的查全率,造成了一定的审计风险。(6)审计大
28、数据的存储大数据环境下,已有的审计数据存储技术将不能完全满足大数据环境的需要,被审计单位的大数据为审计数据的存储提出了挑战。研究适合大数据环境的审计数据存储技术成为开展电子数据审计的一项重要任务。6 大数据环境下的电子数据审计方法探析6.1 大数据环境下的电子数据审计方法与现有电子数据审计方法的比较传统环境下,审计人员常采用审阅法、复算法、盘存法、函证法、鉴定法等方法开展审计工作。如前文所述,信息化环境下,审计的对象是电子数据,因此审计证据的获取多是通过采用信息技术对被审计数据进行分析来完成的。随着大数据时代的到来,被审计单位的大数据环境为电子数据审计提出了挑战。由大数据的特点可知,目前信息化
29、环境下现有的电子数据审计方法将不能完全满足大数据环境下电子数据审计的需要,因此大数据环境下需要新的电子数据审计方法。综合现有文献的分析,大数据环境下的电子数据审计方法与现有电子数据审计方法的比较如表 1所列19,32,33。表 1 大数据环境下的电子数据审计方法与现有电子数据审计方法的比较 下载原表 6.2 大数据环境下的电子数据审计方法原理根据前文分析,大数据环境下的电子数据审计方法如图 4所示。图 4 大数据环境下的电子数据审计方法原理 下载原图其原理简述如下。(1)审计大数据来源大数据环境下审计数据来源多种多样,主要包括:审计大交易数据。这些数据是传统的结构化的、通过关系数据库进行管理和
30、访问的静态历史数据。审计大交互数据。这些数据源于社交媒体,包括传感器信息、海量图像文件、Web文本、电子邮件等。(2)审计大数据集成审计大数据集成的目的是把从不同被审计单位或同一被审计单位不同数据源中的各种不同数据整合在一起,这些数据往往涉及诸多数据源,并且它们的数据模式也可能不一样。因此,大数据环境下,在对审计大数据进行分析时,首先需要对这些被审计单位的审计大交易数据和审计大交互数据进行集成和数据预处理,以满足审计大数据分析的需要。(3)审计大数据存储与管理目前的数据存储技术不能满足审计大数据环境的需要,大数据环境下,审计数据的存储方法发生改变,包括存储设施、存储架构、数据访问机制等。因此,
31、可借助云计算平台或分布式文件系统进行审计大数据的存储与管理。(4)审计大数据分析与结果展示如前文所述,传统的数据分析技术如关联规则挖掘、分类、数据聚类、遗传算法、机器学习、自然语言处理、神经网络、预测模型等,也可用于目前的大数据分析。但大数据环境下,开展大数据审计需要更多的智能技术。目前,为了满足大数据环境下数据分析的需要,一些专门用于处理大数据的关键技术也被研究出来,如Big Table、云计算、分布式系统、Hadoop、HBase、Map/Reduce、可视化技术等。因此,可借助以上技术进行审计大数据的分析与结果展示。(5)审计大数据可视化分析技术信息技术的发展促进了可视化技术34的发展,
32、通过可视化界面,有助于对海量复杂数据的分析。大数据环境下,采集来的审计数据在数量和复杂度上都给审计数据分析带来巨大挑战,数据可视化分析方式有助于审计人员探索、分析和解释复杂的海量数据。可视化提供了审计人员对审计数据的直观分析,审计人员可以通过交互界面对审计数据进行分析和了解。可视化审计分析的最终目的是呈现审计大数据的内涵,并挖掘出隐藏在审计大数据内部的规律。可视化审计分析是手段,挖掘知识或规律才是目的。需要指出的是:由于大数据的 4V特点,相比传统小数据集的可视化,大数据的可视化要相对复杂一些35-37。一般来说,采用可视化手段进行审计数据分析的流程如下:通过某种可视化软件将被审计数据转化为审计人员可以分析观察的图形和图像。审计人员结合自己的审计背景知识,发挥人类视觉系统高通量的特性,通过视觉系统对可视化的图形和图像进行分析、观察和认知,从而从总体上系统地理解和分析被审计数据的内涵和特征。另外,审计人员交互地改变可视化软件的设置,改变输出的可视化图形和图像,从不同的方面获得对被审计数据的理解,从而全面地分析被审计数据。概括来说,审计大数据可视化分析流程如图 5所示。