收藏 分享(赏)

大学论文:大数据质量评价体系的构建研究.docx

上传人:HR专家 文档编号:5137376 上传时间:2019-02-10 格式:DOCX 页数:45 大小:79.18KB
下载 相关 举报
大学论文:大数据质量评价体系的构建研究.docx_第1页
第1页 / 共45页
大学论文:大数据质量评价体系的构建研究.docx_第2页
第2页 / 共45页
大学论文:大数据质量评价体系的构建研究.docx_第3页
第3页 / 共45页
大学论文:大数据质量评价体系的构建研究.docx_第4页
第4页 / 共45页
大学论文:大数据质量评价体系的构建研究.docx_第5页
第5页 / 共45页
点击查看更多>>
资源描述

1、I大数据质量评价体系的构建研究摘 要大数据时代到来了。我国的国情决定了集中掌握着资金、人力、政策等资源优势的政府部门当仁不让的成了推进大数据发展的主体,也成了经现代化信息技术关联分析后发现新知识、创造新价值的研究客体,其数据质量更是重中之重,关系到大数据最终的运算结果。而质量评价体系的建立有助于确定数据质量标准化,规范的政府大数据的科学性管理,引导新的契合大数据技术手段的信息基础建设具有重要意义。本文从现有的数据质量评价体系出发,结合大数据的四大特性,将 17 个与政府大数据质量相关的二级指标按照数据源质量、数据规模质量、数据结构质量、数据时效质量、数据价值密度质量这些维度进行划分,确定了五个

2、维度。并对每个二级指标进行了系统的梳理,确立了从政府部门、受访者、制度性因素三个方面建立的具体指标,共计有 51 个指标。然后对给出的各数据质量评价指标的满意度打分进行主成分分析,剔除了 13 个指标,完成对该质量评价体系的修正和完善。通过上述研究,本论文得出了以下结论:在政府大数据质量评价中,政府数据的数据源质量依旧十分关键,是政府大数据质量的重中之重;数据的时效性质量在政府大数据特征质量中最为重要,这体现了政府大数据对运算高速性的要求。关键词:大数据 政府数据 质量评价体系 IIResearch on the construction of large data quality evalu

3、ation systemZhangYang Directed by QiuShuangyue AbstractBig data era,in the situation of our country have capital, manpower, policy resources of government departments have become the main body to promote the development of big data, has become the analysis of Modern Information Technology Associatio

4、n after the discovery of new knowledge and create new value of the research object, the data quality is the priority among priorities, in relation to the final result of big data. And the establishment of the quality evaluation system is helpful to determine the quality of the data standardization,

5、the scientific management of the governments big data, and to guide the new information technology infrastructure is important.This paper from the data quality evaluation system of the existing four, combined with the characteristics of big data, the 17 related government data quality level two inde

6、xes according to the data source, data quality, data quality scale structure quality, data quality, data aging value density quality of these dimensions are divided and identified five dimensions. And each of the two levels of the index system, the establishment of the government departments, the re

7、spondents, the institutional factors of the three aspects of the establishment of specific indicators, a total of 51 indicators. After the initial establishment of the system, the application of the evaluation system for large data users of the government. In this paper, the principal component anal

8、ysis of the satisfaction score of each data quality evaluation index is given, and 13 indexes are eliminated.Through the above research, this paper draws the following conclusions: in the evaluation of the quality of government data, government data quality is still very important, is the priority a

9、mong priorities of government big data; timeliness of quality data in the government big data quality is the most important feature, which reflects the requirements of the government of big data high speed.IIIKEY WORDS:Big data Government data Quality evaluation system目录摘 要 I英文摘要 .II前 言 .11 相关理论 21.

10、1 大数据的概念 21.2 现有的大数据质量评价体系 22 政府大数据质量评价指标体系的构建 32.1 政府大数据质量评价指标的确立和指标体系的构成 32.2 大数据质量评价指标的量化 .53 研究方法的选取 63.1 因子分析法概述 63.1.1 因子分析法的定义 63.1.2 因子分析法的步骤 63.2 主成分分析法概述 73.2.1 主成分分析法的定义 73.2.2 主成分分析法的一般分析步骤 73.3 因子分析法和主成分分析法的比较 73.4 主成分分析法在本研究中优势 84 政府大数据质量评价指标体系的主成分分析 84.1 数据的来源 84.4 主成分的选取 94.3 主成分得分与权

11、 104.4 各变量最终得分 145 结论与建议 .175.1 结果分析与结论 175.2 政策建议 .17参考文献 .18附 录 .19致 谢 .281前 言随着第三次工业革命的推进,人们进入了信息化时代。在信息化时代里数据就是力量,数据就是财富已经不是什么神话,而是深入人心的共识。近几年,随着新社交媒体的普及,以及存储设备的升级换代使得数据的存储与应用发生了翻天覆地的变化,大数据技术应运而生。然而,在这个数据爆炸的时代里,数据质量确实良莠不齐,为了找到评价一个数据集质量的有效方法,许多人都对大数据质量评价体系做了研究。但是,在大数据层次上,难以拿出相对完善的质量评价体系对政府大数据进行有效

12、的评估,为了弥补这样的缺憾,本文对大数据质量评价体系进行了研究。 1本研究的进程共分为三个阶段:第一个阶段,在论文数据平台和学术期刊上查找相关研究成果,并将这些成果中包含的不同部分进行归类,初步了解了大数据质量评价体系研究的现状。总结归纳出了研究通常构建的 13 指标以及研究通常采用的主成分分析或因子分析的方法。第二个阶段,根据前人的成果,再结合自己掌握的知识,构建相对合理的评价指标体系,并根据指标体系制作调查问卷,然后进行问卷调查,收集数据得到第一手的资料。收集数据之后对数据进行分析、研究,并找出成因,思考对策。第三个阶段,将成果写成论文。本文共分为五部分:第一部分是对大数据概念的总结与大数

13、据质量评价体系目前研究的简单概括;第二部分首先阐述了目前的研究现状中在指标体系构建中存在的指标过多与角度单一的问题,并相对的提出了解决这些问题的办法,也就是三个级别指标并行,三级指标作为直接变量的解决办法;其次第二部分还阐明了数据量化的必要性以及数据量化的李克特量表法。第三部分介绍了大数据质量评价体系构建中常用的两种降维方法即因子分析法与主成分分析法,并论证了运用主成分分析法的益处。第四部分首先论证了调查得到数据的代表性,然后用主成分分析法提取了 6 个主成分,再计算各个变量的得分情况。第五部分根据第四部分的成果发现了政府在大数据安全性和相关性以及大数据来源质量所存在的问题并提出了一些建议。2

14、1 相关理论1.1 大数据的概念上世纪 50 年代欧洲数学家香农在“通讯的数学理论”中提出的信息定义:“信息是用来消除随机不定性的东西”。在传统理论下数据是信息的基础,而我们现在所提到的数据是一个综合范畴,有传统理论中的数据(统计数据等),更多的是数据化技术存在的结果形态与信息记录的统称,即所谓的大数据。 2数据种类多,既包括文本、图像、视频等半结构和非结构化数据,也包括现有的结构化数据,像统计数据。我们可以把大数据的特征总结为 4V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)、Value(价值巨大但密度低)并且具有实时、多元的信息化特点;而统计数据类

15、型单一,主要特征是结构化、体量小、标准化、价值密度高以及周期化数值。目前大数据已成为中国政府统计数据来源的“第二轨”,为了更加全面有效的提升数据质量,统计数据在此略显简单。相比统计数据质量,大数据向纵深拓展了其内涵。 3目前,作为一种标准化数据的统计数据正在经历着大数据的冲击,统计数据质量即是统计学研究的起点,也是统计实践的目标,而数据价值最大化是统计数据质量的核心英国当代数学家托马斯克伦普在数字人类学中提及人是数字的本质。揭示数字后面信息与现实世界的关系是统计数据的内涵,而实现数据信息的效率及价值是数据质量的本质。就当今社会信息的价值效率与数据泛滥造成有效信息稀缺导致可用数据质量和价值得不到

16、有效利用,这主要原因是因为来自于大数据推动下数据质量内涵信息的分布复杂的演变。因此如何判断统计数据质量以及对其的有效利用使我们应该考虑的问题,而本文对大数据质量评价体系的构建研究以政府大数据质量为例作简要分析。 431.2 现有的大数据质量评价体系虽然大数据是这几年才发展起来的新兴学科,但是对于大数据的研究却是汗牛充栋,其中对于大数据质量评价体系的研究也是初具规模。然而,在学术界并没有关于大数据质量评价体系统一的标准。尽管如此,在统计学界仍然有大家都公认的一些指标,这些指标在研究中经常被使用。这些指标主要包括:准确性、时效性、相关性、客观性、可衔接性、完整性、可理解性、透明性、可操作性、可取的

17、性、可解释性、效益型、安全性等 12 个指标。 5例如:UN 下属的经济委员会就曾经提出了包含 11 个指标变量的数据质量评价体系,这 11 个指标是:可获得性、相关性、真实性、准确性、连续性、时效性、可用性、完整性、复杂性、清晰性、安全性。在国内,蔡莉等人主导的研究中提出了包含 5 个指标的大数据质量评价体系,它们分别是:可获得性、可靠性、可用性、相关性、可表达性。2 政府大数据质量评价指标体系的构建所谓大数据质量评价指标体系就是一个可以很好地描述大数据质量的模型,利用这个模型可以比较方便的比较两个数据集的质量。大数据质量评价指标体系研究,研究对象是大数据,关键是质量评价,目标是指标体系构建

18、,只有将体系搭建好,才能有明确的目标,才能更好的完成分析、论证工作。 62.1 政府大数据质量评价指标的确立和指标体系的构成 7在之前的研究当中,人们对数据质量的评价体系的描述基本上是从准确性、时效性、相关性、客观性、可衔接性、完整性、可理解性、透明性、可操作性、可取的性、可解释性、效益型、安全性等方面展开的。4这样做固然有它的好处,首先这些指标基本上已经覆盖了的质量评价体系所要考虑的全部方面,其次这些指标简洁明了没有歧义,但是有时候指标分类过于细化,反而会分散人们的注意力,使得一些有用的东西不能很好的展现出来。为了解决这个问题,同时也为了取长补短,本研究同样选取以上 13 个指标,只不过将这

19、 13 个指标作为二级指标,然后进一步归类得到了 5 个一级指标。这样不仅保证了指标对数据质量描述的全面性,也保证指标数量设置的合理性,和反映问题的集中性。得到的一二级指标划分表如下:表 1 一二级指标的划分表一级指标 二级指标准确性 客观性 可取得性 可解释性 透明性大数据来源质量可理解性 安全性大数据规模质量 完整性大数据排列质量 可衔接性大数据时效质量 时效性 可操作性大数据价值质量 相关性 效益性之前的研究大都是直接将这 13 指标作为变量来研究,选取的角度要么是政府部门,要么是受访者,这样使得研究结论趋于片面,研究的成果应用面窄。为了避免出现这些不愿意看到的结果,本研究进一步将二级指

20、标从政府部门,受访者,政策条件等三个因素细化,使得得到的这 39 个三级指标成为直接研究的变量。得到的最终质量评价指标体系表如下:表 2 质量评价体系表5第一级指标第二级指标第三级指标变量1 由政府处理产生的一般性误差2 由受访者主观意图造成的数据误差准确性3 考核的机制差异对数据造成的误差1 政府数据的类目指标是否可以真实描述受访者2 受访者是否愿意提供真实数据客观性3 考核的机制对数据客观性的要求1 数据从政府部门获取是否具有的便利性2 数据从受访者获取是否具有便利性可取得 性3 政府获取数据的流程控制1 政府部门对政府掌握数据的补充与说明2 受访者掌握数据来源的可靠性可解释性3 政府部门

21、对政府掌握数据的披露与解释意愿1 政府掌握数据的公开性2 受访者披露相关数据的意愿透明性3 政府政务公开的进展程度1 数据类目指标设置是否合理性2 受访者提供数据的内容是否具有明确性可理解性3 政府的机制对于数据揭示内容的明确性要求1 政府应对数据泄露的所采取的防范措施2 受访者防止数据泄露所采取的防范措施大数据来源质量安全性3 政府数据保存的安全机制61 政府部门的数据类目满足大数据需求2 受访者提供满足大数据需求的数据类目大数据规模质量完整性3 政府对政府大数据类目的指导要求1 政府各部门数据结构的衔接程度2 受访者提供不同结构数据的能力大数据排列质量可衔接性3 政府对处理不同结构数据能力

22、的指导要求1 政府部门处理大数据的速度2 受访者的数据更新速度时效性3 政府大数据处理的时效机制1 政府部门处理大数据的复杂程度2 受访者的提供的数据结构大数据时效质量可操作性3 政府数据设计制度1 政府大数据的内容与数据使用者兴趣是否有关联性。2 受访者数据类目的设置是否具有合理性。相关性3 政府大数据设计制度1 政府部大数据保存、处理成本2 受访者所提供的数据的净价值大数据价值质量效益性3 政府的大数据效益管理机制是否完善2.2 大数据质量评价指标的量化在大数据质量评价指标体系确定下来以后,就要根据这 39 个指标变量设计调查问卷,附录中列出了本研究的调查问卷,接下来亟待解决的就是数据的量

23、7化问题。因为毕竟本研究是定量分析,所以数据的数量化是必要的。在 spss 软件处理的过程中,最终也都要归结为对数值型数据的处理. 8由调查问卷可以看出,每个问题下面都有五个选项他们分别是:“非常不满意”、“不满意”、“一般”、“满意”、“非常满意”,因此可以利用spss 软件中值标签功能建立一个数据汇总表,使得数字“1”对应“非常不满意”,数字“2”对应“不满意”,数字“3”对应“一般”,数字“4”对应“满意”,数字“5”对应“非常满意”。也就是运用了 5 级李克特量表,这样就很好的解决了数据的量化问题。3 研究方法的选取3.1 因子分析法概述 93.1.1 因子分析法的定义因子分析是一种数

24、据简化技术,是通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假象变量表示出数据的结构。其主要思路是降维之后简化数据结构;目的就是将分散的大数据信息整合成数量较少的因子,通过简化后的因子,对变量进行分类,这样既做到了降维,也把数据的损失降到最小。本文就是首先对用户对待政府公开数据的满意度着手展开的三级指标,并由此得出的结论。3.1.2 因子分析法的步骤因子分析的核心问题是因子变量的构造和怎样对因子变量命名和解释;其8常用基本步骤如下:首先是需要确认所要分析的原变量是否适合做因子分析。其次是如何构造因子变量。再次是利用因子旋转增加因子变量的可解释性。最后计算出各个因子变

25、量的得分。因子分析的计算过程是:(1)将原始数据标准化,以消除变量间在数量级和量纲上的不同;(2)求出标准化数据的相关矩阵;(3)求出相关矩阵的特征向量、特征值;(4)计算方差贡献率、累积方差贡献率;(5)确定因子;(6)因子旋转;(7)利用原变量指标的线性组合求得各因子得分;(8)综合得分;(9)得分排序3.2 主成分分析法概述 103.2.1 主成分分析法的定义主成分分析是一种通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量的统计方法。首先由K.皮尔森对非随机变量引入,后由H.霍9特林将此方法推广到随机变量。而又叫做主分量分析的主成分分析法是一种数学变换的方法,利用降维的思

26、想,把多指标转化为少数几个综合指标,且所含信息不互相重复,通过线性变换把给定的一组相关变量转换成一组不相关的变量,并案方差大小递减排列,在变换中保持总方差不变,第一主成分有最大方差,第二主成分其次,以此类推。3.2.2 主成分分析法的一般分析步骤主成分分析就是希望把相关变量变成彼此独立的变量,用较少变量解释大量的原变量, 即主成分,用来解释综合性指标。其主要分析步骤如下:(1)写出原始数据的矩阵形式;(2)对矩阵标准化,使得均值为零;(3)求出矩阵的协方差阵;(4)按照特征值从大到小排列对应特征向量,取前K个组成新的矩阵;(5)通过计算得到降维后的数据;(6)计算每个特征根的贡献率并解释特征根

27、及其对应特征向量的含义;3.3 因子分析法和主成分分析法的比较(1)虽然两者都是表示成线性组合,前者的表示对象是各个变量,后者表示对象则是主成分;(2)侧重点不同,前者重点解释各变量之间的协方差,后者则重点解释各变量的总方差;(3)因子分析有前提假设:各个共同因子之间、特殊因子之间、共同因子和特10殊因子之间都不相关;3.4 主成分分析法在本研究中优势 11(1)主成分分析法与因子分析法相比较所具有的一般优势首先主成分分析比因子分析更为客观,因为主成分分析是将主成分表示为原变量的线性组合,而因子分析需用假设的公共因子来解释相关矩阵的内部关系;也因为主成分分析合成得分量是彼此独立的,也就消除了指

28、标数据之间相关的影响,而因子分析允许因子间相关,其提供的变异信息可能是重复的。其次,主成分分析比因子分析更准确,因子分析中的因子和总因子得分是估计值,而主成分分析中的因子和总因子得分是实际值。(2)主成分分析在大数据质量评价体系研究中的独特优势主成分分析可以更好的完成大数据质量评价体系构建的一系列工作:1)主成分分析可以消除原始变量间的相关影响2)主成分分析在综合评价时可以确定权重3)主成分分析可以减少评价的指标数量,使得评价体系更加集中的反映问题4 政府大数据质量评价指标体系的主成分分析4.1 数据的来源11本研究的数据来自于问卷调查。问卷设计遵从了处理便捷、题量适当、层次合理、主题明确的一

29、般原则,从源头上保证了数据的质量。此次研究共发放问卷 210 份回收有效问卷为 200 份,受访者情况汇总表如下:表 3 受访者基本情况统计表统计特征 分类 样本数 所占比例20-25 岁 54 27%25-30 岁 82 41%30-35 岁 20 10%35-40 岁 26 13%年龄40 岁以上 18 9%文 12 6%理 31 15.5%工 44 22%法 16 8%工商管理 88 44%学科其他 9 4.5%从受访者的年龄构成看,25-30 岁的人数最多,占 41%,20-25 岁的人数较多,有 27%, 这两个年龄段是接触政府大数据最多的人群,共占了 68%,而在 40 岁以上的有

30、 18 人,仅占 9%。从受访者学科构成来看,经济管理类人数最多,占 44%,工科、理科分别占 22%和 15.5%,而文科仅有 6%的比例。总的来说问卷调查的人群比较具有代表性,对于此项研究来说是科学合理的。124.4 主成分的选取运用主成分分析法必须提取主成分,运用 spss 软件以特征值大于 1 为提取条件进行分析得到的解释的总方差表如下:表 4 解释的总方差由上表可以看出,提取的主成分个数为六个,这六个主成分占的总的方差比例为 63.153%,基本上包含了所有变量的大部分信息。其中,第一个主成分的方差贡献率最高为 36.406%,第二个主成分的方差贡献率与第一个主成分相比差距比较大,为

31、 11.177%,从第三主成分起,其方差贡献率都降到 5%以下。4.3 主成分得分与权初始特征值 提取平方和载入成份合计 方差的 % 累积 % 合计 方差的 % 累积 %1 13.834 36.406 36.406 7.382 19.426 19.4262 4.247 11.177 47.583 6.794 17.879 37.3503 1.858 4.890 52.473 3.643 9.587 46.8924 1.736 4.569 57.042 2.455 6.461 53.3535 1.273 3.350 60.392 2.258 5.942 59.2956 1.049 2.761 6

32、3.153 1.976 3.857 63.153 39 0.000 0.000 100.000提取方法:主成份分析。13通过总方差贡献率得到进行主成分分析的合理性以及六个主成分以后就要想办法求出主成分得分然后再求出各个变量的权重。主成分分析运行后得到如下的主成分得分系数表:表 5 主成分得分系数矩阵成份1 2 3 4 5 6第 1 题 .024 -.023 -.023 .113 -.160 .012第 2 题 .060 .016 .003 -.058 -.063 .237第 3 题 -.076 .123 .035 -.189 .030 .150第 4 题 -.117 -.053 -.029 -

33、.065 .124 -.098第 5 题 .013 .204 .103 -.030 -.212 -.122第 6 题 .122 -.108 -.233 -.002 -.096 -.017第 7 题 .003 .033 -.139 .144 -.016 .151第 8 题 .054 -.097 .102 .111 .117 -.083第 9 题 -.074 .093 .208 -.043 -.036 -.080第 10 题 -.137 -.167 -.007 .075 .117 .123第 11 题 .166 .002 -.046 .091 -.130 .095第 12 题 .140 -.144

34、 .069 -.113 .013 .191第 13 题 .009 -.050 .024 -.154 -.007 -.116第 14 题 -.012 -.098 .194 .189 -.049 -.009第 15 题 .065 .040 -.116 .129 -.112 .150第 16 题 -.078 .183 .004 .104 -.118 .165第 17 题 .058 .145 -.149 .141 .134 -.116第 18 题 .057 .173 .109 .188 .198 -.073第 19 题 .109 -.044 -.194 .019 .194 .01814用标准化后的原始

35、数据矩阵乘以主成分得分系数矩阵就得到了主成分得分矩阵,再将同一变量的所有分的主成分得分加总就得到每个变量主成分得分。汇总的各个变量的主成分得分表如下:第 20 题 -.111 -.082 .051 .129 .201 .232第 21 题 -.016 .078 -.225 .065 .084 .017第 22 题 .119 .167 .034 -.222 .119 .087第 23 题 .183 -.042 -.073 -.010 .137 .208第 24 题 .071 .079 .209 .127 .021 .191第 25 题 .057 .139 -.043 .134 -.034 -.0

36、20第 26 题 .021 .158 .112 .099 .304 -.063第 27 题 .155 .172 -.023 .079 -.042 .057第 28 题 -.016 -.102 .096 .137 .049 .111第 29 题 -.021 .109 -.087 .115 .063 -.036第 30 题 .081 .148 .045 -.222 .131 .114第 31 题 .108 .039 .124 .018 -.225 .037第 32 题 .025 -.081 .130 .205 -.076 .049第 33 题 -.075 .086 -.155 -.009 -.12

37、1 -.044第 34 题 .043 -.028 .075 -.179 -.011 .193第 35 题 .108 .000 .022 .033 -.037 .106第 36 题 -.064 .059 .068 -.037 .077 .044第 37 题 -.220 .097 -.096 -.009 -.034 .177第 38 题 -.225 .050 -.078 -.007 -.015 .201第 39 题 -.200 .065 .022 .055 -.075 .084提取方法 :主成份。15表 6 主成分得分表第三级指标变量 主成分得分(第 1 题)由政府处理产生的一般性误差 2.512

38、(第 2 题)由受访者主观意图造成的数据误差 1.493(第 3 题)考核的机制差异对数据造成的误差 2.042(第 4 题)政府数据的类目指标是否可以真实描述受访者 1.864(第 5 题)受访者是否愿意提供真实数据 2.379(第 6 题)考核的机制对数据客观性的要求 0.857(第 7 题)数据从政府部门获取是否具有的便利性 2.280(第 8 题)数据从受访者获取是否具有便利性 1.439(第 9 题)政府获取数据的流程控制 1.108(第 10 题)政府部门对政府掌握数据的补充与说明 2.256(第 11 题)受访者掌握数据来源的可靠性 0.998(第 12 题)政府部门对政府掌握数

39、据的披露与解释意愿 0.664(第 13 题)政府掌握数据的公开性 1.574(第 14 题)受访者披露相关数据的意愿 1.427(第 15 题)政府政务公开的进展程度 1.248(第 16 题)数据类目指标设置是否合理性 0.865(第 17 题)受访者提供数据的内容是否具有明确性 2.067(第 18 题)政府的机制对于数据揭示内容的明确性要求 1.382(第 19 题)政府应对数据泄露的所采取的防范措施 1.574(第 20 题)受访者防止数据泄露所采取的防范措施 1.15916利用公式:(第 21 题)政府数据保存的安全机制 0.793(第 22 题)政府部门的数据类目满足大数据需求

40、1.774(第 23 题)受访者提供满足大数据需求的数据类目 1.368(第 24 题)政府对政府大数据类目的指导要求 1.532(第 25 题)政府各部门数据结构的衔接程度 2.006(第 26 题)受访者提供不同结构数据的能力 1.371(第 27 题)政府对处理不同结构数据能力的指导要求 1.587(第 28 题)政府部门处理大数据的速度 1.976(第 29 题)受访者的数据更新速度 1.574(第 30 题)政府大数据处理的时效机制 1.886(第 31 题)政府部门处理大数据的复杂程度 1.598(第 32 题)受访者的提供的数据结构 2.109(第 33 题)政府数据设计制度 1

41、.473(第 34 题)政府大数据的内容与数据使用者兴趣是否有关联性。1.498(第 35 题)受访者数据类目的设置是否具有合理性。 1.395(第 36 题)政府大数据设计制度 1.482(第 37 题)政府部大数据保存、处理成本 1.223(第 38 题)受访者所提供的数据的净价值 2.179(第 39 题)政府的大数据效益管理机制是否完善 1.636主成分得分表 57.09117权重=单个变量的主成分得分/各个变量总的主成分得分得到以下权重汇总表:表 7 权重汇总表第三级指标变量 权重%(第 1 题)由政府处理产生的一般性误差 2.648 (第 2 题)由受访者主观意图造成的数据误差 1

42、.639 (第 3 题)考核的机制差异对数据造成的误差 3.577 (第 4 题)政府数据的类目指标是否可以真实描述受访者 3.265 (第 5 题)受访者是否愿意提供真实数据 4.167 (第 6 题)考核的机制对数据客观性的要求 1.501 (第 7 题)数据从政府部门获取是否具有的便利性 2.242 (第 8 题)数据从受访者获取是否具有便利性 2.521 (第 9 题)政府获取数据的流程控制 1.941 (第 10 题)政府部门对政府掌握数据的补充与说明 2.200 (第 11 题)受访者掌握数据来源的可靠性 3.500 (第 12 题)政府部门对政府掌握数据的披露与解释意愿 1.16

43、3 (第 13 题)政府掌握数据的公开性 2.757 (第 14 题)受访者披露相关数据的意愿 2.500 (第 15 题)政府政务公开的进展程度 2.186 (第 16 题)数据类目指标设置是否合理性 1.515 (第 17 题)受访者提供数据的内容是否具有明确性 3.621 18(第 18 题)政府的机制对于数据揭示内容的明确性要求 2.421 (第 19 题)政府应对数据泄露的所采取的防范措施 2.757 (第 20 题)受访者防止数据泄露所采取的防范措施 2.030 (第 21 题)政府数据保存的安全机制 1.389 (第 22 题)政府部门的数据类目满足大数据需求 3.107 (第

44、23 题)受访者提供满足大数据需求的数据类目 2.396 (第 24 题)政府对政府大数据类目的指导要求 2.683 (第 25 题)政府各部门数据结构的衔接程度 3.514 (第 26 题)受访者提供不同结构数据的能力 2.401 (第 27 题)政府对处理不同结构数据能力的指导要求 1.028 (第 28 题)政府部门处理大数据的速度 3.461 (第 29 题)受访者的数据更新速度 2.757 (第 30 题)政府大数据处理的时效机制 3.303 (第 31 题)政府部门处理大数据的复杂程度 2.799 (第 32 题)受访者的提供的数据结构 3.694 (第 33 题)政府数据设计制度

45、 2.580 (第 34 题)政府大数据的内容与数据使用者兴趣是否有关联性 0.872 (第 35 题)受访者数据类目的设置是否具有合理性 2.443 (第 36 题)政府大数据设计制度 2.596 (第 37 题)政府部大数据保存、处理成本 2.142 (第 38 题)受访者所提供的数据的净价值 3.817 (第 39 题)政府的大数据效益管理机制是否完善 2.866 194.4 各变量最终得分求得权重以后就要求各个变量的最终得分,利用的公式是:变量的最终得分=权重*各个变量的平均得分得到排序以后的最终得分升序汇总表如下:表 8 最终得分升序汇总表第三级指标变量 最终得分(第 34 题)政府

46、大数据的内容与数据使用者兴趣是否有关联性 3.419(第 27 题)政府对处理不同结构数据能力的指导要求 4.257(第 12 题)政府部门对政府掌握数据的披露与解释意愿 5.036(第 21 题)政府数据保存的安全机制 5.869(第 6 题)考核的机制对数据客观性的要求 5.937(第 16 题)数据类目指标设置是否合理性 6.25(第 2 题)由受访者主观意图造成的数据误差 6.714(第 9 题)政府获取数据的流程控制 7.909(第 37 题)政府部大数据保存、处理成本 8.462(第 20 题)受访者防止数据泄露所采取的防范措施 8.516(第 10 题)政府部门对政府掌握数据的补

47、充与说明 8.65720(第 15 题)政府政务公开的进展程度 8.941(第 7 题)数据从政府部门获取是否具有的便利性 9.327(第 23 题)受访者提供满足大数据需求的数据类目 9.776(第 26 题)受访者提供不同结构数据的能力 9.906(第 18 题)政府的机制对于数据揭示内容的明确性要求 9.973(第 35 题)受访者数据类目的设置是否具有合理性 10.079(第 14 题)受访者披露相关数据的意愿 10.398(第 36 题)政府大数据设计制度 10.422(第 33 题)政府数据设计制度 10.54(第 8 题)数据从受访者获取是否具有便利性 10.548(第 1 题)

48、由政府处理产生的一般性误差 10.819(第 39 题)政府的大数据效益管理机制是否完善 10.832(第 24 题)政府对政府大数据类目的指导要求 11.002(第 19 题)政府应对数据泄露的所采取的防范措施 11.125(第 29 题)受访者的数据更新速度 11.455(第 13 题)政府掌握数据的公开性 11.621(第 31 题)政府部门处理大数据的复杂程度 11.714(第 22 题)政府部门的数据类目满足大数据需求 13.097(第 30 题)政府大数据处理的时效机制 13.28(第 4 题)政府数据的类目指标是否可以真实描述受访者 13.501(第 11 题)受访者掌握数据来源

49、的可靠性 14.331(第 28 题)政府部门处理大数据的速度 14.381(第 25 题)政府各部门数据结构的衔接程度 14.58221将二级指标下属的三级指标得分加总得到二级指标得分升序汇总表如下:表 9 二级指标得分升序汇总表二级指标 二级指标得分12 相关性 23.9217 安全性 25.5093 可取得性 27.7844 可解释性 28.0249 可衔接性 28.7445 透明性 30.9596 可理解性 31.3931 准确性 32.2158 完整性 33.87613 效益性 34.7512 客观性 36.52211 可操作性 37.824(第 3 题)考核的机制差异对数据造成的误差 14.683(第 17 题)受访者提供数据的内容是否具有明确性 15.170(第 38 题)受访者所提供的数据的净价值 15.458(第 32 题)受访者的提供的数据结构 15.571(第 5 题)受访者是否愿意提供真实数据 17.0852210 时效性 39.116将一级指标下属的二级指标得分加总然后除以所包含的二级指标数就得到一级指标得分汇总表如下:表 10 一级指标得分升序汇总表一级指标 一级指标得分数据结构质量 28.744数据价值密度质量 29.336数据源质量 30.344数据规模质量

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报