1、浅谈数据的统计分析及应用1、相关定义1.1、数据挖掘的基本概念数据挖掘 (Data Mining,简记 DM),又称为数据采掘,数据开采等。一般认为数据挖 掘是数据库中知识发现(Knowledge Discovery in Database,简记 KDD)的一个环节,是 KDD 中采用具体的数据挖掘算法从数据中自动高效地提取有用模式的最重要的步骤。然 5 而,在产业界、媒体和数据库研究界,”数据挖掘” 比 ”数据库中知识发现”更流行, 由于 DM 的广泛使用,我们也对 DM 和 KDD 不作严格区分,而认为是等价的概念,在这种意义 下它们的定义是一致的。 从 1989年到现在,数据挖掘的定义随
2、着人们研究的不断深入也在不断完善,目前比较 公认的定义是 Fayyad 等给出的 6 :KDD (DM)是从数据集中识别出有效的、新颖的、潜在 有用的并最终易于被人们理解的模式的非平凡处理过程。大规模数据集合是数据挖掘的 研究对象,被人们形象地描述为”知识的源泉 ”,它可以是结构化的 ,如关系数据库中 的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构 数据。数据挖掘技术是始于面向应用的,它是对特定的数据进行微观或宏观的统计、分 析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关系,甚至利用己有 的数据对未来的活动进行预测。这样,它就把人们对数据的应用,从低
3、层次的末端查询 操作提高到为各级经营决策者提供决策支持。需要指出的是,这里所说的知识是相对的, 它应是在特定的前提和约束条件下,面向特定领域、有实际应用价值的,同时还要易于 被用户理解,甚至可以用自然语言表达和描述。 1.2、元数据的概念元数据(Meta Data)最本质,最抽象的定义为:Data About Data (关于数据的数据)。它是一种广泛存在的现象,在许多领域有 其具体的定义和应用。从广义上讲,元数据代表定义数据仓库的 任何对象,无论它是一个表、一个列、一个查询、一个业务规则, 或者是数据仓库内部的数据转移等等。简而言之,元数据是关于 数据、操纵数据的进程和应用程序的结构和意义的
4、描述信息,其 主要目标是提供数据资源的全面指南5。 IEEE(The Institute of Electrical and Electronics Engineers,电 气和电子工程师委员会)的海量存储系统和技术委员会(Mass Storage Systems and Technology Committee, MSS存储的管理包括定位、访问时间和访问方 法; 存储和实体的使用包括限制、用法和历史记录。 ” 在数字图书馆中,元数据被定义为:提供关于信息资源或数 据的一种结构化的数据,是对信息资源的结构化的描述。其作用 为:描述信息资源或数据本身的特征和属性,规定数字化信息的 组织,具有定位
5、、发现、证明、评估及选择等功能。 12 1.3、安全事件的概念及特点3.1.1 安全事件的概念 3.1.1 安全事件的概念 为了维护自身系统资源的运行状况,计算机系统一般都会有相应的事件日志,记录系 统日常事件或者误操作警报的事件信息。这些事件信息对于安全审计与管理非常有用。 所谓日志 (Log)是指系统所指定对象的某些操作和其操作结果按时间有序的集合。每 个日志文件由事件记录组成,每条事件记录描述了一次单独的系统事件。通常情况下, 系统日志是用户可以直接阅读的文本文件,其中包含了一个时间戳和一个消息或者子系 统所特有的其他信息。日志文件为各种操作系统、服务器、防火墙、入侵检测系统、漏 洞扫描
6、系统、反病毒等安全产品和一些应用软件记录必要的、有价值的信息,这对系统 监控、查询、报表、安全审计和管理是十分重要的。日志文件中记录的各种事件可提供 以下用途:监控系统资源,为打击计算机犯罪提供证据来源; 对可疑行为进行告警,确定 入侵行为的范围;为恢复系统提供帮助,生成调查报告,审计用户行为等。 1.4、新增统计概念理解薄弱相关关系、回归分析、最小二乘原理等内容知识,有些没教过的教师基本是空白, 教过一轮的教师程度稍好一些,许多教师在大学期间,学校基本没开设统计学这门课 程,有的学校虽然开设了,但也没有受到学校和教师本人足够的重视,留下来的内容 对于教师来说也所剩无几,但从教授高三的教师对新
7、增内容的理解来看,对于新增的 统计内容,教师有能力理解和更好的掌握,只是要达到较理想的程度,还需要一个过 程,即通过教师一两轮的讲授。 教师入职前后从未接触过,是这部分内容理解薄弱的主要原因。 访谈者: 我发现好多老师对相关关系、回归分析及最小二乘原理的理解上存在困 难,能谈谈你的感受吗? 教师 B1:对于这几个概念我也确实感到陌生,以前从未接触过,我刚送走毕业班, 老版本教材没有涉及这几个概念,我还没有教过新教材必修 3,所以回答起来确实很 吃力 ,感觉无从谈起。 访谈者:你在大学期间,学校是否开设统计学这门课程? 教师 B1:在我印象中,我们开设的是概率论与数理统计教程,但重点讲的是 概率
8、,统计作为选修,所以没有给予足够的重视,现在估计那时学得统计学知识也没 剩下什么了,通过教课还真得从头学起,因为统计内容在本轮课程中越加显得重要了 。 17 新增的统计内容,对许多教师都是前所未有的挑战,所以教师要面对现实,意识 到自己的不足加强自身的主观能动性,抓紧时间补上这一欠缺的内容。 1.5、形式概念相关定义形式概念分析(Formal Concept Analysis,FCA)由 Wille 于 1982 年首先提出18,用 于概念的发现、排序和显示,所有的概念连同它们之间的泛化/例化关系构成一个概念 格。 定义 1 形式背景 K :=(U,A, I ) 由集合 U 、A 以及它们之间
9、的关系 I 组成,U 的元素 称为对象(Instance),A 的元素称为属性 (attributes)。为了表示一个对象 x和一个属性 a 在 关系 I 中,可以写成样 xIa 或(x,a) I 。 定义 2 给定对象集合 U ,对于对象子集 X ? U ,定义 X:=a|aA,?xX,(x,a) I 表示”X 中全体对象所共有的属性集”。相应地,对于属性子集Y ? M ,定义 Y:=x|xU,?aY,(x,a) I 表示” 同时具有 Y 中所有属性的对象的集合”。 定义 3 形式背景 (U,A, I ) 中的一个形式概念是一个对(X, Y ) ,其中 X?U ,Y ? A , 满足:X =
10、 Y 且 Y = X 。X、Y 分别称为形式概念(X, Y ) 的外延(extent)和内涵(intent)。 L(U,A, I) 表示形式背景(U,A, I ) 所有形式概念的集合。 定义 4 如果(X1 , Y1 ) 和(X2, Y2 ) 是一个形式背景的两个形式概念,如果 X1 ? X 2 (等 同于 Y2 ? Y1 ),那么(X1, Y 1 ) 被称为(X2, Y2 ) 的子概念,(X2, Y 2 ) 被称为(X1, Y1 ) 的超概念, 并且我们记为(X1,Y1) (X2, Y2 ) 。关系 为形式概念之间的偏序关系。按此方式有序的 (U,A, I) 的所有形式概念的集合被表示为 L
11、(U,A, I ) ,并且被称为形式背景(U,A, I ) 的概 念格。 1.6、()统计法治化的概念统计法治化包含两个方面的内容:一方面是统计法律制度化,另一方面是统 计的法治化。前者是把在统计中形成的各种关系上升为法律借以调整各统计对象。 后者是统计法律的实施、统计法律的执行以及统计法律意识和水平的提高。 毛泽东主席曾经说过 :”不论做什么事,不懂得那件事的情形,它的性质, 它和它以外的事情的关联,就不知道那件事的规律,就不知道如何去做,就不能 做好那件事”。统计活动开始于人们对自然现象、社会现象的简单计量,随着社 7 一、相关概念及理论 我国统计法治化的现状剖析及对策研究 会生产力的发展
12、和社会的进步,人们越来越多地运用统计手段,也越来越深刻地 认识到统计的重要作用。到了商品经济发达、科学技术发展、社会分工很高,人 的活动领域的扩大,统计的作用也得到进一步发挥,已成为认识世界,掌握规律, 进行决策,管理国家的一个不可缺少的工具。由于对统计的需要程度大大提高, 不但引起了对统计的高度重视,而且还以富有权威的、能起普遍作用的方式来管 理和规范统计活动,调整在统计中形成的种种关系。将统计活动纳入法治化的轨 道,将统计活动与法律形式紧密地结合起来,使统计活动以法律为根据,由法律 来规范统计活动,调整在统计中形成的社会关系,保障统计基本任务的实现,这 就是统计法治化的基本内涵。 统计与法
13、律的结合,是由统计的任务和作用决定的,也是由法律的特殊地位 及其所具有的特点决定的。 1、统计法治化是国家管理活动的需要。在国家管理中时刻都离不开统计数据, 统计工作也时刻服务于国家管理。在这种情况下,必要的选择是应当由法律来确 定统计的地位和任务,依法建立国家统计制度,组织统计工作,使统计活动成为 以法律为根据,由法律来保障的国家管理行为,保证在国家管理中能正确地依靠 和使用统计手段。 2、统计法治化是调整各统计对象的需要。统计的涉及面很宽,国家机关、社 会团体、企业事业组织、基层群众性自治组织、个体工商户和公民都是统计调查 对象,要确定其在统计调查中的义务,维护其应有的权利,并保证统计机构
14、、统 计人员能够依照国家和社会的需要,取得真实的统计资料,就应当以法律形式作 出有关规定,以法律形式确定统计机构、统计人员、统计调查对象的行为规则, 调整其相互之间的关系,即形成普遍遵守的法律规范。 3、统计法治化是保证统计资料科学性、准确性的需要。我们所指的统计一般 是社会经济统计,它要求对社会经济现象作出数量化的描述,包括对国民经济的 整体描述,对社会经济现象之间相互关系的描述,以及涉及社会经济发展战略的 一些描述,人们要通过这种描述,观察和认识客观世界,进行决策。因此,要求 所掌握和使用的统计资料是完备的、全面的、系统化的,而不能仅仅是一些局部 性的、专题性的、零散的。要做到这一点,就需
15、要对统计资料的搜集、整理工作, 以法律来加以规范,确立科学的统计调查方法,制定有效的统计标准,坚持严格 的工作责任制度,以强有力地保证统计工作任务的完成。 8 我国统计法治化的现状剖析及对策研究 一、相关概念及理论 4、统计法治化是建立和维护有威慑力的统计秩序的需要。统计是国家和社会 管理的一项基础性工作。它要求统计调查对象履行应尽义务,统计机构、统计人 员尽职尽责。这就需要有正常的统计秩序,而建立并维护这种秩序,则应当具有 法律的威慑力量,依法有秩序地进行的统计活动。符合法律秩序的将被保护,依 法受益,违反法律秩序的将被惩罚,承担法律责任。法律以其威慑力有效地引导 或促使人们正确地从事统计活
16、动,遵守统计秩序。 统计法治化是在国家与社会的发展中形成的,并且日趋完善,这不仅在我国 存在,而且在世界上的很多国家中都已建立,尤其在一些经济发达国家中它有了 相当长的历史,这正说明了建立与完善统计法治化是一种共同的认识,客观的需 要,至于在各国的统计法律制度之间,会有一定的差别,那是与各国的社会经济 情况不同有关,但最重要的共同之点,或者说国际上共同的经验都表明,统计活 动应当是与法律相结合的,是必要的、是必须的。(二 )统计法治化的基本原则 统计法治化的基本原则,是统计法治化基本精神的体现,是统计法律所调整 的统计法律关系的集中反映,是贯穿于整个统计法律规范和统计活动中。对各项 统计法律制
17、度和全部统计法律规范起统率作用的准则。 1、统计立法的指导原则。为有效地、科学地组织统计工作,保障统计资料的 准确性和及时性。发挥统计在了解国情国力、指导国民经济和社会发展中的重要 作用,促进社会主义市场经济的顺利发展,这是统计立法的指导原则。这项原则 不仅是统计法律制度的立法指导原则,而且在其他的各项统计立法中,都要遵循 这项指导原则。只有确立正确的立法目的,立足于发挥统计的积极作用,才能进 一步规范并做好统计工作。 2、统计基本任务法定原则。这是指统计的基本任务是由法律来确定的,或者 说统计机构、统计人员具有法定的职能,由法律来确定统计的基本任务,实际上 就是确定了统计机构,统计人员有依法
18、统计的权利。在法律确定统计基本任务的 前提下,使整个统计工作纳入了法治化轨道,更有利于从实际出发组织统计工作。 3、调查对象依法履行义务的原则。这项原则的主要内容表现为三个方面:一 是统计调查对象的义务由法律作出规定,即统计调查对象具有法定义务,因为统 计是对社会经济现象总体数量进行调查研究的有计划有组织的活动,而总体数量 是由个体资料汇总形成的,所以各个统计调查对象有义务接受统计调查,因而, 9 一、相关概念及理论 我国统计法治化的现状剖析及对策研究 统计调查对象必须依照统计法律和规定,如实提供统计资料,即政府统计调查所 需要的情况;二是统计调查对象必须认真履行其法定的义务,对于应当提供的统
19、 计资料,不得虚报、瞒报、拒报、迟报;三是统计调查对象对于非法定义务的统 计调查有权拒绝,这对于制止乱发统计报表,维护统计调查对象的权利具有积极 作用。 4、建立集中统一的统计体制的原则。这项原则是依照我国国情和统计任务所 决定的,以求有效地、协调地、及时地对国民经济和社会发展情况进行统计调查。 首先,政府必须建立集中统一的统计系统,实行统一领导、分级负责的统计管理 体制。第二,就是按照这个基本体制确立政府统计机构的法律地位,负责组织和 协调全国统计工作。第三,就是明确各地方、各部门、各单位根据统计任务的需 要,设置统计机构、统计人员,即形成统计系统的各个组成部分。 5、统计资料真实性原则。它
20、的基本要求是统计资料必须真实可靠,符合实际 情况。统计应当如实地描述世界,才能发挥统计的职能作用。统计资料一但不真 实,无论是瞒报、虚报,或者是篡改、伪造,都将造成严重的危害,危害国家、 损及社会、误导决策、败坏风气、贻误工作,有些后果是严重的。所以,我们必 须要保障统计资料的准确性; 统计调查对象有义务如实提供统计资料,不得瞒报、 虚报、篡改、伪造;应当改进调查方法,提高数据的真实性;统计机构、统计人 员有权检查统计资料是否准确,并对不确实的要求改正;对于篡改统计资料,编 造虚假数据的行为要追究法律责任;以不真实的统计资料骗取荣誉或取得经济利 益的,予以取消并给予处分等。这些都是保证统计数据
21、质量,坚持真实性原则的 法律措施,在现实生活中有很强的针对性。 6、统计工作科学性原则。统计法治化的重要目的就是要以科学的理论、科学 的方法来组织、指导统计工作。统计法治化的科学性包括:科学合理地确立统计 管理体制,科学的统计指标体系,科学严密的统计标准,保证并提高统计资料整 理的质量; 采用先进的科学技术,加强统计信息处理、传输技术和数据库的建设, 以及还有一些有利于提高统计科学性的规范。 7、统计工作的独立性原则。包含以下几个意思:一是依法形成的统计资料, 任何人都不得自行修改; 二是即使确有错误也应由统计部门核实订正;三是统计 部门有权独立报送统计资料;四是统计部门独立地承担责任。这都是
22、围绕统计工 作独立性的要求而产生的,是以法律的权威来确立并维护它的。 10 我国统计法治化的现状剖析及对策研究 一、相关概念及理论 8、统计工作受社会监督的原则。统计具有真实性,同时又具有社会性、广泛 性,因此统计工作需要有社会公众的监督。一方面统计资料要公开发布,另一方 面监督的重点是弄虚作假等统计违法行为。 (三)统计法治化的职能 统计法治化是维护统计生命的有力武器,统计法治化工作的宗旨是依法保障 统计数据的真实性,所以统计法治化不仅仅在于可以保障统计工作的正常开展, 还有促进统计工作,规范统计行为的重要职能。 1、统计法治化对统计工作具有保障作用。统计法治化的神圣职责是运用法律 手段保障
23、统计工作的正常开展,坚决反对和制止在统计上的弄虚作假的违法行为, 依法保障数据的准确性。无论在何时,何种情况下,保障统计数据的真实性是统 计法治化永恒的主题,是统计从业人员所要追求的最高理想,如果这个功能不明 确,统计法治化就失去了意义。具体的说,统计法治化的保障功能贯穿于统计工 作的整个过程,它对统计管理体制的良好运行、统计日常工作的正常开展、统计 方法制度的贯彻实施、统计资料的管理和公布都起着重要的保障作用。 2、统计法治化对统计工作具有促进作用。从工作实践的角度来看,统计法治 化对统计工作有着无可替代的促进作用。它在推动统计改革、促进统计基础建设、 加强统计队伍建设等方面扮演着重要的角色
24、。 3、统计法治化对统计工作具有规范作用。统计法治化使统计工作走上法治化 的轨道,对我国统计工作现代化建设和统计改革起到规范和促进作用;对统计从 业人员、政府统计机构之间的内部关系、调查者与被调查者以及统计调查、使用 过程中形成的各种关系都有着规范、调节作用。 统计法治化的三大职能是有机统一、相辅相成的。所以正确认识法治化的三 大职能对统计工作的作用,有着重要的指导意义,这有助于围绕中心工作、与时 俱进地开展统计法治化工作。统计法治化三大作用是否得到有效发挥,是否保障 了统计工作,是否促进了统计工作,是否规范了统计行为,是评判统计法治化工 作成败得失的关键。 坚持和实行依法统计,推进统计工作的
25、法治化的关键就是要在统计工作的各 个方面和各个环节,实行依法管理,做到有法可依,执法必严,违法必究;要依 靠法治化手段维护国家利益,保护统计调查者、被调查者以及信息使用者等的合 法权益;要依法办统计,依法管统计,依法兴统计。 11 一、相关概念及理论 我国统计法治化的现状剖析及对策研究 为了坚持和实行依法统计,必须加强统计法治化建设:一是要建立完整的统 计法规体系;二是要增强统计法治化观念,增强所有调查者、被调查者以及广大 统计人员的统计法治化观念;三是要建立健全科学严格的执法制度和执法程序; 四是坚持依法治统与以德治统的有机结合。这是统计法治化建设的基本任务。 12 我国统计法治化的现状剖析
26、及对策研究 二、我国统计法治化进程和国外统计法治化的借鉴 1.7、数据质量的概念和评价指标目前,数据质量问题已引起广泛的关注。什么是数据质量呢?数据质量问题并 不仅仅是指数据错误。文献23把数据质量定义为数据的一致性(consistency)、正 确性(correctness)、完整性(completeness)和最小性(minimality)这 4 个指 标在信息系统中得到满足的程度。一般说来,评价数据质量最主要的几个指标是: 准确性(Accuracy): 准确性是指数据源中实际数据值与假定正确数据值的一 致程度; 完整性(Completeness):完整性是指数据源中需要数值的字段中无值缺
27、失的 程度; 一致性 (Consistency):一致性是指数据源中数据对一组约束的满足程度; 唯一性(Uniqueness):唯一性是指数据源中记录以及编码是否唯一; 适时性(Timeliness):适时性是指在所要求的或指定的时间提供一个或多个 数据项的程度; 有效性(Validity):有效性是指维护的数据足够严格以满足分类准则的接受 要求。 1.8、数据库概念设计数据库管理系统(DBMS)软件的实现都是基于某种数据类型的 ,因此数据模型是 数据库系统的核心和基础。人们需要把现实世界中的事物直接转化为计算机识别的对象, 即抽象为数据概念模型。概念模型的描述工具有 E-R 模型图。白洋淀水
28、环境信息系统概 念模型是对现实世界白洋淀水环境及其周围地物的认识和抽象,转化为数据库中的数据 模型。数据库建立过程如图 9 所示。 根据数据内容,白洋淀水环境信息数据库中设计有多个主题的数据表,数据表名称 及内容如表 2 所示。 图 9 数据库建立过程 18 第 3 章 白洋淀水环境管理信息系统总体设计 表 2 数据库中数据表及其内容 数据表名称 数据表内容 数据类型 用户信息数据表 用户信息,包括用户名、密码等 属性数据 基础地理信息数据表 行政边界、湖泊边界、居民点分布、水系分布 矢量数据 社会经济数据表 人口数量、畜禽养殖区、垃圾区、污水排放口、 矢量数据 水体中的总氮、总磷、氨氮、CO
29、DCr、BOD、PH 、 水质监测信息数据表属性数据 水温、Chl-a 等;底泥中总氮、总磷等 水质标准数据表 GB 3838-2002 地表水标准( 、) 属性数据 污染源和污染物排放村庄生活污水排放量、村庄生活垃圾产生量、畜 属性数据 数据表禽养殖污水产生量 水环境模型信息数据表 水环境模型参数描述 属性数据 统计分析数据表 监测数据统计分析、水质评价和水环境容量计算 属性数据 1.9、数据的概念数学辞海中对数据给出这样的解释,数据是对客观事物、事件的记录、描述,是 可由人工或自动化手段加以处理的数字、文字、图形、图像、声音等符号的集合16。从定 义中我们可以明显看出数据是注重形式的,其有
30、一定的可处理性。马费成教授在信息管 理学基础中认为数据是载荷或记录信息的,按照一定规则排列组合的物理符号。它可以 是数字、文字、图像, 也可以是声音或计算机代码17 。 M.Alavi 和 D.E.Leidner 认为数据 是原始的,除了存在以外没有任何意义18。数据是没有被解释的符号。不同领域的学者对 数据的理解不同,自然科学领域的学者认为数据是以数量形式给出,是实验、测量、观测、 调查等的结果,如实验数据、观测数据和统计数据等。管理学领域中对数据的研究普遍观 点是数据是事实的数字化、编码化、序列化和结构化。数据是形成信息的基础,是客观事 物的记录。 笔者认为,数据可以是数字、符号或代码等的
31、表示形式,单个数据本身是没有具体意 义的,但在特定的环境下,多个数据具有特定含义的。数据是一种资源,它可以作为结构 单元被存储和利用。 2、相关背景2.1、研究背景与意义景 1.1.1 研究课题背景 对于大多数数据相关的政府职能部门而言,数据采集工作占据着举足轻重的 地位,能否高效而准确地采集数据是经济、人口普查,以及各类防控工作能否顺 利完成并发挥其应有作用的关键。传统的数据采集工作往往需要人工采集数据, 不但耗时耗力,而且人为篡改数据的机会多,可控性差,数据准确性难以保证。随着电脑的出现,人类文明步入信息化时代,人类的生活生产方式得到巨大的改 进。对于数据采集工作而言,信息化使数据采集的自
32、动化和网络化成为可能,不 仅可以让人从繁杂的数据采集工作中解脱,还大大增强了数据采集过程的可控性, 提高采集数据的准确度。正是因为与传统数据采集方式相比,信息化数据采集方 式具有无法比拟的优势,国家对数据采集的信息化十分重视,通过”九五” 国家统计 信息工程力求我国的数据采集工作早日实现信息化。目前,我国的数据采集系统 和网络建设已经取得长足进步,但对于复杂的统计业务而言,统计数据库体系仍 远远无法满足其需求1。 统计数据库体系的建设之所以难以跟上业务需求的脚步,根本原因是缺乏统 一的数据交换标准,导致统计数据难以存储和广泛应用。其结果是各类统计系统 在设计和实现时采用无法兼容的数据标准,难以
33、进行系统间数据的共享,形成统 计信息中的 ”孤岛”,不仅阻碍了对统计数据的进一步开发和利用,还增加了进行数 据采集的工作人员因为不得不适应多套系统而产生的额外负担。同时,多套统计 系统并存是显而易见的重复开发和资源浪费现象。为了解决这些问题,提高统计 工作中数据采集的效率,解决统计系统内部统计应用系统多而乱的问题,减少重 复开发,避免资源浪费,同时减轻基层统计人员的工作负担,国家统计局采取”顶 层设计,统筹规划,资源共享”的统计信息系统建设原则,加强统计信息系统的建 设力度,力求建成一个统一而完善的统计数据采集处理系统,进一步开发利用统 计数据2。 综上所述,统计信息系统建设面临的主要问题是没
34、有一种可以在现存的统计 应用软件间共享的统一数据交换标准,使得统计数据无法集中存储,各软件和系 统无法共享数据和信息,造成统计软件的重复开发和资源浪费,增加集成统计工 作人员的负担。基于这样的背景,开发一种统计信息系统实现各种统计应用软件 1 的协调,并最终将各项统计业务归口到此统计信息系统来完成成为不二选择3。 具体到都江堰市统计局的统计部门实际情况,经过深入调研,我总结出如下 的问题: 1. 信息化意识较弱 由于我国的信息化起步较晚,发展快,发展时间短,许多群众和干部对统计 系统的信息化缺乏了解,不知道信息化与统计信息结合所能带来的巨大好处,对 计算机的认识仅仅停留在文件编辑和打印等低层次
35、的使用,更谈不上在工作中利 用信息化来提高工作效率。2. 资金投入有限 统计信息部门的经费有限,要花费大量资金维持旧系统的正常运作,确保日 常统计工作的正常进行,所以投入到系统的升级换代上的资金十分有限。 3. 统计软件更新较快 目前统计系统内部大多使用的都是过去自行开发的系统内部程序,由于基层 各部门技术实力参差不齐,大部分程序使用并不方便。信息技术是个飞速发展的 领域,软件更新换代速度快,周期短,新概念和软件层出不穷,统计系统内部同 时使用着不同技术时期的统计软件,难以统一。 现在处理统计数据时使用的系统有 SARP、久其等各类新程序,但大多程序都 是由统计内部自行开发,在使用过程的效果不
36、是很理想,例如: 工业、商贸等专 业,软件的各种参数更新太快,以至于有些计算公式编写不太完善。在对报表单 位布置工作时,月报、季报、年报等基本上是自上而下布置,自下而上汇总,统 计软件的快速更新使得报表单位有些应接不暇。 4. 统计信息网管理落后 目前的统计信息网络系统起步晚,并且缺乏统一规划,各基层统计部门的网 络不统一,难以有效发挥网络系统应有的信息共享更能。 5. 复合人才缺乏 统计分析是个传统部门,在统计系统内部,工作人员年龄构成偏大,思维固 化,难以完全掌握信息化的工作方式。而新员工虽然比较容易掌握信息化的工作 方式,但由于接触业务的时间较短,往往业务知识储备不足,难以将信息化与业
37、务完美融合。所以,缺乏能将信息化技术完美融入传统业务的复合型人才。 2.2、大数据背景下对统计教育的思考大数据时代的到来,数据成为企业了解市场竞争环境与自身发展趋势的依据, 数据人才对于企业来说变得越来越重要,Hortonworks 公司 CEO 表罗波 比尔表示 “在我的职业生涯中,这可能是我所看到的最大的供需之间的不平衡。 ”据统计, 目前职场中,符合资质的数据科学家基本只能满足 20%的供求,其中大部分公司由 于招不到合适的数据人才,纷纷从国外吸收数据专家,而国内由于大数据起步较晚, 教育系统还没有建立起对数据科学家的培养模式,而统计学一直是研究数据的学科, 因此从统计学入手培养数据科学
38、家具有得天独厚的优势。 数据科学家是 21 世纪最热门的职业之一。统计学如何借助大数据这趟顺风车, 利用统计学的传统优势,推进统计学教育改革,培养大数据人才,促进统计学科发 展,是急需我们思考的。 2.3、研究背景概述景 1.1.1 研究的背景 “科技资源”是指科技领域的信息资源(科技文献、科技数据等) 和实物资源(动植物标本、大型科学仪器设备等)。信息网络、数据、 文献资料等科技资源的广泛社会共享,是充分利用知识积累和众 人智慧,提高科研水平和效率的有效途径1 。经过多年的积累,我 国拥有了丰富的科技资源,这些资源具有结构复杂、类型多样、 数量巨大、地理分布广的特点,为发挥科技资源的作用,必
39、须对 其进行合理组织和管理,通过数字化、结构化、网络化形成有一 定内在关系的、可共享的科技资源信息。 “信息检索”对信息进行有效组织,实现数据的高效查询。 信息组织是对被检索对象进行处理并建立索引,形成一个便于检 索的信息集; 数据查询则是通过输入关键词或查询条件,在已建 立的信息集中找出和查询条件相匹配的信息并返回结果2 。 目前,我国科技资源的现状有如下特点: 数据量大。 我国科技平台存在动植物标本、科学数据、文献档案、大型科学仪器设备等多种科技资源,且数据量巨大。 资源类型复杂。 科技平台中既有数字化的图片、数据、科技文献等信息 资源,又有矿藏标本、仪器等实物资源。 2 数据存贮结构复杂
40、。 各种资源建库年代不同,存储方式及数据库类型千差万 别。 数据存贮地理位置分散。 各类资源分布在各地、各单位,相互之间是信息孤岛。 随着海量信息的出现以及计算机存储技术的发展。文献数据 库正由书目数据库向全文数据库转变。这一转变使得全文检索技 术得到空前的发展。常用的实现全文检索的方法主要有以下两种 : 第一种方法是不对数据库建立索引而直接对文章进行匹配的 方法。这种方法由于没有建立索引库,因此所占空间较少。但同 时正是因为它没有索引库,所以在进行全文匹配时要花费大量的 时间。 第二种方法则是一种为全文建立倒排索引库的方法。这种方 法可以大大节省检索的时间。但同时,这种方法需要占用一定的 存
41、储空间来建立索引库。目前,国内外对全文检索的研究可以说 是达到一个高潮。许多研究机构和商业组织都在进行这方面的研 究。国际最具影响力的全文检索评估机构当属 TREC。它是由美国 技术标准研究所(NIST)和美国高级研究计划局(DARPA) 共同举办, 自 1992 年以来每年一次的全文检索评估会议。会议参加者带来研 究的检索系统以供专家进行评估。传统的信息单位图书馆等也开 始建立全文数据库,引进各种全文检索技术。一些软件公司,也 纷纷推出全文检索软件。国内比较有代表性的如 TRS 等,而国外 比较著名的有 Microsoft 公司开发的 SQL Server 2000。 3 2.4、背景正如引
42、言中介绍的,Schwinger 表象8和 Holstein-Primakoff 变换9都没能用 单个的 Bose 算符实现角动量 su(2)代数,Schwinger 表象用的是两套 Bose 算符, ? ? ? ? ? ? 1 2 2 1 1 2 2 1 1 1 2 2 1 2 1( ), 1 ( ),1 ( ) 1 ( ) Jx=2 a a + a a J y = 2i a a ? a a J z = 2 a a + a a = 2 N ? N 。其中 ? ? N1= a1 a1, N 2 = a2 a2 。而 Holstein-Primakoff 变换虽然表面上看用的是一套 Bose 算
43、符 但 是 对 于 最 大 占 有 数 N 有 一 定 的 限 制 , 12 , 1? 2 , , ( 0,1, 2 ) J+=2 j ? Na J ? = 2 a j ? N J z = j ? N N = j 。我们知道符合 Bose-Einstein 统 计 的 最 大 占 有 数 应 该 是 没 有 任 何 限 制 条 件 的 , 因 此 Holstein-Primakoff 变换也不能算是真正用一套 Bose 算符来实现角动量。所以文 献2尝试用一套符合 Gentile 统计1 的算符来实现角动量 su(2)代数。 文献2中计算了 n = 1,2,3,4,5 这五种情况。对于 n =
44、 1 ,也就是 Fermi 子情况 ?, , z2 J+= a J ? = a J = N ?n 可 能 的 态 有 两 个 :0n= 1 , 1 n =1 , 对 应 角 量 子 数 j = 1/2 的 2 个 态 1/ 2j=1/ 2 , ? 1/ 2 j =1/2 。同样当 n = 2 时,有 3 个态 0n =2 , 1 n= 2 , 2 n= 2 ,对应角量 子数 j = 1 的 3 个态?1j =1 , 0 j =1 , 1 j =1 。这时的角动量形式为 2 ? , 2 , z2 J+= a J ? = a J = N ?n 那么 n = 3 时,有 4 个态 0n= 3 , 1
45、 n= 3 , 2 n =3 , 3 n =3 ,对应 j = 3/2 的 4 个态 ?3/ 2j=3/2 , ? 1/ 2 j= 3/2 , 1/ 2 j =3/2 , 3/ 2 j = 3/2 。角动量的形式为 J+=1? a ? + 2? b? , J ? = 1 a + 2 b, Jz = N ? n2 天津大学硕士学位论文 第六章角动量代数的 Gentile 统计实现 - 48 - 其中 ( )( ) 3/ 4 1 1/4 2 2 2 1 / 2 2 2 1 i ? = + + = ? n =4 的角动量的形式与 n = 3 的一样,只是各项系数有所不同。 J+=1? a ? + 2
46、? b? , J ? = 1 a + 2 b, Jz = N ? n2 1 2 25 5 5 182 5 370 2 5 3 5 62 158 4 4 5 522 5 5 i =? ? + ? ? + + + = ? ? 最后 n = 5 的角动量的形式与前面的形式有些差别,稍微复杂些 J+=1 ?a ? + 2 ? b? + 3? a ? aa ? , J ? = 1a + 2b + 3aa ? a, Jz = N ? n2 ( ) ( ) 1/ 2 1/4 1 2 1/ 2 3 9/ 2 1/ 3 3 0 1/ 3 1/ 2 i i = ? ? = = ? 6.2 角动量代数的 Genti
47、le 统计实现 本章继续文献2的工作,采用另外的三种方式实现角动量代数。 首先我们先来普遍考虑 J?,J?,Jz 的实现方式。 根据角动量的普遍理论14J?,J?,Jz 满足 J+ , J ? = 2 J z (6.1) Jz , J = J (6.2) 原则上 Jz 的形式是任意的,只要满足式(6.1)(6.2),我们猜测 Jz 的形式为 z2 J= N ?n (6.3) 这种 Jz 的形式是最简单的,下面我们来说明这一点。 | | | z n2 n 2 n J? =? N ?n ? ? = ? ? n ? ? (6.4) ?从 0 取到 n, Jz 从?n /2 取到 n? n /2 =
48、n /2 共 n ? 1 个。我们知道,磁量子数 m 天津大学硕士学位论文 第六章角动量代数的 Gentile 统计实现 - 49 - 的取值范围是?j 取到 j 共 2j ? 1 个。其中 j 为角量子数。因此我们得到 1 2 1 2 n+ = j + ? j =n (6.5) 再由Jz 的磁量子数从?j 取到 j 共 2j ? 1 个。所以这就验证了(6.3) 2.5、选题的背景容进入数学课程的必要性 1.1.1 统计内容进入数学课程的必要性 数据能够帮助人们认识世界、做出决策和预测,而统计正是研究如何合理收集、整 理、分析数据的学科,它可以为人们制定决策提供依据和建议。 (1)统计内容进
49、入数学课程是学生适应现代社会的需要 基础教育的重要目标是培养适应现代社会的合格公民。而在以信息和技术为基础的 现代社会里,充满着大量的数据,人们在面对各种信息和数据时需要做出合理的决策, 而要使人们做出合理的决策,就需要具有一定的收集数据并处理信息、做出决策的能力, 能对纷繁复杂的信息做出恰当的选择与判断,并能进行有效的表达与交流。生活中的很 多数据都是”杂乱” 的,但并非”无章”,如何发现其中的规律,如何利用这些规律提 高生活质量,是现代人必须面对的问题。 (2)统计进入数学课程有助于培养学生形成数据意识 以前我们在高中数学教学中明确提出三个基本能力,即计算能力、逻辑推理能力和 空间想象能力。 普通高中数学课程标准(以下简称标准) 中提出了五个基本能力: 计算能力、逻辑推理能力、空间想象能力、抽象概括能力、数据处理能力。与以往的数 学教学大纲相比,标准增加了抽象概括能力和数据处理能力,增加抽象概括能力 和数据处理能力反映了对数学课程认识上的变化。而数据意识是在学生处理数据过程培 1 养起来的,数据意识甚至比