1、关于公安大数据建设应用及其“四化模 式”的思考 李伟 张大伟 赵海龙 山东省烟台市公安局 摘 要: 用大数据思维解决问题, 以数据为核心, 分析、查找、预测事物的内在联系, 反 映了当前公安工作的新需求。 公安大数据应用在情报预警、 综合指挥、 案件侦破、 社会治安、公共服务等方面都存在巨大的利用空间。用大数据思维采用模式化手 段通过建立数据标签、数据模型、应用模型等方法, 实现大数据的落地应用, 可 及时发现公共安全隐患, 实现精准打击。 关键词: 大数据; 标签化; 模型化; 情报模型; 工具集; 1 引言 近年来, 随着计算机和信息技术的迅猛发展和普及应用, 公安行业应用系统的 规模迅速
2、扩大, 公安行业应用所产生的数据呈爆炸性增长。动辄达到数 TB甚至 数十数百PB规模的公安大数据已经远远超出了现有传统的计算技术和信息系统 的处理能力。因此, 寻求有效的大数据处理技术、方法和手段已经成为现实社会 的迫切需求之一。 为适应公安工作新形势的需要, 我们提出了要实现互联网、公安网、视频专网、 共享服务平台引入的公共资源数据和涉密网数据等数据层面的全面融合。 传统的 关系型数据库由于无法解决大数据存储、 计算和分析的问题, 使我们在进行这项 工作时面临无法解决的瓶颈问题。以 hadoop 为代表的大数据框架给我们带来了 解决契机, 分布式框架可以提供海量数据的存储、计算和分析的能力。
3、但并不是 仅仅把数据导入大数据框架中, 数据就能产生效力, 就能用好大数据的计算能 力。 本文探讨如何采用数据“四化模式”建立大数据综合应用体系, 其中数据“四 化”指数据标准化、数据标签化、数据模型化和数据应用化, 是公安大数据建设 应用及处理的核心内容。 2 大数据整合 2.1 数据平台 大数据平台建设是系统建设的基础, 平台的设计和搭建从以下几个因素考虑: 1) 存储架构:平台存储架构的选择上要充分考虑数据来源的多样性和复杂性, 针对不同的数据类型和存储限制采用多元化的存储架构以满足平台建设的要求。 2) 计算架构:海量数据的分析和计算要求需要一种高吞吐量、灵活 v水平扩展、 能处理极大
4、规模数据、具有极强的容错性、应用表达便捷灵活的计算架构。 3) 技术开放:所有组件均采用主流开源社区的最新稳定版本, 紧跟技术的发展 分享技术进步的便利;依托原生社区获得最快更新和最稳定的服务。 4) 平台普适:集成先进完善的计算模式与技术, 支持批量计算、内存计算、流计 算、图计算等计算模式;覆盖数据集成、数据存储、数据治理、数值分析、数据 挖掘等技术。 5) 运维简单:采用中文导向式安装。节点与组件的安装、资源管理配置、运行参 数等均可图形化配置管理;支持动态资源监测, 集群节点运行状态、资源利用情 况、作业跟踪等均提供可以在线监控、图形化展示。 6) 安全可靠:主要组件采用 HA 设计;
5、基于分布式文件系统提供多份数据拷贝确 保数据安全;具备计算容错能力, 在节点丢失、硬件故障造成的数据丢失以及计 算异常时具备自动重算能力, 确保计算结果完整可信。 7) 柔性扩展:平台支持动态资源识别;支持通过添加节点的方式进行水平扩展; 在硬件计算资源不一致时支持分组资源规划进一步提高资源利用率。 软件服务平 台支持可视化自定义功能配置, 按需扩展功能。 2.2 数据治理 数据治理是为满足信息需求, 提升信息服务水准制订的相关流程、政策、标准以 及相关技术手段, 用于保证信息的可用性、可获取性、高质量、一致性以及安全 性。数据治理体系建设的目的是建立数据拥有者、使用者、数据以及支撑系统之 间
6、和谐互补的关系, 从全视角协调、 统领各层面的数据管理工作, 确保内部各类 人员能够得到及时、准确的数据支持和服务。 由于数据的来源广泛, 结构繁杂, 造成大数据体量大而价值密度低的特点, 因 此要对集成到大数据平台中的数据进行清洗筛选, 去除冗余、 错误的数据, 引入 数据质量综合评价标准以及单个数据项的技术指标含义、 取值范围等, 定义面向 大数据的数据质量度量指标, 使得清洗和修正后的数据能够满足数据分析挖掘 的需要, 保证数据质量及可靠性。 2.3 数据整合 数据整合, 主要是指基于分散的信息系统的业务数据进行再集中、 再统一管理的 过程, 是一个渐进的过程, 只要有新的、 不同的数据
7、产生, 就不断有数据整合的 步聚执行。 公安行业经过多年信息化发展, 凌乱、 重复、 歧义的数据接踵而至, 以 往我们建立一个数据仓库系统来提高领导层的决策意识, 加快市场战略调整行 动;现在我们需要建立一个大数据中心来集中交换、分发、调度、管理挖掘内、 外网数据, 实现数据融合。 3 大数据“四化”应用 公安大数据条件下, 采用数据“四化模式”建立大数据综合应用体系, 可从各 类型的海量数据中, 快速获得有价值信息。 通过数据标准化和数据标签化方法来 完成数据治理及数据整合;通过数据模型化来完成算法和应用模型的结合;通过 数据应用化提供可视化应用及全警云化工具集, 让基于大数据的业务应用变的
8、 直观简单。具体大数据综合应用工作分为以下步骤: 1) 数据标准化 (数据抽取、过滤、转换、装载、关联和校验) 2) 数据标签化 (建立标签体系) 3) 数据模型化 (建立基础自动化应用模型) 4) 数据应用化 (数据可视化管理、标签管理、数据应用工具集和业务模型管理) 3.1 数据标准化 在数据标准化过程中抽取、过滤和转换统称数据清洗。 图1 大数据“四化模式”示意图 下载原图 1) 数据抽取:通过数据抽取工具把各业务数据数抽取到转储数据库中, 这一步 骤执行的操作为“抽取”。产生的数据是转储数据。 2) 数据过滤:对转储的业务数据, 根据定义的数据过滤规则进行过滤。 产生的数 据是问题数据
9、库。 3) 数据转换:定义好数据转换的规则, 对经过第一步过滤的数据, 进行转换。 产 生的数据是经过转换的数据。 4) 数据关联 (重点) :对转换完成的数据查找关联, 存储关联。 5) 数据装载:把建立好关联信息的数据同时按照要素和层次进行组织。 把完成前 面步骤的数据装载到专题数据库中, 产生的数据是经过整合的专题数据库。 6) 数据校验:对完成整合的业务数据通过定义好的校验规则进行数据校验, 找 出第二批的问题数据, 使得数据的质量进一步提高。 3.2 数据标签化 公安数据标签化能够推动数据到信息的升级;能够推动公安数据跨地区、 跨部门、 跨警种的共享共用;能够推动公安模型的发展, 表
10、达和预测要素深层含义和关联 关系, 进行风险评估等。 根据公安信息五要素, 对于结构化数据, 我们建设五类标签, 分别是人员标签、 物品标签、地点标签、案事件标签和组织关系标签;对于半结构化和非结构化数 据我们将其结构化处理后按照结构化数据标签的划分规则进行划分, 从不同渠 道、不同口径、不同来源、不同结构对公安业务对象进行统一的分类管理。 3.3 数据模型化 数据建立标签后, 实质已经对数据进行了初步分析, 在简单研判应用 (针对一 个特征的应用) 时, 可以直接进行应用。从这个角度上讲, 标签即是最基本的 “数据模型”, 标签和模型并没有严格意义上的界限和区分。 标签可以看作基本 数据模型
11、, 而且需要复杂研判时 (针对多个标签的综合应用或者针对标签加数 据项的应用) , 应适配一定数学算法, 建立数学模型进行综合判定。 这里的数据模型化工作应考虑建设两类:模型管理系统和基础业务模型。 3.4 数据应用化 基于大数据分析的数据应用化是一种业务层面的智能服务理念, 一方面我们完 成了业务数据化, 方方面面的公安数据、 社会数据汇集起来构成了实时在线的大 数据流, 一方面我们又通过大数据分析、信息挖掘、信息预测来为全警提供高端 业务应用。 在我们的设计中数据应用化包含三方面的应用服务:情报专业应用、全警业务应 用和其它警种专业业务应用。 3.4.1 情报专业应用 情报专业应用主要为情
12、报分析部门和指挥部门提供重点人员一体化管控的常规 应用和社会感知预警、犯罪感知预警、工作质态评估等高端情报应用。 3.4.2 全警业务应用 全警业务应用为公安全警提供检索、查询、比对服务及包含可视化分析工具、人 员全景视图工具、多维分析工具、公安文本 (情报线索) 识别分析工具、潜在人 员特征识别分析工具、一体化人员管控工具、潜在关系探查工具、全息地图、大 数据服务推送工具在内的业务工具集。 3.4.3 其它警种专业业务应用 由于大数据能够更准确、更及时、更全面、更完整地记录信息, 本部分内容旨在 为专业警种在侦破大数据和执法大数据方面提供支撑。 通过计算机算法对大数据 进行研究、分析, 使过
13、去点对点的个案侦办, 转到从宏观的、微观的数据层面来 研究犯罪。 4 结语 本文用数据核心思维方式思考问题, 解决问题。以数据为核心, 分析、查找、预 测事物的内在联系, 反映了当前公安工作的新需求。 采用数据“四化模式”建立 大数据综合应用体系, 通过数据标准化和数据标签化方法来完成数据治理及数 据整合;通过数据模型化来完成算法和应用模型的结合;通过数据应用化提供可 视化应用及全警云化工具集, 让基于大数据的业务应用变的直观简单, “四 化”模式的建立适应大数据背景下公安行业信息化的发展, 具有较高的实战价 值。 参考文献 1黄宜华.深入理解大数据:大数据处理与编程实践M.北京:机械工业出版社, 2014. 2张宁, 袁勤俭.数据治理研究述评J.情报杂志, 2017 (5) . 3杨令省, 唐金文.治安信息五要素智能搜索引擎研究及应用J.微型机与应 用, 2011 (7) . 4崔莹琰, 谢福成.大数据环境下商业银行客户标签体系的构建J.中国金融 电脑, 2014 (11) .