1、2015 年第 28 卷 第 2 期Electronic Sci. Tech. /Feb. 15, 2015图像 编 码 与软件www. dianzikeji. org收稿 日 期 : 2014-08-09基金项目 : 西安市科技计划基金资助项目 ( SF1404)作者简介 : 姬倩倩 ( 1986) , 女 , 硕士研究生 。研究方向 :信息管理 , 数据挖掘 。E-mail: jiqianqian456 163. com。温浩宇 ( 1972) , 男 , 教授 , 硕士生导师 。研究方向 : 电子商务 ,信息系统 。doi: 10. 16180/j. cnki. issn1007 782
2、0. 2015. 02. 034公共交通大数据平台架构研究姬倩 倩 , 温 浩宇( 西安电子科技大学 经济与管理学院 , 陕 西 西安 710126)摘 要 针对公共交通数据跨公司 、跨系统 、海量 、异构的现状 , 提出了公共交通大数据平台的核心思想 , 并依此给出了公共交通大数据平台架构 。从个人 、企业 、政府的需求出发 , 建立了集成公共交通车辆的全方位调度 , 其中以数据仓库的方式集成数据层 ; SOA 的方式设计逻辑层 ; Portal 的方式展现表现层 。该架构有利于整合公共交通各系统的数据资源 , 同时能较好地适应海量数据的存储和处理 , 为构建智能交通提供参考 。关键词 交通
3、工程 ; 大数据平台架构 ; 数据集成 ; 公共交通 ; 智能交通中图分类号 TP274+. 2; U491. 1 文献 标 识码 A 文章编号 1007 7820( 2015) 02 127 04Big Data Platform Structure in Public TransportationJI Qianqian, WEN Haoyu( School of Economics and Management, Xidian University, Xian 710126, China)Abstract For current situation of public transporta
4、tion data cross-companies, cross-system, massive and het-erogeneous, this paper presents the core idea of big data platform structure in public transportation, and gives bigdata platform structure Considering individuals, businesses, governments needs, a full range of integrated publictransportation
5、 vehicles scheduling are established Data layers are integrated into the data warehouse, logic layersare designed with SOA, and presentation layer is shown with Portal The architecture is conducive to the integrationof various systems of public transport data resources, adapting to mass data storage
6、 and processing and providing areference for building intelligent transportationKeywords traffic engineering; big data platform structure; data integration; public transportation; intelli-gent transportation科学 分析交通管理体 系成为改善城市交通的关键 , 为缓解巨大的城市交通压力 , 传统的思维模式是通过加大基础设施投入来改善交通拥堵 , 但这种解决模式因受到土地资源的限制 , 在一定程
7、度局限性较大 , 且不利于交通发展 、城市空间发展以及土地利用发展这三者之间的整合 。现阶段公共交通系统已产生海量的数据 , 将这些海量 、分散 、异构的信息资源集成起来 , 达到共享 、融合并形成一定的应用模式 , 从中分析和挖掘出潜在的价值 , 去解决公共交通的瓶颈问题 , 是将大数据应用于公共交通领域的重要举措 。传统的异构数据集成方法无法适应海量数据条件下对数据的集成 , 因此 , 在 “大数据 ”时代针对公共交通架构平台问题的研究具有一定的理论价值和实践意义 。1 公共交通大数据的来源 、特征 及 需求1. 1 公共交通大数据的来源大 数 据 并不是一项技术 , 而是由于不断增长的数
8、据量和数据种类而逐渐衍生出来的一种现象 。信息技术的高渗透性和高集成能力 , 为交通信息化建设提供了充分的技术支撑 , 有效地改善和提升了传统的交通产业 。大量公共交通设施和系统的投入使用 , 在改善公共交通服务水平方面发挥了重要作用 , 但与此同时也产生了海量的数据 。城市中的公交车 、出租车 、地铁以及可租赁自行车等不同公司下的软件系统 、自助服务终端 、刷卡设备 、传感器 、GPS、车载设备等收集到的数据是公共交通大数据的主要来源 。我国大部分城市的各类交通运输管理主体分散在不同主管部门 , 涉及交通的 “有关部门 ”超过 10 个 , 每个部门都有自己的信息化系统 1。以西安 为例 ,
9、 其交通智能化分析平台的数据源自路网摄像头 /传感器 、地面公交 、轨道交通 、出租车以及省际客运 、旅游 、化危运输 、停车 、租车等运输行业等 ; 公交线路有 379 条 , 公交721图像 编 码 与软件 姬倩 倩, 等 : 公共交通大数据平台架构研究www. dianzikeji. org车辆 有 7 000 多辆 , 公交卡刷卡记录日均 200 多万条 ;地铁日均刷卡记录 16 万条 。1. 2 公共交通大数据的特征综上所述 , 公共交通服务数据的体量巨大 ( Volume) ,来 自企业政府部门的数据量正在从 TB 级跃升到 PB级 ; 公共交通服务数据类型繁多 ( Variety
10、) , 包括来自政府的路网监控数据 、企业的调度数据 、车辆的 GPS 数据 、市民在各种交通工具上的刷卡数据等 ; 公共交通服务数据的实时性要求高 ( Velocity) , 不断变化的公共交通 客流数据需要及时被计算和反馈给调度人员和决策人员 ; 公共交通服务数据的价值密度低 ( Value) , 但商业价值高 , 比如公交车载 GPS 和车载视频监控连续不断发回大量数据 , 但对于特定的管理行为来说 , 只有较少的数据需要被调用或计算 , 因此如何在海量的数据里发现价值是一个需要解决的问题 。公共交通服务数据符合大数据的 “4V”特征 2 3。1. 3 公共交通大数据的需求用 户个性化的
11、服务需求需要公共交通大 数 据平台的支持 。随着社会信息化的不断深化 , 乘客已不满足于传统的公共交通服务 , 而是个性化的智能交通出行服务信息 。对于基于大数据的增值服务的需求越来越明显 , 乘客希望通过各种设备方便地查询公共交通系统的线路信息 、调度信息和实时状况 , 甚至自动优化出行线路和出行方式 4。这些 最 “小 ”的服务需求却需要公共交通大数据平台的支持 。公 共交通运营单位需要通过公共交通大数据平台的引导 , 实现实时高效的车辆调度 , 不断提高运输能力 , 提升服务水平 , 增强公共交通的竞争力和吸引力 ,使公共交通成为人们出行的首选工具 。智慧城市的建设需要构建公共交通大数据
12、平台 。2013 年 9 月 27 日 , 科技部 、国家标准化管理委员会将西安 、南京 、成都等 20 个城市列为国家智慧城市试点示范城市 。传统的交通管理很难实现交通的动态化管理 , 政府需要通过分析 、挖掘海量的交通数据中的有效信息 , 结合已有经验和数学模型等生成更高层次的决策支持信息 。为交通诱导 、交通控制 、交通需求管理 、紧急事件管理等提供更加有力的决策支持 , 辅助对交通管理制定出较好的统筹和解决方案 5。2 公共交通大数据平台构建2. 1 大数据平台核心思想公 共 交 通大数据平台的核心思想如图 1 所示 , 其包括 : ( 1) 统一应用平台 : 支持客户化开发 、应用集
13、成 、部署 、个性化配置 、运维管理等应用全生命周期管理 。( 2) 开放 、标准与跨平台 : 从基础设施 、服务器 、操作系统 、数据库 、中间件 、编程语言 、客户端等层面支持行业标准和跨多个平台 。( 3) 业务与技术分离 : 基于平台开发应用时只需关注业务 , 基础技术包括事务 、安全 、并发 、日志等均由平台提供 。( 4) 按需组合 : 公共交通大数据平台采用松耦合的设计方式 , 可以根据需要组装各个部分 。图 1 公共交通大数据平台核心思想2. 2 大数据平台整体架构图 2 中 给 出 了公共交通大数据平台架构 , 采用分层构建的方式 , 并综合大数据平台的核心思想 , 将公共交
14、通大数据平台分为 : 自底向上为数据来源层 、大数据数据层 、大数据逻辑层和大数据表现层 。这个架构体系综合了从数据的生成 、组织 、存储 、查询 、分析到服务的一系列过程 , 可为构建智能交通提供参考 。图 2 公共交通大数据平台架构数据 来 源层通过车载设备 、GPS 技术 、传感器 、一卡通设备 、自助服务终端等收集交通数据 , 使用移动互联网 、卫星 、网络等与大数据数据层进行实时 、分时或离线通讯 , 再通过网络将各种方式采集的数据或人为821姬倩 倩 , 等 : 公共交通大数据平台架构研究图像 编码 与 软件www. dianzikeji. org加工的数据统一传输和存储到大数据数
15、据 层 。数 据层采用数据仓库的数据集成方法 , 通过和数据挖掘技术结合 , 从海量繁杂的数据中真正找出有价值的信息和知识 。逻辑层基于 SOA 的公共交通大数据平台逻辑层技术分析 , 实现跨公司 、跨系统的公共交通智能调度 。用户通过普通浏览器 、客户端应用程序 、平板电脑 、手机等各类终端访问表现层 , 基于 Portal 的显示技术满足用户个性化的显示需求 , 并与数据层 、逻辑层的扩展模型相适应 。2. 3 数据层集成公共交通管理数据的多元异构性是其主要特征 。从组成的角度看 , 海量的大数据包括结构化 、半结构化数据和非结构化数据 6。对于半结构化数据和非结构化 数据 的集成 , 可
16、采用基于 NoSQL 等技术进行集成 。由于半结构化和非结构化数据并非公共交通信息系统的主要数据 , 本文就不再赘述 。对于海量的结构化数据的集成方法 , 从实现的体系结构角度出发 , 主要有联邦数据库 、中间件技术和数据仓库技术 。联邦数据库通过对不同来源的数据格式进行转换 , 达到各系统之间的通信 、交流和信息传递 。但因需要编写大量的接口程序 , 开发难度和系统的耦合性较高 , 因此并不适用于公共交通行业 。中间件技术是通过软件的方式将异构数据转换成预先设计好的数据模式 。但该方法不适于改变数据的存储和管理方式 , 对于实时多变的公共交通数据并不适用 。数据仓库提供了容纳大量信息的场所
17、, 通过与数据挖掘技术的结合 ,可从海量繁杂的数据中真正找出有价值的信息和知识 7。因此 , 本 文 认为数据仓库的数据集成方法更适合应用于公共交通大数据平台 。基于数据仓库技术体系结构的公共交通大数据平台数据层如图 3 所示 。图 3 基于数据仓库技术体系结构的公共交通大数据平台数据层预先 设 计好的全局模式 , 把来自各个公共交通行业的公司不同的数据副本按照统一的要求和格式进行抽取 、转换和加载 ( ETL) , 构成数据仓库 。按照统一规则从数据源抽取出所需的数据 , 经过数据清洗和转换 ,其间还要进行过滤 ( Filtering) 、汇总 ( Summary) , 或与其他数据源的信息
18、合并 ( Merging) , 最后按预定的数据仓库模型 , 将数据加载到数据仓库中 。数据仓库中可使用多维模型 , 在 OLAP 上对数据进行钻取 、上卷 、切片 、切块和旋转 , 多视角观察和分析数据 8。2. 4 逻 辑 层 集成在公共交通大数据平台中 , 逻辑层是实现公共交通信息共享的核心层次 。要构建一体化公共交通体系 , 发展多层次公共交通服务 , 车辆调度就是一个重要问题 。要集行业 、企业两级平台于一体的调度体系 , 实现公交运营智能化调度 。面向服务的体系结构 ( Service Oriented Architecture, SOA) 能将调度业务转换为一组相互链接的服务或可
19、重复业务任务 。通过使用基于XML 语言的 Web 服务描述语言 ( Web Services DefinitionLanguage, WSDL) 来描述各公共交通公司的系统接口 ,促使服务转向更动态 、更灵活的接口系统中 , 同时以标准接口的形式向外发布服务 , 无需考虑与技术相关的细节 , 从而达到跨系统 、跨平台的目的 。同时 SOA 架构中中立接口的定义特征使服务之间的松耦合系统更具灵活性 , 从而公共交通系统不会随着应用程序的服务内部结构和实现的变化而变化 9。鉴 于 此 , 使用业务流程执行语言 ( Business ProcessExecution Language, BPEL)
20、 和 Web Services 技术 , 建立了基于 SOA 的公共交通大数据平台逻辑层如图 4。图 4 基于 SOA 的公共交通大数据平台逻辑层从图 4 可知 , 此 模型从逻辑上分为 3 部分 : ( 1) 应用实现模块 。这部分完成对调度逻辑的实现 , 通过相应的编程技术完成具体功能的实现 。可使用较为成熟的设计模式构建调度应用程序 , 并为各公司提供接口类来满足临时或特殊的需求 。通用逻辑负责默认调度功能的实现 , 扩展逻辑负责临时或者特殊调度功能实现 。( 2) 流程实现模块 。调度流程的编排通过使用921图像 编 码 与软件 姬倩 倩, 等 : 公共交通大数据平台架构研究www.
21、dianzikeji. orgBPEL 的相关技术来实现 ; 提供 相 应的 BPEL 设计工具来制定 BPEL 流程 ; BPEL 服务器负责调度流程的运行并调用相应的服务 10。BPEL 通过 调 用 Web Service来实现智能调度的业务功能 。( 3) 临时或特殊调度流程模块 。模型中这一部分为各公司人员提供较为简便的流程定义接口 , 负责将自定义转变为标准的 BPEL流程描述 , 与 BPEL 引擎之间通过 Web Service 来实现交互 。2. 5 表现层集成公共交通大数据平台表现层是用户直接操作的界面集 , 用户可通过普通浏览器 、客户端应用程序 、平板电脑 、手机等终端
22、来浏览各类交通信息数据 。该层负责使用者与整个系统的交互 , 一般由外观界面 、表单控件 、界面框架等部分构成 。大数据平台表现层采用 Portal 的方式实现 。Portal可将来自不同系统的界面集成在一起 , 达到单点登录 、个性化定制的需求 11。基于 Portal 体系结构的公共交通大数据平台表现层如图 5 所示 。图 5 基于 Portal 体系结构的公共交通大数据平台表现层不同的公共交通应用程 序 通过 Portal 被集成在一起 , 用户通过 HTTP 协议访问用 HTML、WML、XML 等编写的 Portal 页面 , 通过大数据平台服务器端的处理将相应信息返回给页面显示 。
23、Portal Web Application处理来自各种客户端的请求 , 针对每个用户调用其个性化的页面 ; Portlet/Servlet Container 负责运行 Portlets,并为其提供所需要的运行时环境 , 管理它们的生命周期 , 同时也为 Portlets 的相关数据提供持久存储机制 。容器通过 Portlet API 来调用 Portlets, 从 Portal 里通过 Portlet Invoker API 就可调到 Portlet 容器 ; 容器使用Portlet Provider SPI( Service Provider Interface) 来找回Portal 的
24、有关信息 。3 总结 与 展望大数据可能带来的巨大价值已被企业和 政 府高度重视 。城市公共交通作为关系人民群众 “行有所乘 ”的重大民生工程 , 直接影响着广大人民群众的生活质量 。本文针对公共交通数据海量 、分散 、多源 、异构等问题采用了数据仓库 、SOA 和 Portal 的集成方式 , 在跨公司 、跨平台现状下 , 以数据为线索逐级分层 , 构建了公共交通大数据平台架构 。通过大数据来解决制约城市公共交通的瓶颈问题是新时期我们改善公共交通问题的新方式 , 同时也为构建智能交通 、智慧城市提供技术基础支撑 。参考文献 1 岳 建 明 , 袁 伦渠 智能交通发展中的大数据分析 J 生产力
25、研究 , 2013( 6) : 137 138 2 Grobelnik M Big data computing: Creating revolutionarybreakthroughs in commerce, science, and society /OL ( 2012 07 04) 2013 12 26 http: / /videolecturesnet/eswc2012_grobelnik_big_data/ 3 Barwick H The“four Vs”of big data implementing informa-tion infrastructure symposium E
26、B/OL ( 2011 08 05) 2013 12 26 http: / /www computerworld com au/arti-cle/396198/iiis_four_vs _big_data/ 4 Greg , Alisha K How big data drives intelligent transporta-tion EB/OL ( 2012 08 16) 2013 12 26 http: / /www greenbiz com/blog/2012/08/15/how big data drives intelligent transportation 5 周 为钢 , 杨
27、 良怀 , 潘建 , 等 论智能交通大数据处理平台之构建 C 合肥 : 第八届中国智能交通年会 , 2013 6 覃雄派 , 王会举 , 杜小勇 , 等 大数据分析 DBMS 与Mapeduce 的竞争 与共生 J 软件学报 , 2012, 23( 1) :32 45 7 王 珊 , 王会 举 , 覃雄派 , 等 架构大数据 : 挑战 、现状与展望 J 计算机学报 , 2011, 34( 10) : 1741 1751 8 Hsinchun Chen Chiang, oger H L, Storey Veda C Businessintelligence and analytics: from big data to big impact J MIS Quarterly, 2012( 4) : 1165 1188 9 曾 绿麟 基 于 SOA 的服务集成平台的设计与实现 D 武汉 : 华中科技大学 , 2010 10 李德生 , 王海洋 一种将业务规则与 BPEL 有效集成的方法 J 计算机应用 , 2005, 25( 11) : 2705 2707 11 霍 晓鹏 基 于 Portal 的信息门户系统的设计与实现 D 北京 : 北京邮电大学 , 2009031