收藏 分享(赏)

基于众包模式的poi数据采集方案研究.doc

上传人:无敌 文档编号:154563 上传时间:2018-03-22 格式:DOC 页数:8 大小:117KB
下载 相关 举报
基于众包模式的poi数据采集方案研究.doc_第1页
第1页 / 共8页
基于众包模式的poi数据采集方案研究.doc_第2页
第2页 / 共8页
基于众包模式的poi数据采集方案研究.doc_第3页
第3页 / 共8页
基于众包模式的poi数据采集方案研究.doc_第4页
第4页 / 共8页
基于众包模式的poi数据采集方案研究.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、基于众包模式的 POI 数据采集方案研究 严宏基 李兵 詹伟 舒红 耿晴 赵晶 湖北省测绘成果档案馆湖北省地理信息数据交换中心 武汉大学测绘遥感信息工程国家重点实验室 湖北省地图院湖北省地理数据应用中心 摘 要: 针对小城市 (镇) POI 数量的高速扩张以及传统采集方式的滞后, 提出基于众包模式的 POI 数据采集思路, 并以 POI 属性及分类为依据, 对众包中的任务设计、分配以及质量控制提出具体方案。关键词: 众包模式; POI 采集; 任务分配; 质量控制; 作者简介:严宏基, 研究生, 研究方向为空间数据挖掘与统计分析。收稿日期:2017-10-13基金:国家科技支撑计划资助项目 (

2、2015BAJ05B00) Research on POI Data Acquisition Scheme Based on Crowd Sourcing ModeYAN Hongji Abstract: Considering high-speed expansion of the number of POIs and the lag of traditional acquisition methods, this paper put forward the idea of POI data acquisition based on crowd sourcing mode. And then

3、, based on POI attributes and classification, the paper put up the specific proposals for task design, allocation and quality control in the crowd package.Keyword: crowd sourcing mode; POI collection; task allocation; quality control; Received: 2017-10-13POI (point ofinterest) 是指与人们日常生活密切相关的, 可以抽象为点

4、的地理实体1, 如公司、学校、酒店等。对于一个 POI 来说, 它的主要内容包括 4个方面:名称、类别、经纬度、附近地物信息。按照对 POI 需求程度的不同, 有时还会附以电话、E-mail、图片、语音介绍等多媒体信息。通过将 POI 点融入电子地图、数字城市框架和各类基于位置的服务 (LBS) , 并以可视化技术直观表达, 可以实现智慧 POI 服务。小城市 (镇) 在 GIS 建设方面较为落后, POI 数据库完备性差, 更新周期长, 且 POI 具有一定的地域分布式特性。为应对小城市 (镇) 可持续发展对规划建设与监督管理中数据平台的迫切需要, 本文提出一种基于众包模式的 POI 数据采

5、集方案。通过大众的广泛参与, 实现 POI 数据的社会化采集2, 为小城市 (镇) 智慧规划决策支持提供数据服务。同时针对 POI 众包采集的任务设计、分配、质量控制作了相关叙述, 并通过实验验证了方案的可行性。1 众包模式1.1 众包模式的定义2006 年, Howe 首次提出众包这一概念:众包是指一个公司或机构将过去由特定人员执行的工作任务外包给非特定的大众网络的做法3。众包模式通常包括三类角色:任务参与者, 众包平台, 任务发起者, 如图 1 所示。任务发起者是整个流程的首要环节。发起者所上传任务的类型与内容决定了任务分配以及质量控制的方式。任务参与者泛指一切网民, 他们是众包模式中的潜

6、在生产力, 相比外包模式的高专业性, 具有更高的上限和不确定性。众包平台是建立在互联网环境下的众包模式枢纽, 按照其经营理念的差异可以分为两类:一类是企业或者机构基于自身发展需求而建立的众包平台。这类众包平台目的性强, 主要以有偿的方式吸引人群。另一类众包平台通常扮演着虚拟的知识中介平台的角色, 通过互联网聚合分布式大众, 以多样化的任务搭建需求者之间的沟通桥梁。图 1 众包模式 下载原图1.2 众包模式的影响因素一方面, 从众包模式的不同角色来思考, 对于发包者的主要影响因素是创新与知识经济;对于参与者而言, 兴趣爱好以及物质奖励等是主要驱动力;对于众包平台, 作为发包者与参与者的桥梁与容器

7、, 随着“容器中化学反应的需要”, 其整合组织能力相应提高4。另一方面, 从整个模式的流程出发, 最大化众包绩效是目的, 可以视为目标函数。而任务设计 (任务难度, 赏金值, 任务时间期限) 、参与者属性 (参与人数, 人员专业性) 以及众包平台的任务调度是相互影响的变量, 一般采用控制变量的思想研究不同变量对众包绩效的影响5。众包绩效通过单位成本下的方案数量和平均质量体现出来。为了使绩效期望达值到最大, 发包方需注意以下几点:1) 建立绩效与各变量间非线性关系, 在满足一定质量阈值的情况下, 得到成本绩效比的最小值。2) 设计任务时以激发参与者的内在动机为主, 外在动机为辅, 且在面向大众的

8、模式下保持一定的针对性。3) 因任务而异, 设计质检环节以及采用一定的质量控制策略。2 POI 数据采集技术现状POI 数据采集包括新 POI 的采集与原始 POI 的更新。随着移动定位技术的发展以及 Web GIS 的普及, 近年来相关技术层出不穷。可分为以下几类:1) 采用与现有 POI 数据库中有重叠信息的数据信息, 通过重叠的信息实现已有POI 与其他属性信息的匹配, 以达到更新的效果。戴冬冬提出基于地址匹配方法的 POI 数据更新6, 利用电信企业库的大量客户信息资源, 通过电话号码定位相关分线盒得到客户位置, 然后与 GIS 库中的地址库进行匹配, 实现 POI 采集与更新。2)

9、基于带有位置信息的网络平台进行采集。陈睿嘉、康志忠提出基于网络爬虫的导航深度服务信息自动采集, 使用网络爬虫与 DOM 技术抓取网站信息, 进而与已有 POI 库匹配7。此类技术获取数据量大而杂, 对数据处理与匹配算法要求较高。3) 基于众包思想的 POI 采集。曾李阳、齐华等提出基于天地图的 POI 数据采集系统8, 邢廷炎等提出基于 Wiki 的 POI 数据更新9, 均着重介绍了系统的架构与 Web 前后端技术, 未涉及众包机制的研究与 POI 质量的控制。上述方法均在不同层次涉及到众包思想。但是, 关于众包模式中的各个模块与POI 采集的深度结合, 需要进一步研究。3 众包机制下的 P

10、OI 采集众包机制的具体架构如图 2 所示。POI 是具有多类型复杂属性的地理实体。考虑到 POI 的分类属性以及具有位置特征的地理特性, 结合众包任务中的任务描述信息和基于多准则的判断方式, 以湖北省神农架林区为例, 提出以下方案。图 2 众包架构图 下载原图3.1 任务设计对于每个待发布的 POI 采集任务, 其任务描述信息包括目标区域 W, 花费时间期限 T, 奖励积分值 S。划分任务时, 按照神农架区域行政等级 (区、乡、镇、村、社区等) 分为多级子任务, 且按照 POI 数据的一、二级分类划分平级任务, 如图 3 所示。图 3 任务划分 下载原图目标区域可按照行政边界线划分;时间期限

11、按照不同区域或不同类的 POI 密集程度设定;对于任务积分, 按照所采集 POI 数量动态积分, 单位 POI 积分按照类别的重要程度提前设定。在此基础上, 参与者通过区域、时间、积分以及关键字查找自己感兴趣的任务, 按需申请任务。此外, 对于所有新用户, 采用问卷调查的方式获取区域、时间、积分的期望数据以保证分配任务时的高匹配度。提交后端审核申请时, 将一定时段内同时提交的申请比较分析, 作出最优化的任务调度与分配。3.2 任务分配设任务列 M=M1, M2, , Mi, 对应申请人数列 N=N1, N2, , Ni, Ni大于等于 1。任务范围中心位置列 (X 1, Y1) , (X2,

12、Y2) , , (Xi, Yi) , 参与者位置列 (P 1, Q1) , (P2, Q2) (Pj, Qj) , 任务积分值列 C=C1, C2, , Ci, 参与者期望积分值列 S=S1, S2, , Sj, 任务时间列 G=G1, G2, , Gi,参与者期望时间列 T=T1, T2, , Tj, Kij为参与者 j 的任务期望与任务 Mi的匹配度:式中, L 1、L 2、L 3为距离差、时间差、积分差对应的权值, 由先验数据得到。按照同一时段下任务申请人数量, 可将任务分配类型分为两种: (1) N 中元素均等于 1; (2) N 中有至少一个元素大于 1。对于第一种情况, 后端直接通

13、过任务申请。对于第二种情况, 对 N 等于 1 的任务 M 申请直接通过, 而 N 大于 1 的任务按以下步骤分配:1) 将参与者分为有中标历史用户 A 与新用户 B, 计算 A 的历史平均任务完成度Arg:式中, Sum 为完成次数。2) 采用 A 优于 B 的原则。若任务 Mi的参与者中 A 的数量为 1, 则选择 A 为任务获得者;若 A 的数量大于 1, 则选择完成度 Arg 最大的 A 为任务获得者;若 A 的数量为 0, 从 B 中选取匹配度 Kij最大的参与者 j 为任务获得者。3) 对于剩余的 A 与 B 申请者, 将其视为一个整体 R, 设其数量为 n, 按照其申请任务的最优

14、相关匹配补充数量为 n 的任务列 RM, 计算 R 与 RM 的匹配度倒数矩阵; , 即匹配差矩阵:其中 A 类申请者的期望积分与时间用最近一次完成任务的数据代替。采用最小匹配差和为目标函数, 用匈牙利算法10处理矩阵; 。此算法的基本原理为对矩阵的某一行或一列同加同减不影响获取最优解。步骤如下:1) 对每一行减去每一行中最小的数。2) 对每一列减去每一列中最小的数。3) 使用尽可能少的水平线与垂直线将所有 0 覆盖。若线的总数等于 n, 调换行列顺序, 使其对角线为 0。对角线为所得任务匹配算法结束。若线的总数小于 n, 进入第 4 步。4) 对于没有线覆盖的行, 减去这些行中的最小值。对于

15、没有线覆盖的列, 加上此最小值, 然后返回第 3 步。3.3 质量控制质量是众源数据中难以消除的问题, 通常情况下只能采取一定的机制去识别欺骗者, 通过不同的质量控制手段削弱多样化带来的数据质量问题。对于 POI 采集, 可以将质量问题分为以下 3 个方面:1) POI 空间位置坐标的精度。2) POI 位置与 POI 名称的匹配性。3) POI 名称与图片、语音和其他相关属性信息的匹配性。对于这 3 类问题, 从整体上看, 适当的任务设计、友好的交互机制和一定的报酬奖励, 可以吸引足够大的人群参与进来, 然后通过一定的机制控制用户的信誉等级、操作上的一些限制和采集结果的检测, 从源头、过程和

16、结果分别进行质量控制, 如图 4 所示。图 4 质量控制 下载原图首先, 采用一定的用户等级机制、错误反馈机制以及奖罚机制来控制和提高用户自身质量。将用户信誉等级分为一二三级, 高等级的用户可以领取质检任务这种相对简单的任务, 并且可以获取相对更高的报酬。而用户等级提升的方式只有完成一定数量的采集和更新任务后才可以实现。用户在质检过程中发现其他用户的违规行为可上报, 经过后端审核后, 对于举报行为给予一定奖励, 并对有违规行为的用户给予扣除积分、降低用户等级、封号等惩罚。其次, 通过一定的操作限制在过程中控制质量。对于 POI 的采集与更新任务, 要求用户到实地去完成任务, 通过读取用户的 G

17、PS 信息判断用户是否在任务范围内, 只有在任务范围内才可以提交成果。对于 POI 采集任务, 还需要在地图上标出 POI 的具体位置, 消除 GPS 误差, 满足空间坐标的精度要求。对于在 A 地上传 B 地的 POI 这种匹配性问题, 目前只能依靠用户实地采集机制、错误反馈机制以及后期人工检测来控制, 这也是众源数据的弊端所在。最后, 通过即时发布质检任务, 判断 POI 名称与图片、语音和其他属性的匹配性问题。质检任务较为简单, 仅需要判断数据的对与错, 因此单个质检任务可以重复发布, 只有一定比例的质检员任务合格时认定数据合格。同时, 采集数据的用户不能质检同一项数据, 这里通过用户

18、ID 与采集的 POI/ID 进行唯一标识。用户领取质检任务后, 即可直接对已采集的数据进行评价, 服务器根据质检结果将合格的数据录入分布式数据库, 将不合格的数据重新发布任务。3.4 实验分析以神农架林区为实验区, 采用湖北省测绘成果档案馆发布的神农架 1820 级Arc GIS 地图服务为底图, 并基于以上任务设计、任务分配以及质量控制思想, 开发出一套基于 Android 系统的众包数据采集 APP 软件, 如图 5、6 所示。图 5 任务设计 下载原图图 6 数据采集 下载原图系统按照神农架林区行政区划和 POI 分类标准设置多类别子任务, 用户可根据自己的地理位置与兴趣爱好申请相应的

19、采集任务, 实现友好交互。用户在申请任务后, 服务器根据任务分配算法将任务分配至最佳任务。在进行新增数据点采集过程中, 首先在地图上显示当前用户的 GPS 定位 (红色标记) , 不在任务范围内的用户无法开始采集。用户通过放大地图并手触选点进行定点操作, 通过设置移动步长、上下左右移动微调位置从而提高采集精度。最后, 服务器发布质检任务对已采集数据进行质量筛选, 最终实现从过程、结果两个层次的质量控制。采集的部分 POI 数据通过 Web 展示, 如图 7 所示。图 7 数据展示 下载原图4 结语本文基于小城市 (镇) 规划建设的 POI 需求, 针对众包模式下的 POI 采集, 探讨了其关键

20、技术与相关影响因素, 提出具体的 POI 采集任务设计、任务分配、质量控制方法, 并在神农架林区实验验证了众包模式采集 POI 的可行性。但是, 关于 POI 多媒体数据的采集与处理、POI 的可视化技术等方面依旧存在技术难点。如何将 POI 数据采集与众包式规划结合, 从而实现众源 GIS, 按百姓的意愿建设小城市 (镇) , 将是下一步的主要研究方向。参考文献1周春辉, 朱欣焰, 苏科华, 等.基于 LBS 的兴趣点查询与更新机制研究J.微计算机信息, 2009, 25 (19) :143-145 2林丹.POI 数据采集的社会化模式J.福州建筑, 2010 (9) :112-114 3H

21、OWE J.The Rise of CrowdsourcingJ.Wired Magazine, 2006, 14 (6) :176-183 4夏恩均, 赵轩维, 李森.国外众包研究现状和趋势J.技术经济, 2015, 34 (1) :28-36 5王桂云.众包竞赛中任务设计对参与者行为的影响研究J.山东社会科学, 2015, 243 (11) :188-192 6戴冬冬.基于地址匹配方法的 POI 数据更新研究J.电脑知识与技术, 2010, 6 (1) :1-3 7陈睿嘉, 康志忠.基于网络爬虫的导航深度服务信息自动采集J.测绘工程, 2015, 24 (1) :17-24 8曾李阳, 齐华, 谭明建, 等.基于天地图的 POI 数据采集系统设计与实现J.测绘与空间地理信息, 2016, 39 (3) :55-58 9邢廷炎, 陶留峰, 缪谨励, 等.POI 数据 Wiki 更新模式研究与实践J.测绘通报, 2014 (4) :113-115 10匈牙利算法EB/OL.https:/ 2017-04-21/2017-06-28

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报