收藏 分享(赏)

基于规则与词典的地址匹配算法.doc

上传人:无敌 文档编号:150624 上传时间:2018-03-22 格式:DOC 页数:8 大小:107KB
下载 相关 举报
基于规则与词典的地址匹配算法.doc_第1页
第1页 / 共8页
基于规则与词典的地址匹配算法.doc_第2页
第2页 / 共8页
基于规则与词典的地址匹配算法.doc_第3页
第3页 / 共8页
基于规则与词典的地址匹配算法.doc_第4页
第4页 / 共8页
基于规则与词典的地址匹配算法.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、基于规则与词典的地址匹配算法 赵英 占斌斌 贾沛哲 李华英 山东科技大学测绘科学与工程学院 荣华建设集团 摘 要: 针对现有中文地名匹配算法匹配核心地址要素不明确, 准确性不足的问题, 本文提出了一种基于规则与词典相结合的地址匹配算法。该算法通过地址要素特征词来对地址要素进行初识别, 利用地址要素词典对可能的地址要素进行匹配, 通过遍历词典得到所有可能的地址要素, 对各类地址要素进行组合得到最有效地址要素, 利用最有效地址要素进行地址匹配与定位。利用该算法对高德地图随机抽取的 1800 条 POI 数据进行了匹配验证, 实验结果表明该算法在匹配效率和准确性两方面均有较大提升。关键词: 地名;

2、地址要素; 地址模型; 地址匹配; 作者简介:赵英 (1991-) , 男, 山西平遥人, 硕士在读, 主要从事地理信息系统应用与开发工作。E-mail:收稿日期:2017-02-27Address Matching Algorithm Based on Rules and DictionariesZHAO Ying ZHAN Binbin JIA Peizhe LI Huaying College of Geomatics, Shandong University of Science and Technology; Ronghua Construction Group; Abstract:

3、 In this paper, an algorithm of address matching based on rule and dictionaries is proposed to solve the problem that the core address matching algorithm is not clear and the accuracy is insufficient.The algorithm uses the address element to address feature elements of early recognition, address mat

4、ching elements may use the address element dictionary.All the possible address elements are obtained by traversing the dictionaries, and the most effective address elements are obtained by combining the various address elements and using the most efficient address elements for address matching and p

5、ositioning.The algorithm is used to verify the 1800 POI data randomly selected from the Amap.The experimental results show that the algorithm has a great improvement in matching efficiency and accuracy.Keyword: place name; address element; address model; address matching; Received: 2017-02-271 引言随着电

6、子地图的快速发展以及政府数据的不断公开化, 地址在人们生活中的作用越来越重要, 将大量的中文地址转化为地理坐标, 并定位到地图上, 从而根据文字地址描述获取空间坐标, 实现空间数据与非空间数据的整合与共享, 具有非常重要的意义1。地址编码就是一种把文本地址转换成地理坐标的技术2。地址编码一般包括地址标准化、地址分词、地址匹配、空间定位等步骤3。地址分词是指通过某种中文分词算法将地址分解成多个最小地址要素4。地址匹配是指在标准地名地址库中找到与该地址最接近的标准地址。空间定位则是根据这个标准地址的地理位置推理该地址的空间位置并定位。地址匹配作为地址编码十分重要的一个环节, 一直是国内学者对地址编

7、码研究的重点。张铁燕等通过使用最大逆向匹配算法进行分词, 然后通过总结几种地址模型进行地址匹配5。张雪英等通过构建各类地址要素特征词库, 利用地名词典和特征词库来解析地址6。于滨等通过建立地址匹配规则库和规则树来控制地址匹配的流程, 从而进行中文地址的相似度匹配7。郭会提出了使用自动机对中文地址进行描述的方法, 并研究出了一种基于中文地址的自动机的中文分词算法8。虽然国内学者进行了大量的研究, 但是, 对于中文地址匹配算法来说, 仍有许多需要改进的地方。地址匹配的准确度仍是制约地址编码发展的一个重要因素。许多地址匹配算法, 只注重提升匹配的召回率, 尽可能增加相似的可能性, 忽略了匹配精度,

8、导致很多时候匹配得到的地址与期望的结果相去甚远。针对以上匹配算法的不足, 结合地址分层建模思想、特征词对地址要素识别作用的思想、提取最有效地址要素进行匹配的思想以及建立规则库控制匹配流程的思想, 本文提出了一种基于规则与词典的地址匹配算法。该算法通过地址要素特征词来对地址要素进行初识别, 利用地址要素词典对可能的地址要素进行匹配, 通过遍历词典得到所有可能的地址要素, 对各类地址要素进行组合得到最有效地址要素, 利用最有效地址要素进行地址匹配与定位, 有效地提高了地址匹配的速度和准确度。2 地址模型与规则库2.1 地址模型由于中国社会在不断进步, 经济、文化在呈现不断向前发展的趋势, 随之而来

9、的是中国地址体系的不断更替变化, 导致了中国地名地址信息的混乱、无序、缺乏规律性。针对现有的各种地址进行分类总结, 构造一个适用于现在中国地址信息管理的地址模型变得十分迫切。李军等5在对北京市的地址系统进行详细调查的基础上, 将中文地址归纳为一种复杂的层次模型, 由多个地址要素构成, 包括行政区划名、道路名、门牌号等, 这些地址要素按照大的地址要素在前, 小的地址要素在后的方式组合成一个完整的地址。在此基础上, 他们进一步提出了最小地址要素概念, 将不可再分的地址要素定义为最小地址要素。例如“山东省青岛市黄岛区前湾港路 579 号山东科技大学”中, “山东省”、“青岛市”、“黄岛区”、“前湾港

10、路”、“579 号”、“山东科技大学”就是该地址中所有的最小地址要素。而这些地址要素中, 行政区划部分具有明显的包含与被包含关系, 而后的详细地址部分各类地址要素之间的关系比较复杂, 故将行政区划部分与详细地址部分分开处理。行政区划可分为省、市、县、街道办、居委会五个级别, 其编码方式如表 1 所示。表 1 国家行政区划编码 下载原表 详细街道地址部分可以分为道路、门牌号、小区、楼牌号、POI 五种地址要素类型。各种地址要素除特殊情况外都是由地址专名与地址通名组成9。对于地址:山东省青岛市黄岛区前湾港路 579 号山东科技大学, 其地址模型如下图 1 所示。图 1 地址模型示意图 下载原图2.

11、2 规则库规则库就是在地址匹配过程中对匹配流程进行的一系列的引导和限制的条件, 通过这些条件来引导匹配过程, 控制匹配流程, 从而达到提高匹配速度与准确度的目的。地址中各类地址要素所满足的规则如图 2 所示。各级行政区划可根据行政区划规则进行匹配流程的控制, 在出现行政区划跨级等特殊的情况, 通过调用行政区划规则, 可使匹配有序的进行下去。对于详细地址的匹配规则如表 2 所示。表中“|”表示关系“或”, “无”表示不存在该成分。例如“道路|小区+楼牌号+POI|无”表示“道路+楼牌号+POI”、“小区+楼牌号+POI”、“道路+楼牌号”、“小区+楼牌号”, 这四种规则。图 2 行政区划部分匹配

12、流程控制规则 下载原图表 2 详细地址部分规则表 下载原表 中文地址组成复杂多样, 建立的标准地址模型不可能适用于所有的中文地址匹配情况。通过建立合适的规则库, 可有效的解决地址表达不完整、残缺或地址模糊等情况下地址的匹配10。在根据地址要素特征词表和词典提取出地址要素的情况下, 根据匹配规则库得知其前后可连接的其他可能地址要素类型, 结合地址要素词典和地址要素的特征词典, 能够很快地判别出其前后所跟的地址要素, 从而得知整个地址的组成成分, 根据地址模型得到最有效地址要素, 从而完成地址的匹配。最有效地址要素就是指地址经过层层限定后得到的唯一的可以定位到地图上的点或线或面。地址中的最有效地址

13、要素如表 3 所示。表 3 地址中的最有效地址要素 下载原表 3 基于规则与词典的地址匹配的实现3.1 地址要素词典地址要素词典就是组成地址的各最小地址要素与地名地址库建立索引关系的地址要素表。分为行政区划词典、道路名词典、小区词典、标志物及 POI 词典。地址要素词典是基于标准地名地址库建立的, 它是在对地名地址库中的数据进行分词、要素识别的基础上, 按照所属行政区划而提取出地名地址库中存在的所有地址要素, 根据各类地址要素的所属类型, 分别编制为不同的词典, 以方便随时调用某一行政区划下的所有地址要素, 为下文地址匹配算法中的最小地址要素识别、匹配和提取服务。3.2 行政区划部分地址要素匹

14、配行政区划部分准确识别是地址匹配成功的保障, 行政区划识别错误, 则匹配注定失败, 作者通过对地址匹配的长期研究, 认为地址的行政区划部分可按如下方式进行匹配, 可避免行政区划不全、跳级以及地址中其他非行政区划的信息对行政区划识别的干扰, 行政区划的识别流程如下:(1) 根据行政区划的特征词表对行政区划要素进行识别, 调用行政区划词典的省、市一级词典来对待匹配地址进行正向最大匹配, 若无法完全匹配调用省市简称别名表来进行匹配, 得到地址中所有的可能作为省市级地址要素的要素。(2) 在得到可能的省市级地址要素的基础上, 根据行政区划规则进行其下一级区、县级地址要素匹配, 若未匹配到地址要素, 则

15、进行下下一级地址要素的匹配, 直到匹配到最后一级行政区划地址要素为止, 形成可能的行政区划部分。(3) 若匹配到的行政区划部分不是唯一的, 即详细地址中也存在与行政区划要素名称相似或相同的最小地址要素形式。需要根据匹配到的行政区划部分在地址中所在的位置, 以及各级行政区划之间的包含关系来进行行政区划部分的取舍。一般来说, 地址中的行政区划部分位于地址的前半部分而且各级行政区划之间存在明显的包含关系, 当出现位于地址后半部分而且不能与其他行政区划形成包含关系的则不能作为行政区划部分, 应舍弃。行政区划的详细匹配流程如图 3 所示。图 3 行政区划识别流程图 下载原图3.3 详细地址部分地址要素匹

16、配详细地址部分就是地址中提取行政区划后剩余部分。对于一条地址数据来说, 各种地址要素组合成一个地址, 无论地址形式如何变化, 只要匹配到其中的最有效地址元素, 就可以说是对这条地址的完全匹配。中文地址形式复杂多样, 如何完美的地址模型也不能穷尽所有的地址组合方式。通过规则和词典尽可能准确的找到地址中能对地址进行定性的核心成分, 即最有效地址要素, 既可以保证匹配是准确的, 又能大大的减少发生在地址分词过程中的歧义, 以及非主要地址要素对地址匹配速度和准确度的影响。详细地址的匹配思路是:先根据地址要素特征词表对地址要素进行识别。地址要素特征词表就是表明地址中最小地址要素类型的地址要素的通名。遍历

17、地址要素特征词表, 找出地址中包含的特征词, 截取特征词和该特征词前面的未识别为地址要素的字符串地址作为待匹配字符串, 根据特征词所对应的地址要素词典, 采用逆向最大匹配算法, 对其进行匹配, 若能匹配到词典中的数据, 则将匹配数据提取出来作为该地址的一个已识别的地址要素。当识别出的地址要素组合出最有效地址要素时, 则该地址匹配完成。常见的详细地址部分的地址要素通名如表 4 所示。表 4 地址要素通名 下载原表 4 基于规则与词典的地址匹配流程由上述匹配思想, 本文设计的基于规则与词典的地址匹配流程如下:(1) 将待匹配的地址与行政区划词典进行正向最大匹配。根据行政区划匹配思想, 提取地址中的

18、行政区划部分。(2) 对于详细地址部分, 调用该行政区划下的各类地址要素词典以及地址要素特征词表, 进行详细地址中地址要素的识别。根据地址要素特征词表依次提取所有匹配的词组作为待选定特征词, 依次截取地址特征词和特征词前面未识别为地址要素的地址字符串为可能的待匹配地址要素, 根据特征词所属的地址要素调用相应的地址要素词典, 对截取的待匹配地址要素进行最大逆向匹配, 若匹配到地址要素词典中的数据, 将匹配数据从地址中提取出来, 作为识别出的地址要素, 若没有匹配数据则放弃该特征词, 对下一可能特征词进行处理, 直到识别出所有可识别的地址要素为止。(3) 将提取出来的地址要素根据对应的地址要素数据

19、规则库, 对其前后字符串进行识别, 若其前后字符串都为已识别出的地址要素, 则得出的最有效地址要素为匹配结果;若该地址要素前面的字符串所属类型未知且其后的地址要素已知, 且可组合出最有效地址要素, 则不对前面地址字符串进行识别, 提取最有效地址要素作为匹配结果。若不能组合出最有效地址要素, 则根据该地址要素对应的规则知识库, 推断其前面字符串可能是哪种地址要素, 利用相应的地址要素词典进行匹配, 得出该地址要素。组合出最有效地址要素;若该地址要素后面的字符串所属地址要素未知, 同样根据该地址要素对应规则库以及地址要素词典进行地址要素识别, 最终组合出最有效地址要素。(5) 若存在无法匹配的地址

20、要素数据且无法组合出最有效地址要素的详细地址, 则对该地址进行相似度匹配, 得出最有效地址要素。基于规则与词典的地址匹配流程图如图 4 所示。图 4 基于规则与词典的地址匹配流程图 下载原图5 试验及其结果分析本文利用 C#、MySQL 以及 ArcGIS 相关组件, 构建了一个地址匹配原型系统。为了验证算法的可用性, 本文利用高德地图 API 提供的 POI 搜素服务类 (AMap.PlaceSearch) , 随机提取的 1800 条 POI 数据对该匹配算法进行了验证, 主要验证地址数据匹配的成功率, 统计结果如表 5 所示。表 5 实验结果统计 下载原表 由表 5 可知实验结果匹配成功

21、率达到了 88.5%, 达到了地名地址匹配的基本要求, 对于无法匹配的数据, 主要原因在于标准地名库中地址数据的不完善性和匹配规则设计的不全面性。因此, 不断更新标准地名库以及完善匹配规则是提高地名匹配召回率和准确性的关键所在。6 总结本文提出了一种依据地址要素词典、地址要素特征词表以及地址要素匹配规则库的地址匹配算法, 将规则融入到地址匹配算法中, 利用特征词和地址要素词典快速识别与匹配出地址中存在的地址要素, 依据规则库和地址模型组合出符合该地址的有效地址要素, 从而提升了地址匹配的速度, 同时在抽取地址要素的基础上进行地址要素的识别, 能有效地减少地址分词过程所造成的歧义现象, 在已识别

22、出的地址要素的基础上利用匹配规则库进行进一步的匹配也相应的提高了地址相似度匹配的可信程度。然而由于地址要素规则库建立难度大, 需要顾及的因素相当复杂, 以及地名地址库建设的不完善, 使得这个匹配方式还存在一定的难度和漏洞。参考文献1程昌秀, 于滨.一种基于规则的模糊中文地址分词匹配方法J.地理与地理信息科学, 2011 (3) :26-29. 2洪莹.城市地名地址匹配方法研究与实验D.辽宁阜新:辽宁工程技术大学, 2008. 3张铁燕, 翁敬农, 黄坚.城市地理编码方法的探索与实践A.中国地理信息系统协会、浙江省测绘局.中国地理信息系统协会第九届年会论文集C.2005:6. 4王凌云, 李琦,

23、 江洲.国内地理编码数据库系统开发与研究J.计算机工程与应用, 2004 (21) :167-168, 212. 5李军, 李琦, 毛东军, 等.北京市地理编码数据库的研究J.计算机工程与应用, 2004 (2) :1-3, 6. 6张雪英, 闾国年, 李伯秋, 等.基于规则的中文地址要素解析方法J.地球信息科学学报, 2010 (1) :9-16. 7于滨.面向经济普查项目需求的模糊中文地址匹配方法研究D.湖南长沙:中南大学, 2010. 8郭会.基于自动机分词的中文地址地理编码技术研究与实现D.北京:中国科学院地理科学与资源研究所, 2008. 9张伟.基于 WebGIS 的地址采集管理系统开发与研究D.重庆:西南大学, 2007. 10洪莹.城市地名地址匹配方法研究与实验D.辽宁阜新:辽宁工程技术大学, 2008.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报