收藏 分享(赏)

位置大数据的价值提取与协同挖掘方法_郭迟.pdf

上传人:精品资料 文档编号:10285562 上传时间:2019-10-28 格式:PDF 页数:18 大小:1.77MB
下载 相关 举报
位置大数据的价值提取与协同挖掘方法_郭迟.pdf_第1页
第1页 / 共18页
位置大数据的价值提取与协同挖掘方法_郭迟.pdf_第2页
第2页 / 共18页
位置大数据的价值提取与协同挖掘方法_郭迟.pdf_第3页
第3页 / 共18页
位置大数据的价值提取与协同挖掘方法_郭迟.pdf_第4页
第4页 / 共18页
位置大数据的价值提取与协同挖掘方法_郭迟.pdf_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、 软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: Journal of Software,2014,25(4):713730 doi: 10.13328/ki.jos.004570 http:/ 中国科学院软件研究所版权所有 . Tel/Fax: +86-10-62562563 位置大数据的价值提取与协同挖掘方法郭 迟1, 刘经南1, 方 媛1, 罗 梦2, 崔竞松2,31(武汉大学 卫星定位导航技术研究中心 ,湖北 武汉 430079) 2(武汉大学 计算机学院 ,湖北 武汉 430072) 3(软件工程国家重点实验室 (武汉大学 计算机学院 ),湖北

2、武汉 430072) 通讯作者 : 郭迟 ,崔竞松 , E-mail: guochi, 摘 要 : 随着位置服务和车联网应用的不断普及 ,由地理数据、车辆轨迹和应用记录等所构成的位置大数据已成为当前用来感知人类社群活动规律、 分析地理国情和构建智慧城市的重要战略性资源 ,是大数据科学研究极其重要的一部分 .与传统小样统计不同 ,大规模位置数据存在明显的混杂性、复杂性和稀疏性 ,需要对其进行价值提取和协同挖掘 ,才能获得更为准确的移动行为模式和区域局部特征 ,从而还原和生成满足关联应用分析的整体数据模型 .因此 ,着重从以下 3 个方面系统综述了针对位置大数据的分析方法 ,包括 :(1) 针对

3、数据混杂性 ,如何先从局部提取出移动对象的二阶行为模式和区域交通动力学特征 ;(2) 针对数据复杂性 ,如何从时间和空间尺度上分别对位置复杂网络进行降维分析 ,从而建立有关社群整体移动性的学习和推测方法 ;(3) 针对数据的稀疏性 ,如何通过协同过滤、概率图分析等方法构建位置大数据全局模型 .最后 ,从软件工程角度提出了位置大数据分析的整体框架 .在这一框架下 ,位置数据将不仅被用来进行交通问题的分析 ,还能够提升人们对更为广泛的人类社会经济活动和自然环境的认识 ,从而体现位置大数据的真正价值 . 关键词 : 大数据 ;轨迹移动模式 ;位置服务 ;泛在测绘 ;数据挖掘 中图法分类号 : TP3

4、11 文献标识码 : A 中文引用格式 : 郭迟 ,刘经南 ,方媛 ,罗梦 ,崔竞松 .位置大数据的价值提取与协同挖掘方法 .软件学报 ,2014,25(4):713730. http:/ 英文引用格式 : Guo C, Liu JN, Fang Y, Luo M, Cui JS. Value extraction and collaborative mining methods for location big data. Ruan Jian Xue Bao/Journal of Software, 2014,25(4):713730 (in Chinese). http:/ Value E

5、xtraction and Collaborative Mining Methods for Location Big Data GUO Chi1, LIU Jing-Nan1, FANG Yuan1, LUO Meng2, CUI Jing-Song2,3 1(Global Navigation Satellite System Research Center, Wuhan University, Wuhan 430079, China) 2(Computer School, Wuhan University, Wuhan 430072, China) 3(State Key Laborat

6、ory of Software Engineering (Computer School, Wuhan University), Wuhan 430072, China) Corresponding author: GUO Chi, CUI Jing-Song, E-mail: guochi, Abstract: Uncountable geographical location information, vehicle trajectories and users application location records have been recorded from different

7、location-based service (LBS) applications. These records are forming to a location big data resource which facilitates mining human migrating patterns, analyzing geographic conditions and building smart cities. Comparing with traditional data mining, location big data has its own characteristics, in

8、cluding the variety of resources, the complexity of data and the sparsity in its data space. To restore and recreate data analysis network model from location big data, this study applies data value extraction and cooperative mining on location big data to create trajectories behavior pattern and lo

9、cal geographical feature. In this paper, three major aspects of 基金项目 : 国家自然科学基金 (41104010); 国家高技术研究发展计划 (863)(2013AA12A206, 2013AA12A204); 国家自然科学重大研究计划 (9112002); 高等学校学科创新引智计划 (B07037) 收稿时间 : 2013-10-14; 修改时间 : 2013-12-18; 定稿时间 : 2014-01-27 714 Journal of Software 软件学报 Vol.25, No.4, April 2014 analy

10、sis methods on location big data are systematically explained follows: (1) For the variety of resources, how to extract potential contents, generate behavior patterns and discover transferring features of moving objects in a partial region; (2) For complexity of data, how to conduct dimension reduct

11、ion analysis on complex location networks in temporal and spatial scale, and thus to construct learning and inferential methods for mobility behavior of individuals in communities; (3) For sparsity, how to construct the global model of location big data by using collaborative filtering and probabili

12、stic graphical model. Finally, an integral framework is provided to analyze location big data using software engineering approach. Under this framework, location data is used not only for analyzing traffic problems, but also for promoting cognition on a much wider-range of human social economic acti

13、vities and mastering a better knowledge of nature. This study incarnates the practical value of location big data. Key words: big data; trajectories mobility pattern; location based service; ubiquitous mapping; data mining 位置服务 (location based service,简称 LBS)是近年来新兴的移动计算服务 .发展位置服务主要需重视其两个方面的能力 :提供位置的

14、能力和理解位置的能力 .在提供位置方面 ,随着室内外无缝定位技术和增强系统技术的发展 ,定位精度不断提高1,在大众应用层面已经基本满足人们生产、生活的需要 ;然而在理解位置的能力方面 ,目前尚有很多挑战 ,是学术界和产业界关注的热点 .理解位置其实就是理解位置背后所反映出来的人的活动、人的情感和人的环境 ,因此也被称为泛在测绘 (ubiquitous mapping)或位置社会感知 (location-based social awareness)2. 位置大数据 (location big data)是构成泛在测绘和位置社会感知的重要资源 ,具有相当大的体量 .近几年 ,位置服务、数据挖掘和

15、机器学习领域 ,已经涌现出一批针对位置大数据的优秀研究 .其所使用的数据集在体量和复杂性上均已达到了 “大 ”数据的层次 ,代表性实例见表 1. Table 1 Instances of location big data 表 1 位置大数据实例 移动目标 目标数量 |O| 持续时间 |T|(天 ) 记录数量 |P| 研究目的 出租车 12 000 110 577 000 000 寻找乘客和空闲出租车3;推断交通异常47 475 385 3 000 000 000 土地规划分类5移动电话 50 000 90 10 000 000 研究人们移动行为的可预测性61 500 000 450 / 研究

16、人们移动行为的独一性71 600 000 365 / 模拟灾后人们大规模移动行为8社交网站 632 611 30 15 944 084 模拟疾病传播9位置大数据主要来源于车联网 (Internet of vehicles,简称 IOV)、移动社交网络、微博等新兴互联网应用 ,更新速度快且具有很大的混杂性 (inaccurate).同时 ,往往受到数据采集技术等方面的客观制约 ,使得这些数据不能全面和正确地反映观察对象的整体全貌 ,因而具有 “复杂但稀疏 (complex yet sparse)”的特点 .如何从位置大数据中获得价值 ,进而发现人类社群活动规律 ,是非常值得探讨的问题 .本文将着

17、重归纳和阐述这其中有关局部特征提取、数据降维、整体特征建模以及整体数据协同挖掘的方法 . 本文的另一个贡献是从关联应用角度阐述了位置大数据的意义和价值 .传统的诸如轨迹数据等往往仅被用以分析城市交通等直接且特定的问题 .大量经典的大数据科学研究表明 ,通过价值提取和协同挖掘后的数据结果能够将一些看似无关的事件很好地联系在一起 ,从而从数据层面 “直接 ”反映一些原本需要复杂因果建模才能得到的结果 ,且更加直观和准确1013.这些案例对位置大数据研究同样具有启发性 .因此 ,我们在探讨位置大数据分析方法时 ,本身就应将其置于关联应用的大背景下 ,着重探讨如何将模型参与到社会经济活动、政治活动、自

18、然环境、人类情感以及人口卫生等一系列社会学、人类学、经济学的研究中 .这样的位置大数据才更有助于地理国情的分析和智慧城市的建设 . 1 基本定义和预处理方法 首先 ,我们给出本文所面对的位置大数据的基本结构 .前文已述 ,当前的位置大数据主要来源于 IOV、移动社交网络新兴互联网应用 ,有如下描述 : 郭迟 等 :位置大数据的价值提取与协同挖掘方法 715 定义 1. 位置数据集记为 LBD=O,T,P,其中 ,O=o1,o2,表示数据集中的移动对象集合 ,包括了 |O|个产生位置的移动目标 ;T 为观察数据集的时间 ;|T|天内总共获得 |P|个位置记录 . 定义 2. 单个位置数据记录 p

19、 主要包含移动目标 o 和位置的地理坐标 x,y和记录时刻 t,可以用一个四元或五元组表示 .如果是车辆轨迹数据 ,一般还包含车辆的速度 v 以及一组状态信息 S=S1,S2,如行驶方向、油耗值、载客状态等 ,记为 p=o,x,y,t,v,S,其中 ,一个具体的状态 Si可能有多个状态取值 ;如果是用户在社交网络等媒体上主动分享的位置数据 ,则还包括与位置相关的媒体信息 I,可记为 p=o,x,y,t,I.一般地 ,将移动目标 oi的第 j 条位置记录记为()iojp ,在不影响理解的情况下也可直接写作 pj. 1.1 地图的预处理 位置大数据分析一般需要基于地图或路网数据展开 .通常 ,平面

20、地图被认为是一个连续的二维空间 ,为方便分析 ,需将其离散化 ,即 ,将地图划分为多个区域 .这也是位置大数据预处理分析中普遍采用的方法 ,常见的包括 : (1) 网格化分区14,15,如图 1(a)所示 ; (2) 依道路网分区16.这种分区方法能够很好地保留地图语义 .为了精简操作 ,一般按照城市主干道进行划分 ,如图 1(b)所示 ; (3) 依位置密度分区5,17,18.这种方法主要依据 LBD 中 p 的密度 ,将在一定范围内的位置点进行聚集 ,继而将地图划分为大小不同的网格或不规则图形 (凸包 ),如图 1(c)所示 .常见的密度聚类算法如DBSCAN19等 ; (4) 依参考点分

21、区7.这种分区方法主要是选取 LBD 中若干位置点或地图上即有的若干兴趣点 (point of interesting,简称 POI)作为参考点 ,按照 Voronoi 多边形 (又称为泰森多边形 )的方式划分区域 .使其每个分区内的任意一点到相应参考点的距离比到其他参考点的都近 ,从而很好地保留了参考点的代表性位置语义 ,如图 1(d)所示 . (a) 网格 (b) 道路网 (c) 位置密度 (d) 参考点 Fig.1 Preprocessing method of map segmentation 图 1 地图分区预处理方法 通过地图离散化 ,将地图划分为多个区域 ,完成对位置大数据分析的

22、第 1 步预处理 .在后文的分析中 ,我们不强调具体的分区方式 ,统一表述 . 定义 3. 一个地图区域集合记为 =r1,r2,rn,其中 ,|=n 表示一共划分有 n 个区域 ,ri.ref 为区域 ri的参考点 . 1.2 位置轨迹数据的预处理 (1) 轨迹插值 在对位置大数据尤其是轨迹数据进行分析时 ,一般会要求数据集具有较高的采样率 .当原始观察数据无法满足这样的要求时 ,可以对其进行简单线性插值15. (2) 地图匹配 地图匹配 (map matching)是进行位置大数据研究的十分重要的预处理步骤 ,其目的是将原始观察数据与地716 Journal of Software 软件学报

23、 Vol.25, No.4, April 2014 图中的道路网信息联系起来 ,在使定位更加精确的同时 ,获取移动目标的移动轨迹 .目前已存在一些经典算法 ,将位置数据、路网数据以及道路特征 (如限速 )等信息加以融合 ,能够较为准确地还原移动对象的轨迹 .如ST-Matching 算法、 IVMM 算法、 Passby 算法等2023. 定义 4. 移动对象 oi的一条轨迹 j 记为12().iojtraj p p= ,|traj|表示轨迹上位置数据 p 的数量 ,称为轨 迹长度 .在不影响理解的情况下也可直接写作 trajj. 2 局部位置数据的特征提取 大数据分析的首要任务是从局部研究对

24、象中提取出价值 ,建立单个区域 ri或单个移动对象 oi的若干特征模式 .根据特征模式的提取方法 ,我们将其划分为如下两类 : (1) 一阶特征 :是指从区域内的位置记录、地图数据或移动对象历史轨迹中可简单计算获得的特征 ,如均值、方差等 ; (2) 二阶特征 :是指需要经过一些高阶统计处理才能获得的模式特征 .这些特征经过统计处理 ,能够在一定程度上消除原始观察数据混杂性所带来的影响 ,是本文归纳的重点 . 2.1 区域静态特征 s区域静态特征主要统计的是区域内与地图地貌相关的一些指标 ,可用于对不同区域进行聚 /分类处理 ,常见的区域静态特征包括14: (1) 路网特征 (road fea

25、ture,fRN) fRN是由区域内快速路的长度、普通路段的长度、道路交叉口数量、区域道路弯曲度、道路基质质量等特性所构成的特征向量 . (2) POI 特征 (POI feature,fPOI) fPOI可以为一个有关区域内 POI 信息的多维向量 ,包含各类型 POI 的数量及其变化率以及没有准确 POI 信息覆盖的区域面积等 . 2.2 个体移动模式特征 mp个体移动模式 (mobility pattern,简称 MP)以单个移动对象 o 为观察目标 ,包括其在一段时间内的移动独一性、随机性、周期性、转移性、动静间歇性和移动期望性等方面 . (1) 移动独一性 (uniqueness f

26、eature,funiq) 移动独一性可用来区别移动对象 ,定义为通过给定地图区域个数 |r|、区域平均大小 .rsize和统计时间间隔.r time ,唯一确定一条轨迹 trajj的概率 ,即 : Pr| | 2 | . , . ,| |jtraj r size r time r (1) 实证研究表明 ,当 .rsize和 .r time 相对合适时 (比如当 .rsize=0.15km2, .r time =1 hour),仅需 4 个左右的区域 (即|r|=4)便可以在茫茫人海中以很高的概率确定一条唯一的轨迹7.当 |r|固定时 ,这一概率与 .rsize和 .r time 分 别呈现相

27、似的幂律关系 ,即 : uniquniq(. )(. )f rsizef r time=(2)其中 ,为幂指数 ,与 |r|呈线性关系 ,满足 : =12|r| (3) 这说明 :参与决策的区域越多 ,幂指数越小 ,越容易确定移动独一性 .文献 7通过实证拟合 ,计算得到 1= 0.157,2=0.007. 通过观察很少的区域 ,便能唯一确定一条用户轨迹 .这既说明个体移动具有高度的规律性 ,也说明两两间移动行为具有很大的差异性 .这种实证拟合的方法同样适用于分析其他任何 LBD 数据集 .个体移动独一性 funiq可郭迟 等 :位置大数据的价值提取与协同挖掘方法 717 以用在大数据环境下的

28、个人隐私发掘或保护工作 .独一性大小反映出数据集所在人群的整齐划一程度 ,因此在不同数据集上分析个体移动独一性 ,将有助于通过位置大数据分析其背后人群的自由程度、政治体制和生活情态 ,这将是很有趣的 . (2) 移动随机性 (randomness feature,frand) 个体移动的随机性可用位置熵 (location entropy)来度量 .设 px为访问一个位置的随机变量 ,参照信息熵的定义 ,可以给出多类位置熵 : 假设移动对象 oi共访问了 |r|个不同的位置区域 ,其随机熵有 : H1=Hi(px)log2|r| (4) 进一步地 ,统计其在各个位置区域 =r1,r2,r|r|

29、上出现的概率 ,记为 Pr(r1),Pr(r2),Pr(r|r|),则其标准位置熵24有 : 22(|) Pr()logPr()ix j jHHp r r=(5) 再进一步 ,考虑到移动对象 oi位置记录的时序性 traj=p1p2,则位置时序熵有 : 32(| ) Pr()logPr()ixtr trajHHptraj tr tr=(6) 其中 ,Pr(tr)为在 traj 中找到一条特定的子时序序列的概率 ,其大小反映了该移动对象每移动一个位置的信息增 益 ,即 ,移动对象每随机行走 1 步平均有32H个选择 .一般来说 ,这个值是很小的6,7,说明个体的移动具有可预测 性2.文献 6在个

30、体移动随机性的基础上 ,对其可预测性进行了深入探讨 . 通过比较不同移动对象的位置熵的相似性 ,可用来进行朋友关系预测等24.此外 ,在 LBD 中 ,通过对 O 中所有的对象分别计算其位置熵 H(),继而获得熵的概率分布 PrH(),便可对整体数据集中的移动随机性进行度量 .位置熵还可以在不同时间尺度下 (如将工作日和休息日分开 )分别计算 ,这样可以对混杂的位置数据提取更多、更准确的知识 . (3) 移动周期性 (periodic feature,fperi) 对一个移动对象 oi来说 ,将其访问区域 rj的序列二值化 (1 表示访问 ,0 表示未访问 ),继而将该二值化序列进行离散傅立叶

31、变换 (discrete Fourier transform,简称 DFT),通过观察傅立叶系数最大的频率 ,即可获得该位置点被 访问的周期ijTP15. 假设一组位置区域 =r1,r2,r|r|具有相同的被访问周期 TP=t1,t2,tk,划分到 k 个时间槽 ,从而可以得到一个个体移动详细的概率分布矩阵 P=1,2,k,其中 ,每一个列概率向量 j=Pr(r1|t=tj),Pr(r2),Pr(r|r|).将 LBD 中 T 时段的位置记录按照周期 TP 分别生成TmTP=个概率分布矩阵 P1,P2,Pm,则可通过计算两两间 分布的 KL 散度 (Kullback-Leibler diver

32、gence)来分析移动对象的周期行为 . 将公式 (6)细粒化 ,可以得到一个更为精细的标准位置熵 : 21( ) Pr( | )log Pr( | )jkij ijtHP r t t r t t= = =(7) 则两两分布的相对熵有 : 11212 21Pr ( )(| ) Pr()logPr ( )kP jPjt P jrKL P P rr=(8)对连续 m 个位置概率分布 P1,P2,Pm按照相对熵大小进行层次聚类 ,可以得到频繁集最大的几个簇 ,代表移动对象 oi的几个典型周期行为18,如图 2 所示 .在聚类过程中 ,合并两个簇 Ci和 Cj的位置概率分布可简单计算为 | |jnew

33、iijij ijCCPPPCC CC=+(9) (4) 移动转移性 (transition feature,ftrans) 718 Journal of Software 软件学报 Vol.25, No.4, April 2014 衡量移动对象 oi在两个相邻时间段 Tbef和 Taft中是否存在区域集合 =r1,r2,r|r|上的转移行为 ,可以很方便地借助 Jaccard 相似性来统计8. 设移动对象 oi在 Tbef和 Taft时间段内在 上的访问概率分别为 =Pr(r1),Pr(r2),Pr(r|r|)和 ,则其 Jaccard系数满足 : | | | |11minPr( ),Pr (

34、 ) maxPr( ),Pr ( )rriii iirr rr=(10) i越小 ,说明移动对象的转移性越明显 .如果进一步对 T 内前后相邻的两个时间段分别计算 i,其期望i 可 表示移动对象 oi的整体转移性 . 转移性的另外一种常见的度量方法是计算移动对象 oi在 =r1,r2,r|r|的转移概率 ,使用马尔可夫过程对用户的行为进行预测 ,相关的方法在我们早前的论文中有详细描述2. Fig.2 Hierarchical clustering of periodic behaviour 图 2 周期行为的层次聚类 (5) 移动间歇性 (intermittent feature,finte)

35、 考虑到移动目标并不总是处于运动状态 ,则有必要从一段连续位置记录中发现其静止状态 ,以及估计造成这种静止状态的原因 :分为被动静止 (如车辆遇到红绿灯停车 )和移动目标主动静止 . 给定一条轨迹 traj=p1p2,若其中存在静止状态 ,则会出现较密集的几个连续位置点 pipi+1 pj.用密度聚类的方式将其归并 ,再根据归并后位置点所在区域的时空特征 可分类判定3,14. (6) 移动期望性 (expectation feature,fexp) 假设移动对象有一组伴随移动的状态 S=S1,S2,(见定义 1),每一类状态存在多种可能的状态值 11112, ,Sss .通过历史位置记录获得移

36、动对象发生状态转换的相关统计特征 ,称为移动期望性 .为了方便起见 , 我们将只阐述移动目标 oi的状态 S1发生转换的情况 . 定义 5. 移动目标从 T0时刻起 ,在路径 path=rd1,rd2,rd|path|上发生 1 次状态转换1112,s s 记为事件 W.由 于在一条路径 path 上可能包括停顿和移动过程两部分 ,不妨设存在 m 个停顿点 c1,c2,cm.假设该状态转换恰 好发生在路段 rdi上 ,记为子事件irw ;发生在停顿点 ci上记为事件icw .rdi.l 表示路段 rdi的长度 ,rdi.t 表示经过路 段 rdi需花费的时间 ,ci.t 表示在停顿点 ci的平

37、均停留时间 . 设移动对象在路段 rdi上发生状态转换的概率为111201Pr( ) Pr , .iiijjrd s s r T r t= +,则以其达到路段 rdi的时间01.ijjTrt=+为参考 ,取其前后各 k时间段内整体移动对象 o 的历史数据进行统计 ,则有 : 0011 11221 21Pr( ) | ( | ; ) | | ( | ; ) |iTiTikkrd s s rd s rd+=(11) 其中 ,01112| ( | ; ) |Tis srd 表示在 LBD 整体位置记录中 ,对应的那个时间段 内在路段 rdi上发生子事件 wi的次数 ; 周期行为 1 周期行为 2 周

38、期行为 3p2p12p11p10p1p4p3 p6p5p8p7p9郭迟 等 :位置大数据的价值提取与协同挖掘方法 719 011| ( | ; ) |Tis rd表示在路段 rdi上初状态为11s 的移动目标的个数 .将待分析的路径 path 分为多个路段分别进行统 计 ,再根据概率乘法原理求解移动对象在该 path 上事件发生的概率 ,是位置大数据分析中很常见的一种手段 ,被称为 partition-and-group3,25.这样做可以有效地利用 LBD 中的位置记录 ,避免直接按照 path 进行数理统计时 ,由于 path 过于独特或复杂而带来的样本缺失的影响 . 若移动对象在停顿点发

39、生状态转换 ,则其概率不仅与停止时刻有关 ,与停止时间长短也有关 .到达停顿点 ci 前经过了icn 个路段以及icm 个停顿点 ,则到达 ci的时刻为011,cciiinmcjjjjtT rt ct=+ +以此为参考 ,取其前后各 k时 间段内整体移动对象 o 的历史数据进行统计 ,则有 : 0011 11221 21Pr( ) | ( | ; ) | | ( | ; ) |iTiTikkc ssc sc+=(12) 因此 ,事件icw 发生的概率为 11Pr( ) Pr( ) (1 Pr( ) (1 Pr( )cciiinmci j kjkwc rd c= (13) 同理 ,可得11Pr(

40、 ) Pr( ) (1 Pr( ) (1 Pr( )rriiinmri j kjkwr rd c= ,到达路段 rdi前经过了irn 个路段以及irm 个停顿点 . 因此 ,在一个存在 |path|路段和 m 个停顿点的路径上 ,发生事件1112s s 的概率为 |11Pr( ) 1 (1 Pr( ) (1 Pr( )path mijijWrdc= (14) 根据公式 (14),可以进一步计算从 T0时刻开始到事件 W 发生时 ,移动对象所花费的时间期望 ET|W和距离期望 EL|W,以及事件 W 发生后到下次再次发生状态转换时的时间 ETN|W和距离期望 ELN|W: |111111 | P

41、r( ) . . Pr( ) . . Pr( )rr ccii iinm nmpath mrjj cjjij ijETW w rdtct w rdtct W=+(15) |1111 | Pr( ) . Pr( ) . Pr( )rciinnpath mrj cjijijE L W w rd l w rd l W=+(16) 在计算 ETN|W和 ELN|W时 ,仍然依照 partition-and-group 的思想 ,将距离 (0,lmax以 为单位划分为若干个连 续的区间 .设 rc=rdi,cj|i=1,|path|;j=1,m,则移动对象在 rci上发生1112s s 后到再次发生状态

42、转换 ,其间移动的距离为 的 j 倍 ,其概率01Pr( , ) Pr ( 1) , , .iiN ijjrc j L j j rc T rc t= +.同样 ,以到达 rci的时间01.ijjTrct=+为 参考 ,取其前后各 k时间段内整体移动对象 o 的历史数据进行统计 ,则有 : 00max21 21Pr( , ) | ( ( 1) , | ; ) | | (0, | ; |iN TiNTikkrc j L j j rc L l rc+= (17) 因此 ,事件 W 发生后 ,到下一次发生状态转换 ,其间移动的距离为 j的概率为 |1Pr( | ) Pr( )Pr( , ) / Pr(

43、 )ipath mrc iij WwcjW+=(18)移动距离的期望为 |1 | Pr( )Pr( , ) / Pr( )ipath mNrcjiEL W w rc j j W+=(19) 同理 ,也可以求得时间期望值 ETN|W. 2.3 区域交通动力学特征 d区域交通动力学特征以位置区域为观察对象 ,对区域内多个移动目标的动态移动行为进行抽取 . 720 Journal of Software 软件学报 Vol.25, No.4, April 2014 定义 6. 假设位置区域 ri内存在着多个移动对象的历史记录 ,记为 : ,|iirj ji rOoOor O= 在 处被观察到 为该区域

44、内被观察到的移动对象的个数 . (1) 区域混杂性 (diversity feature,fdiv) 统计一个区域内被访问的移动对象个体分布的差异 ,可以很好地区分不同位置区域的社会功能 .设移动对 象 oj在区域 ri内被观察到的次数为 ,ijfreq 则其访问区域 ri的概率为 Pr( )krijkji ioOo freq freq=(20)那么 ,参照公式 (5)可以定义该区域的访问熵 .很显然 :fdiv越大 ,说明该区域人员流动越混杂 ,一般出现在商场、银行等公共区域 ;反之 ,则说明该区域更加具有私密性24. (2) 区域流动性 (traffic feature,ftraf) 路段

45、上的转移花费时间 一个区域或一个路段上的转移时间花费是位置大数据分析中的重要特征 .在定义 5中 ,我们曾直接给出 rdi.t为经过路段 rdi所有移动目标所花费的期望时间 ,但由于移动目标在移动工具、驾驶习惯等方面的差异巨大 ,导致简单的期望时间往往不够精确 ,因此需要引入一个特征时间向量 tc0,tc1,tc2,tck(tc0=0),用 k+1 个特征时间 来反映路段 rdi的转移时间特性 .设12, , ird mTttt= 为路段 rdi上观察到的所有转移时间 ,经过特征时间向量tc0,tc1,tc2,tck可将irdT 划分为 k+1 个子集合 ,记为 T j=tcj10.原始介数指

46、标将这二者共同承担的那一部分重要性重复计算到各自结点中去 , 造成了重要性的高估 ; ii) 如果对网络中结点 ri进行摘除后可以发现 ,原本那些以 ri为最短路径的链路大部分 “取道 ”结点 rj,说明结点 rj对结点 ri具有潜在的替代作用 ,记为 ij0互有替代关系 ,因此 ,应该根据那些结点的重要性以及其与 ri的关联 程度 ,提高对iI 的评估 ,记为 ki,且 ki0;同理 ,由于 ri重要性的一部分是与之共生结点所共同承担的 ,应该在 Ii中适当减除 ,记为 ik,且 ik0.是一个系数因子 .iI 又被称为结点的超介数 .具体求解的方法可参考我们早期 的论文33,34. 依主分

47、量进行降维 依超介数降维的方法针对的是 LBDN 中的 ,此外 ,还可以通过主分量分析 (principal components analysis,简称 PCA)法对 L 进行空间降维分析4. 3.3 时间尺度上的降维处理 在前文中 ,我们提及 Ts=t1,t2,tm,通常表示将一天划分到 m 个时间片去观察 LBD.事实上 ,只有观察到移动对象的整体移动模式在各自时间片下具有显著不同的差异时 ,划分的时间片才有意义 .那么如何找寻和量化这种 “显著差异 ”呢 ?不失一般性 ,我们在一天 24 小时内观察 O 中的每一个移动对象的某种移动行为特征 f.设f=1,2,m有 m 个取值 ,则对每个移动对象可以用二元组 timei,j表示 ,得到全体样本集合 S=timei,j,其中 , timei表示观察时刻 .那么 ,在该样本下移动行为特征 f 的熵为 21

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报