1、基于移动通讯数据的用户行为可视分析 李艳妮 敖成凤 吴亚东 王松 张红英 西南科技大学信息工程学院 西南科技大学计算机科学与技术学院 摘 要: 手机通话记录数据反映了人类的生活行为。基于数量庞大、类型繁多的移动数据, 设计了多视图多粒度可视方式, 对城市居民消费分布规律、个体活动轨迹、个体紧密社会关系网络进行分析;基于数据的时空属性, 关联时空对比可视分析, 对个体活动位置、活动范围等进行分析;在此基础上, 设计并实现了移动通讯用户行为可视分析系统。结果表明, 该系统在用户交互下能有效识别用户活动规律。关键词: 通话记录; 移动轨迹; 社交网络; 可视分析; 作者简介:李艳妮 (1992) ,
2、 女, 研究生, 研究方向为信息可视化、可视分析;作者简介:吴亚东 (1979) , 男, 博士, 教授, CCF 会员, 研究方向为人机交互、可视化、图形图像处理, E-mail:收稿日期:2017-08-11基金:西南科技大学研究生创新基金资助 (17ycx120) Visual Analysis of User Behavior Based on the Mobile Phone DataLI Yanni AO Chengfeng WU Yadong WANG Song ZHANG Hongying School of Information Engineering, Southwest
3、 University of Science and Technology; School of Computer Science and Technology, Southwest University of Science and Technology; Abstract: With the development of mobile communication technology, telephone and other means of communication quickly spread and produced a lot of data.The mobile phone c
4、all record data reflect the human life behavior with great research value.In view of the large amount of mobile communication data and the large number of data, a multi-view multi-granularity visualization method is designed to analyze the law of urban consumption distribution and individual moving
5、trajectories.Based on the temporal and spatial attributes of data, a visual analytical method of temporal and spatial correlation contrast was proposed to analyze the individual activity position, activity range and activity mode.Visual analysis system of user behavior based on the mobile phone data
6、 was designed and realized.The test results show this system can effectively identify user activity rules in case of user interaction.Keyword: Call detail records; Mobile trajectory; Social network; Visual analysis; Received: 2017-08-11人类个体/群体移动特征是多学科共同关注的研究主题, 移动定位、无线通讯和移动互联网技术的快速发展使得获取大规模、长时间序列、精细
7、时空粒度的个体移动轨迹和相互作用的定量化成为可能1。随着移动通讯技术的快速发展和移动电话的大范围普及, 产生了海量的移动数据, 这些数据隐含着用户的位置移动, 对用户行为活动规律的研究具有重要意义。目前, 对于手机数据的分析主要分两种:一是基于移动业务数据, 最常使用的是移动通话业务数据、短消息业务数据等;二是基于手机应用软件的数据。刘震等2通过移动通话记录数据对人类行为轨迹进行拟合, 并提出 Math 算法来预测用户轨迹。Aslam 等3基于 Android 智能手机, 使用移动传感器捕捉和可视化个人行为, 主要分析了个人的应用程序使用情况并根据活动应用软件记录数据来分析个体体育活动情况,
8、并未探索个人移动模式。对于移动通话记录数据的研究, 国内主要有两大方向。一是基于移动通话记录分析人们的运动模式, 从而认识人类活动的普遍特征。Kang 等4通过对我国东北城市的手机通话数据进行分析, 调查探索了城市的人群迁移模式, 得出人们在城市的移动一般遵循指数律, 且指数与城市大小和形状有极大关系。Dixon 等5通过 k-medoid 聚类算法对基站位置聚合, 分析了人群的日移动模式, 包括工作日和周末的移动趋势、公共假日的流动行为、日常旅行的分布特征等。二是基于移动通话数据对人群分布/流动进行分析, 其结果间接地探索了道路交通、地理分布等城市感知问题。Gao 等6考虑到多个手机用户位于
9、一辆车上, 因此使用了一种聚类算法来获得车辆数, 并进一步评估交通, 包括车辆速度、类型、交通密度等。但针对目前移动通话数据研究现状, 还有几点需要进一步探索:一是随着手机的普遍应用, 数据量急剧增长, 数据分析难度加大;二是当前对于个人的移动行为研究太欠缺;三是对移动通话记录数据本身的利用率较低, 即对该数据的属性利用不完全等。针对以上问题, 本文提出了利用多视图多粒度可视分析方式来分析基于概率辐射模型的用户活动模式, 并提出了自适应的概率型社会关系图, 可实现对用户活动模式、活动范围、活动位置、社会关系等内容的分析, 可为政府部门对个人信息定位等提供可靠依据。1 移动通讯记录数据可视分析针
10、对通话记录数据, 本文设计了如图 1 所示的系统框架, 其包括数据处理和存储层、模型构建层和通讯数据可视分析层, 其中数据处理层主要通过巴莱多定律对用户分类;模型构建主要基于图论和概率统计知识结合聚合算法构建人均消费分布、个体活动模式、紧密社会关系网络;可视分析层利用处理后的移动轨迹数据或时序通话等对不同的研究目的进行可视分析。1.1 通话规律和人均消费分布挖掘移动通话记录不仅仅是个人的移动快照, 还侧面体现了人们的日常行为及城市的消费情况。且已有研究证明最常用/重要的呼叫行为指标为呼叫时长和呼叫次数6, 因此, 本文使用这两项指标结合数理统计的原理来分析该城市人们的活动规律和消费分布。图 1
11、 移动通讯可视分析系统框架图 Fig.1 Frame diagram of visualization analysis system of mobile communication data 下载原图由于我国城镇居民的人均可支配收入与人均交通通讯消费之间存在长期的平衡关系, 交通/通讯消费与人均收入之间存在显著的正相关关系7, 所以, 构建人群通讯消费分布, 作以下假设:(1) 每一个手机号码关联一个具体的用户;(2) 相同的电话号码视作同一用户;(3) 该城市的所有用户通话记录都包含在内;(4) 城镇居民通讯消费分布在一定程度上体现了人均收入分布。由此, 可以建立通讯消费人群分类模型。定义
12、 1 以通话记录的指标 DF 和通话对象作为权值的有向图定义为 U (C, V, W, F) 。其中, C 表示用户类别集;V 表示用户点集;W=W i, j (DF, R) |iC, jV表示有向边的权值集合;F 是将权值赋给边的映射 F:V-C。基于上述分类模型的定义, 由于通话记录数据属性繁多, 本文使用主成分分析算法简化通话消费指标, 采用分类指标总通话时长、总通话次数和总联系人数 Relates, 进而得到指标:其中 wd, wf是校正因子, 且 wd+wf=1。由此, 据指标 DF 和 Relates 将用户分为 9 种类别, 删除/合并不存在或较少的类别之后, 获得 6 种群体:
13、联系人数较少且通话较少的用户、联系人数较少但通话较多的用户、联系人数中等通话中等的用户、联系人数中等但通话很多的用户、联系人数较多但通话中等的用户及联系人数很多通话也很多的用户。其结果符合帕累托“二八准则” (也称巴莱多定律) , 从而, 获得用户活动规律。(1) 主要针对时间属性, 采用多粒度可视方法, 分析用户的活动时间规律。一方面分析用户活动时间规律, 另一方面也为用户划分指标的权重确定提供依据。本文基于不同时间段的通话总时长、总通话频次属性采用时序热力图的可视方式来进行分析, 流程如图 2 所示。图 2 活动规律流程图 Fig.2 Flow chart of activity rule
14、s 下载原图(2) 主要针对地理位置属性, 采用热力图可视方法, 分析城市人均消费分布。此处基于 DF 指标对人群分类的结果和通话基站位置, 使用地图可视化, 对城市人均消费进行分析, 流程如图 3 所示。图 3 城市人均消费分布流程图 Fig.3 Distribution diagram of urban per capita consumption 下载原图1.2 活动轨迹挖掘移动通话行为具有显著的规律性及差异性, 且各类轨迹数据均由起始点、锚点和一般节点等构成, 因而将轨迹模式挖掘的研究按照锚点、出行范围、形状模式、OD 流模式、时间模式等进行组织, 揭示人类活动轨迹在时间、空间的从聚模
15、式、周期性等特点8。根据已有研究, 证明了锚点的有效性, 即通过移动对象停留时间较长的节点或对象到访该位置点的频次等来反映移动对象的从聚模式;证明了用到访频度来分析影响移动电话用户和个人移动模式划分的社会选择因素, 如性别、年龄等9。因此本文使用了到访频度和聚合算法来模拟用户活动轨迹, 具体如图 4 所示。图中, s, p 分别表示用户在位置区 s 处活动的可能性大小 p, l 则表示用户活动范围大小。图 4 活动轨迹模型 Fig.4 Activity trajectory model 下载原图该模型假设 SetRecordsi=RS (T, B) 表示用户 i 的所有通话记录集合, 其中 T
16、表示时间集合, B 表示基站位置集合。用户 i 的每条通话记为, 其中 tj为通话开始时刻, 且 tjT。Tower j (xj, yj) B, 其表示的是通讯使用的基站位置。用户 i 的通话记录集合 Recordsi=, , , |tjT, t 1, , 。其中连续停留因子计算如下:基于以上定义, 对时间属性采用多粒度可视方法来分析用户活动位置、活动范围、活动方位等。采用多视图可视方法时空视图对比, 可验证用户活动位置等。整体流程如图 5 所示。图 5 活动轨迹挖掘 Fig.5 Trajectory mining activities 下载原图1.3 社会关系挖掘社会网络中对象之间的关系研究
17、就是对用户间的亲疏度量化。社会网络理论根据分析的着眼点不同有两个要素:关系要素和结构要素, 前者注重对象之间的社会粘连性, 通过社会联结的强度、密度、规模等来说明特定的行为;后者则注重对象在网络中的位置, 通过多个对象之间的关系所折射出的社会结构10。Saramki 等11通过对单个对象的联系人物排名获取其相应的联结对象, 并采用坐标显示亲密关系。此外, 关系数据可以用网络图进行描述。网络图属于图论的内容, 它将关系数据转换为一些形式上的概念和定量, 从而与社会网络的一些实质性特征直接关联。图论关注一系列要素构成的集合及这些要素之间的关系, 要素被称为点, 关系称为线, 表达了各点之间关系的定
18、性模式。因此, 本文基于社会关系网络图论和概率统计相结合的方式, 提出了自适应概率型社会网络关系图 (图 6) 。图中:s, L i, pi分别表示源用户、联系紧密度等级 (已将联系紧密度分为 lmax+1 个等级) 、该概率等级下的联系用户。该模型涉及社交紧密度和概率型社会关系网络两个概念。图 6 概率型社会关系网络图 Fig.6 Diagram of social network probability 下载原图定义 3 社交紧密度定义概率点对为用户 s 与社交对象 o 之间的联系紧密度 p, 其中紧密概率的计算如下:其中 Nd, j表示与第 j 个对象的通话时长;N r, j表示与第 j
19、 个对象的联系次数;, 为校正因子, 且 +=1定义 4 概率型社会关系网络基于图论的有向网络定义为 G (s, P, U, F) 。其中, s 表示个体用户;P 表示概率集合, 记作 Pp1, p2, p3, |1p1p2pk, 该概率集合设定可根据使用人员自行设置, 获得 k+1 个等级;U 表示社交对象集合, 引入概率因子, U (O, I) 可重写为 U, , , , , 其中概率区间 Lj计算公式如下:F 是将自适应获得的对象赋给对象用户的映射 F:s-U, 其实质为:得到的自适应概率型网络, 可采用力导图可视方法, 根据自己的要求对紧密度分级, 也可以对不同概率等级下的用户自适应的
20、识别并显示。此外, 还结合地理位置信息分析了单个联系对象的活动位置变化。相应的可视化流程如图 7 所示。图 7 概率型网络流程图 Fig.7 The flow chart of probabilistic network 下载原图2 移动通讯用户行为多视图多粒度可视分析一般我们使用坐标来反应数据的密集程度, 但当数据量庞大时, 重叠等问题使得分析效果杂乱, 人们无法直接了解数据的分布特征。本文针对时间、空间、统计量等维度数据采用了多视图多协同并多跨度分析的技术, 设计如图 8 所示的可视分析框架, 对比多个视图, 验证用户活动位置、活动范围;采用颜色尺度和空间位置分析不同消费水平的用户地理分布
21、;采用不同时间跨度, 分析用户的活动时间规律等, 可以很好地降低数据重叠的问题。图 8 通讯数据可视分析架构 Fig.8 Visual analysis framework of communication data 下载原图2.1 个体用户活动位置、社会关系的多视图可视分析多视图分析是使用多种技术同时对一个数据对象进行可视化, 并通过交互实现多种技术的融合、嵌套的多视图并行协同分析。本文主要对用户通话记录进行不同角度的分析, 采用坐标轴、地图、力导图等相结合来多视图协同的分析了用户的移动轨迹, 并使用交互技术来验证个人轨迹、位置信息等。针对地理位置和时间属性, 采用地图和时序坐标轴视图关联,
22、 对活动模式构建中的活动轨迹进行分析。基于地理位置采用地图可视化分析, 基于时序信息采用坐标轴 (横轴代表时间, 纵轴代表通话指标) , 两个视图形成“时空”关联对比, 对用户的不同位置停留的次数进行分析。如图 9 所示, 视图 A 用圆点大小来体现对该位置的到访频次, 两点之间的连线代表用户在该两位置之间来回的频度, 同时视图 B 使用双坐标轴分析了用户随时间的位置信息, 横轴代表时间, 纵轴上半部分代表用户在该时刻的位置, 下半部分代表用户该次电话的漫游情况, 从而获得用户随时间的位置变化及该用户的活动范围、常到访位置等信息。图 9 个体用户活动轨迹分析图 Fig.9 Analysis c
23、hart of individual user activity track 下载原图基于社交关系和活动位置信息, 采用地图和力导图的交互技术, 对上述的概率性社会关系网络, 采用“概率-力导图”的模式, 对原有的力导图模型赋予不同的层含义 (一层代表源用户;二层代表联系紧密区间;三层代表同步紧密区间下的联系对象) , 并通过交互技术, 对地理位置信息进行快速的局部查看, 以此对不同等级/概率的社交对象通话情况进行分析, 如图 10 所示, 通过交互技术查看与不同联系对象的活动子图, 对比可验证用户的活动位置, 分析不同联系对象的活动位置等。2.2 用户通话量、社会关系以及个体活动轨迹的多粒度
24、可视化多粒度可视分析则是对某一属性进行不同粒度的可视分析, 实质上是对数据进行不同跨度的可视分析。本文主要有以下几方面的应用:图 1 0 个体社交关系网络图 Fig.10 Diagram of personal social network 下载原图一是体现在对通话量的统计上, 本文基于通话次数 Frequency 和通话时长Duration 指标, 对时间属性采用多尺度分析, 并与热力图原理进行结合, 使用“时序热力图”对时序的统计量通话次数/时长进行分析, 同时对不同尺度展开不同视图的应用, 以更好地分析, 如图 11 所示。Fig.11 通话量变化趋势 Fig.11 Diagram of
25、 call volume change trend 下载原图采用坐标轴分析了每天的总通话量, 对比通话时长和通话量的变化趋势。如视图 A 中, 对可能性事件进行探索, 两处峰谷 a 和 b, 经调查发现很有可能是学生寒暑假导致, 分析结果为指标 DF 的校正因子 wd, wf提供依据。另一方面, 采用时序热力图分析每天、每周的通话量变化情况。如视图 B 通过每天、每周的不同时段的通话量来分析人类活动高峰期, 对比之后发现人类一般从 7:00-8:00 基本开始活动;9:00-11:00, 12:00-13:00, 17:00-19:00 多是交流活动高峰期, 且周末高峰期时段稍减。二是体现在概
26、率型社会关系网络图力导图的关系树上, 基于社交网络采用力导图, 并结合概率论, 形成的力导图不仅是一种层次关系, 还给予了联系关系紧密的粒度提升, 关系紧密度 p 由高到低 (点由大到小) , 从高紧密联系用户宏观的把握用户的家庭住址、工作位置信息, 再到低紧密度联系用户的数据分析验证以上结果, 如前述图 10 所示。三是体现在动态的活动轨迹上, 基于时间属性采用时间刷选取的方式来自由选择时间段, 对活动轨迹进行自由的兴趣时段选择。基于位置属性采用动态的位置移动方式, 形成动态的活动轨迹。如图 12 所示, 图中 a, b, c, d 分别是单个对象某天、某几天、某一月、某几个月的动态移动轨迹
27、, 其整体上分析了该用户在所选时间内的位置移动信息, 其次可以通过单击动态查看该用户在某时刻位于什么位置以及移动变化的规律该用户在哪两位置之间频繁来回移动等。Fig.12 个人轨迹的多粒度呈现 Fig.12 Multi-granularity rendering of individual trajectories 下载原图3 案例分析本文使用的数据是某市用户 5 个月的详细通话记录数据, 主要包括数据项有双方用户、通话时间、漫游信息和通话基站位置信息。根据需求, 整体架构基于Django 框架, 使用了多种可视化方式, 主要有多视图多粒度协同分析和时空关联对比分析等。主界面如图 13 所示,
28、 A 区域为所有基于地图可视化的分析模块, B 可移动区域为协同分析模块, C 区域是整个系统的分析控制模块。Fig.13 通讯数据可视分析系统界面 Fig.13 Visual analysis system interface of communication data 下载原图该系统功能主要通过控制区 C 来控制系统中的数据, 功能分为以下几方面: (a) 通话量分析:主要对比一周每天 24 h 不同时段的通话量情况, 以分析该城市居民活动时间规律; (b) 单用户分析:包括地理空间上的活动轨迹、时间线上的位置变化、个人紧密社会关系网。从时间和空间两个方面进行了分析, 探索了个体用户的活动
29、区域、活动范围、活动位置等信息; (c) 类别用户分析:包括各类别用户的分布、城市居民消费分布、各类别用户之间的联系。主要从地理空间的角度分析了该城市居民的消费情况。3.1 数据集介绍本文中采用了绵阳市 5 个月的用户通话记录数据, 共计 20 562 730 条记录。其主要属性如表 1 所示。表 1 手机呼叫详细记录数据 Table 1 Detail record data of mobile phone call 下载原表 本文中大部分分析都是基于轨迹, 需要地理位置信息, 因此需对源文件数据修证, 即我们需要使用位置区码 LAC (Location Area Code) 和小区识别码Ce
30、ll_ID 对源文件进行关联。本文中, 为了方便后续分析, 对部分缺失经纬度信息的通话记录删除, 其次, 为了精确性, 需要删除重复的通话记录, 更正或删除部分丢失、错误的数据。其结果得到可使用记录 16 114 422 条, 其数据量仍旧庞大, 可认为其对后续分析影响不大。3.2 案例分析(1) 通话量分析该部分对获得的 6 类群体进行地理分析, 获得不同类别用户的活动位置分布, 如图 14 所示。通过对比可以看出, 市中心各个消费阶层的人物都有。其次, 除却市中心位置, 对于消费较低的只有零星的几个区域且分布于西北方向 (较多) 和东方;对于消费水平较高的主要分布于西北、北方、东南 3 个
31、方向, 且着重于北方;对于消费中等的人群比较分散, 其分散于各个方向, 符合城市居民消费的一般规律。Fig.14 用户消费地理分布图 Fig.14 The spatial distribution map of user consumption 下载原图此外, 本文对不同类别之间的交流情况进行分析, 得到结果为:绵阳市消费水平中等的用户占 52.0%;其与消费中上游的用户联系最多, 占比 19.2%+21.7%=40.9%。此外, 联系人数较少的用户群基本上都只与消费中等的人群进行联系, 联系人数较多的用户群体占其圈内通话时长中等人群的 15.8%, 占其圈内通话时长很长人群的 6.7%, 部分结果如图 15 所示, 说明了绵阳市消费水平为中等。该结果简单明了地看出不同消费群体的分布和城市大致功能区, 同时从具体的数据方面验证7了通讯消费和人均消费关系, 有具体的现实意义。