收藏 分享(赏)

第4组_职场新人手机用户精准识别.doc

上传人:myw993772 文档编号:7744862 上传时间:2019-05-25 格式:DOC 页数:18 大小:707.58KB
下载 相关 举报
第4组_职场新人手机用户精准识别.doc_第1页
第1页 / 共18页
第4组_职场新人手机用户精准识别.doc_第2页
第2页 / 共18页
第4组_职场新人手机用户精准识别.doc_第3页
第3页 / 共18页
第4组_职场新人手机用户精准识别.doc_第4页
第4页 / 共18页
第4组_职场新人手机用户精准识别.doc_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、福州大学第八届数学建模竞赛A 题 职场新人手机用户精准识别参赛组号:4参赛人员:何立鹰 110320051 (组长)陈丽珠 110320038陈赛英 110320020A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 2 -福州大学第八届数学建模竞赛A 题 职场新人手机用户精准识别摘 要本文基于统计的思想,并利用数据挖掘技术,对职场新人手机用户识别的方法进行了研究,并设计出一套用户识别的模型体系,该体系能够对职场新人手机用户进行有效识别。这个模型体系主要包括六个步骤:数据预处理、数据分析、模型建立、结果输出、模型验证、用户识别。将已知数据导入 SPSS 统计软件中

2、,并在 SPSS 软件环境下对数据进行预处理、相关性分析,得出各个特征的相关性系数,从而进行特征降维,并从中获取决策特征:用户级别、套餐档次、消费金额、是否 3G 用户、资费变更次数、手机操作系统类型。根据分析结果建立模型,采用比例标度法对上述六个决策特征进行权重计算,并对用户的特征数据进行数据标准化处理。最后使用特征指数计算模型进行得分计算,根据输出结果和参考信息进行用户识别。本建模对于问题一,利用 SPSS 对影响本网用户是否为职场新人手机用户的最重要的六个特征等进行了统计分析,对相关量的平均值、最大最小值以及方差进行了计算,并进行相关性分析,得出了判断是否为职场新人手机用户的准则。关键词

3、:职场新人、用户识别、SPSS、层次分析法、比例标度法 一、问题重述随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。人们随时随地使用手机打电话、发短信、上网,而用户的这些行为以及其个人基本信息均在运营商中有所记录。职场新人,通常指处于毕业前的实习阶段或刚毕业离开校园(专科或专科以上学历)工作不到一年的年轻群体。他们虽然收入不高,但暂时也没有太多压力,经常追求新鲜事物、乐于且敢于消费。他们有着各自的职业追求,是社会的潜在精英,将成为运营商未来的高端用户。下面给出某城市某运营商的手机公众用户数据,其中: 用户资料表:本城市本运营商 201

4、2 年 2 月时在网的所有手机公众用户的个人基本信息、终端信息、套餐情况、费用情况等数据;A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 3 - 通话清单表:记录了上述手机号码在 2012 年 2 月份每天的通话情况,包括主叫、被叫以及市话、长途和漫游通话; 短信清单表:记录了上述手机号码在 2012 年 2 月份每天的短信发送和接收情况。为了便于针对不同用户推出合适的产品和服务,需要精准地识别用户类型。请结合以上三张表,识别该城市的职场新人。二、基本假设1)假设本网手机用户的行为特征在相当长的一段时间内没有太大的变化。2)本网手机用户的等级是相对固定的。3)手

5、机用户定时缴纳话费及相关费用。4)假设获取的用户信息都是真实的、准确的。5)假设用户信息可以准确量化。6)假设身份证归属地、性别、号码办理日期对分析是否是职场新人没有影响。三、符号说明G 目标层 PROB_LEVEL 套餐档次C 准则层 CUST_LEVEL 用户级别P 方案层 OS_TYPE 操作系统类型A 判定矩阵 IS_3G 是否 3G 用户W 权重向量 CONSUME_AMT 消费金额SCORE 加权得分 OFR_CHANGE_CNT 资费变更次数四、问题分析根据搜到的相关资料以及对数据的分析,我们给出职场新人的相关定义:1) 年龄基本上在 20 岁以上,28 岁以下。 2) 经常追求

6、新鲜事物、乐于且敢于消费,具有较高的消费倾向。3) 需求多样化,个性化和高档化,喜欢高质量高价值的品牌商品。 由于数据量大,因此小组决定采用 SPSS1数据统计软件进行数据处理。经过初步数据分析后,发现数据中 99.9%的用户停机次数为零,因此该特征对决策的贡献不大,将不作为决策特征。用户信息中的身份证、性别特征与用户是否为职场新人关系粘滞度较弱,因此 SPSS 统计时不对这两个特征进行分析。A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 4 -经过对问题分析后,小组制定出本次建模的基本处理流程,如下图 1 所示:图 1 五、模型建立及求解5.1 数据分析及特征

7、降维针对所给数据中的用户特征字段,包括本网手机号码、城乡标识、身份归属地、是否 3G 等 25 个用户特征字段,进行数据分析前先进行数据预处理,如将操纵系统类别映射为 0-2 区间值,用户年龄为空或者值非法将其置为 0 等。手机操作系统类型预处理,如图 2 所示:图 2首先,将数据导入 SPSS 软件后,使用分析-描述统计-描述,功能统计字段的均值、方差、最大和最小值等,分析样本数据数据分布情况,统计结果如A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 5 -图 3 所示(图中特征字段代表意义见附录一):图 3其次,使用 SPSS 软件的分析-相关-距离,计算变

8、量间的距离,对结果进行标准化 2到 0-1 区间,使用 Pearson 方法进行相关性检验 3。从中计算各个变量间的相关性系数,统计结果如图 4 所示:A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 6 -图 4根据上面表格提供的信息,我们无法从中获取相关的信息,因为数据变化比较大,变量之间的相关性较均匀,根据在问题分析中,给出的职场新人的年龄区间在 20 到 28 岁,使用 SPSS 软件的数据-选择个案功能,对数据进行筛选,分析统计 20-28 岁区间的用户的相同变量的均值、方差、最大和最小值,以及相关性统计,结果如图 5 和图 6 所示:A 职场新人手机用

9、户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 7 -图 5图 6A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 8 -最后,通过对比均值、最值和方差,并进行相关性系数分析,以及结合问题分析中职场新人的相关定义,可观测到:1)消费金额与流量费、市话费、长途费、漫游费、通话费、增值费和短信费密切相关;2)流量费与上网流量和上网时长密切相关;3)用户等级和是否 VIP 密切相关。根据上述数据分析结果,把相关性大的那些特征用具有表征意义的特征表示,这样避免用户特征权重计算时重复计算,而影响用户识别,因此进行用户特征降维,最后得出六个具有代表意义的特征:用

10、户级别、套餐档次、消费金额、是否 3G 用户、资费变更次数、手机操作系统类型。5.2 模型建立5.2.1 模型层次根据 5.1 降维所得的特征,采用层次分析法 4建立模型,如图 6 所示。层次分析法,简称 AHP 法(Analytical Hierarchy Process)是一种综合定性和定量的分析方法,可以将人的主观判断标准,用来处理一些多因素、多目标、多层次复杂问题。图 75.2.2 模型分析A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 9 -层次性是系统结构的一般形式,它普遍存在于自然界、生物界、人类社会乃至人们的思维方式。一个复杂的系统,通过层次分解

11、,可以化成若干个简单的系统,因此这对简化问题具有普适性,这是层次结构模型的优势。针对上一层某个准则,把下一层与之相关的各个不可公度的因素通过两两对比,按重要性等级赋值,从而完成从定性分析到定量分析的过渡,这是层次分析法的又一个优势。但是模型求解中的合成权重向量之和为 1,方案越多,方案权重差距会越小,虽然可以比较,但是差距越小,比较结果的信服度越低。方案越多时,方案层对准则层每个因素的判断矩阵越大,导致确定判断矩阵的工作量和求解模型的工作量都增大,层次分析法虽可理论上解决本文问题,但在实际应用中并不值得推广。因此我们对此层次模型进行改进,对准则层仍然采用层次分析法,而对方案层采用特征加权法进行

12、问题的处理。具体处理过程见 5.3 模型求解说明。5.3 模型求解5.3.1 比例标度法计算特征权重1. 比例标度法 5基于 5.2 层次结构模型,采用常用 A.L.Sarry 的 1-9 比例标度法(以下简称比例标度法)作为确定指标重要性的标准,对指标的重要性进行量化。比例标度法主要是基于人们在估计事物的质的区别时,一般可以用 5 种判别很好地表示出来,当需要更高的精度时,还可以在相临判别之间做出比较,从而形成 9 种判别,用数量表示就是 9 个标度(参见下表)标度及其含义如表 1 所示:表 1标度 含义1 表示两个元素相比,具有同样重要性3 表示两个元素相比,前者比后者稍重要5 表示两个元

13、素相比,前者比后者明显重要7 表示两个元素相比,前者比后者强烈重要9 表示两个元素相比,前者比后者极端重要2,4,6,8 表示上述相邻判断的中间值倒数 若元素 与 的重要性之比为 ,那么元素 与元素 重ijijaji要性之比为 1ij2.权重计算A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 10 -5.2 中准则层元素为【用户级别、套餐档次、消费金额、是否 3G 用户、资费变更次数、手机操作系统类型】 ,准则层对目标层的判定矩阵为:14324513261455A 上述矩阵中数字 4/3 表示指标 CUST_LEVEL 与指标 CONSUME_AMT 相比CUS

14、T_LEVEL 重要。一般比值大于 1 表示前者重要, 比值越大越重要;比值小于1 表示前者不重要,比值越小重要性越低。又如:表中数字 3/4 表示指标CONSUME_AMT 比指标 CUST_LEVEL 不重要。根据上述矩阵,在 Matlab 中计算判定矩阵 A 的特征向量,得出权重向量 0.739.10.34.2609.4350.217TW。3.一致性检验判定矩阵 对应于最大特征值 的特征向量 ,经归一化后即为同一层AmaxW次相应因素对于上一层次某因素相对重要性的排序权值,这一过程称为层次单排序。即:若 的最大特征值 对应的特征向量为ax,则123456TWww 6,5432,1,jii

15、j即 。1112345621333 56244 41355524666135Aw 对判定矩阵的一致性检验的步骤如下:A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 11 -(i) 计算一致性指标 : 。CImax1n(ii) 查找相应的平均随机一致性指标 (random index) 。RI下表给出了110阶正互反矩阵计算1000次得到的平均随机一致性指标。表2 平均随机一致性指标 I矩阵阶数1 2 3 4 5 6 7 8 9 10RI0 0 0.52 0.89 1.12 1.26 1.36 1.41 1.46 1.49计算一致性比例 : 。CRI(iii) 当

16、 时,认为判断矩阵的一致性是可以接受的;当 时,.1 0.1CR应该对判断矩阵做适当修正。本次建模中计算得出 =6,计算过程和结果见附录二,将结果计算可得max,判定矩阵 A 的一致性是可接受的,计算出的特征向量也是可0.CR接受的。5.3.2 数据标准化 6数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,如一个百分制的变量与一个 5 分值的变量只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,本次建模对 5.1 得出的特征数据进行 Z 标准化,即均值为 0,方差为 1。Z 标准化方法基于原始数据的均值和标准差进行数据的标准化。将用户数据的原始值 标准化到 。Z 标

17、准化方法适用于属性值超出取值范围的离群数据X的情况,由于原始值存在离群数据情况,因此这种方法刚好适合。Z 标准化可表述为:( :算术平均值, :标准差) 公式一()/标准化后的变量值围绕 0 上下波动,大于 0 说明高于平均水平,小于 0 说明低于平均水平。5.3.3 特征加权进行完上述数据标准化步骤后,对处理后的数据进行特征加权计算,其中用户数据记为 ,权重向量为),(654321xX,使用公式二计算用户加权得分记为 。,(321wWT S公式二xwxS 654321 A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 12 -其中, 为用户级别, 为套餐档次,

18、为消费金额, 为是否 3G 用户,1w2w3w4w为资费变更次数, 手机操作系统类型。565.3.4 结果输出特征加权所得得分结果降序排列结果,如图 8 所示:图 8根据 5.3.3 计算得分,得分结果分布情况和统计量如图 9、图 10 所示:A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 13 -图 9图 10阈值 7选择:由图 9 的得分分布情况、图 10 的得分统计量以及输出结果的数据分析,我们选择得分在-0.65 以上的用户为职场新人,这些用户占年龄 20-28 以及未标记年龄的用户的 85%左右,表明 20-28 年龄段的群体中 85%的用户属于职场新

19、人,符合现实世界中的概率分布。六、模型检验本模块检验计算得到的得分比较高的用户的六个特征是否与我们分析的职场新人定义相同。观察图 8,我们可以看出,得分较高的用户,使用的手机操作系统基本上是android 以及 windows mobile 操作系统,且大部分是 3G 用户,由于 android手机操作系统以及 3G 技术的普及,目前较多年轻人都使用该系统的手机并成为A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 14 -3G 的用户,职场新人处于这一年轻群体中,必然会追求新鲜事物,购买android 手机,并体验 3G 服务。观察下表 3 和表 4 的统计结果

20、,可以看出,在得分较高的前 1000 名用户中,套餐档次以及消费金额均比年龄处于 20-28 岁以及年龄未知用户的平均水平高出很多,可见我们所选择出的职场新人具有较高的消费水平,符合我们定义的职场新人的准则。表3 表4统计量PROB_LEVEL CONSUME_AMT有效 122654 128844N缺失 6190 0均值 107.59 39.7989标准差 53.162 46.73937方差 2826.159 2184.568通过图 8,我们还可观察到,得分较高的用户均更改过 1 次资费,验证了职场新人乐于尝试新鲜事物,享受改变带来的乐趣。得分较高的用户等级基本上是 3,属于中等用户,其中有

21、小群体属于高级用户,因此职场新人有倾向成为高级用户。综上所述,通过建立的模型,我们找到符合本文定义的职场新人。通过得分较高用户的数据观察,我们还得出以下结论:1、职场新人较多居住在市区,这可能与市区具有较多工作岗位有关;2、得分较高的职场新人通常会购买价位较高的手机,这也符合职场新人虽工资不高,但勇于消费的特征。3、职场新人较多是 VIP,可成为运营商的潜在高端用户。4、职场新人的上网流量以及上网时长都很高,这符合追求新鲜事物的年轻群体的特征。七、模型优缺点(一)模型优点1本文考虑了特征之间的相关性,进行了特征降维处理,有效地消除无关和冗余特征,提高挖掘任务的效率,改善识别的精确性。2模型能够

22、适应于不同类型的用户识别,适用范围广。对于具体的情况,可以对模型进行适当的调整与修改。3本文在数据的处理分析过程中运用了 SPSS 软件,通过这个软件处理并统计量PROB_LEVEL CONSUME_AMT有效 999 999N缺失 0 0均值 170.90 180.2693标准差 55.754 153.68509方差 3108.524 23619.108A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 15 -分析数据,准确而效率高。(二)模型改进1.本文使用特征选择方法进行特征降维,即从特征集 中选择12,.sTtt一个真子集 ,满足( ) 。其中:s 为原始

23、特征集的大小;12,.sTtt是选择后的特征集大小。该方法具有一定的经验风险,特征子集的大小确定s也将影响识别效果。本问题中用户具有手机号码、城乡标识、身份证归属地、年龄、用户等级、用户行业、手机价格、是否 3G 用户等 25 个特征,可以考虑采用主成分分析法降低特征的维度。主成分分析将具有一定相关性的众多变量重新组合成新的无相互关系的综合变量来代替,通常数学上的处理就是将原始特征进行线性组合作为新的综合指标。设原始变量指标为 ,它们的综合指标主成12,.px分为 ,则12,.()mZp112112pmmmpzllxlxll 分别称为原变量指标 的第一,第二, ,第m主成分。12,.mZ,.x

24、这些综合变量集中了原始变量的大部分信息;通过计算综合主成分函数得分,对客观现象进行科学的评价;它在应用上也更侧重于信息贡献影响力的综合评价。但由于时间和精力限制,我们未进行主成分分析方法的应用。2.本文未考虑职业对职场新人的影响,因此可以将职业类型纳入职场新人的特征之一。3.由于本文考虑的特征比较少,所以在模型改进方面还有很大的空间。八、参考文献1 谭荣波等 SPSS 统计分析实用教程 科学出版社 2007.52 http:/ http:/ 刘晓波.基于网络层次分析法的图书馆评估模型J.现代情报.2011,115 吴定祥.比例标度法在评价雷达网探测效能方面的应用J.雷达与对抗,2003,36

25、http:/ 秦锋,黄傻,程泽鼠.用于多标记学习的阈值确定算法J.计算机工程,2010,11A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 16 -附录一字段名 字段含义 备注ACC_NBR 本网手机号码 该号码已做加密处理,转换为 ID 形式表示。作为分群的基础号码表URBAN_RURAL_ID 城乡标识 0:市区 1:县城 2:农村CERTI_LATN 身份证归属地 区号GENDER 性别 AGE 年龄 CUST_LEVEL 用户等级 1:最高; 2:高; 3:中; 4:低; -1:未知;CUST_WORK_TYPE 用户的行业(银行、医疗等) 具体行业类型

26、参见附件 4OS_TYPE 手机操作系统类型 TERMINAL_PRICE 手机价格 元INNET_DATE 号码办理日期 IS_3G 是否 3G 用户 IS_VIP 是否 VIP 用户 PROB_LEVEL 套餐档次(元) CONSUME_AMT 消费金额 当月出账金额(元)WEB_FEE 流量费 当月上网流量费(元)LOCAL_CALL_FEE 市话费 当月本网号码市话语音费用(元)LONG_CALL_FEE 长途费 当月本网号码长途语音费用(元)ROAM_CALL_FEE 漫游费 当月本网号码漫游语音费用(元)A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 -

27、 17 -CALL_FEE 通话费 当月本网号码语音费用(元)VALUE_ADDED_FEE 增值费 当月本网号码增值费用(元)SMS_FEE 短信费 当月本网号码短信费用(元)STOP_CNT 停机次数 连续半年统计停机次数OFR_CHANGE_CNT 资费变更次数 连续半年统计用户的资费变更次数INNET_FLOAT_AMT 上网流量 当月上网流量(M)INNET_DUR 上网时长 当月上网时长(分钟)附录二A=1 1 4/3 2/3 4 4/51 1 4/3 2/3 4 4/53/4 3/4 1 1/2 3 3/53/2 3/2 2 1 6 6/51/4 1/4 1/3 1/6 1 1/

28、55/4 5/4 5/3 5/6 5 1V,D = eig(A)D2=(V(:,2)W=D2/sum(D2)A =1.0000 1.0000 1.3333 0.6667 4.0000 0.80001.0000 1.0000 1.3333 0.6667 4.0000 0.80000.7500 0.7500 1.0000 0.5000 3.0000 0.60001.5000 1.5000 2.0000 1.0000 6.0000 1.20000.2500 0.2500 0.3333 0.1667 1.0000 0.20001.2500 1.2500 1.6667 0.8333 5.0000 1.0

29、000V =-0.9063 -0.3941 0.4828 0.5844 -0.8520 0.90630.1813 -0.3941 0.3963 -0.3665 0.1080 -0.18130.1359 -0.2956 -0.2333 0.0026 0.1873 -0.13590.2719 -0.5912 -0.4666 0.0052 0.3747 -0.27190.0453 -0.0985 0.0515 0.0875 0.0021 -0.04530.2266 -0.4927 -0.5789 -0.7187 0.2949 -0.2266D =0 0 0 0 0 0A 职场新人手机用户精准识别 福州大学数学与计算机科学学院 11 级研究生 - 18 -0 6.0000 0 0 0 00 0 -0.0000 0 0 00 0 0 0.0000 0 00 0 0 0 -0.0000 00 0 0 0 0 -0.0000V2 =-0.3941 -0.3941 -0.2956 -0.5912 -0.0985 -0.4927W =0.1739 0.1739 0.1304 0.2609 0.0435 0.2174

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报