收藏 分享(赏)

基于k-均值聚类的分析和bp网络算法手机套餐设计.docx

上传人:精品资料 文档编号:7767461 上传时间:2019-05-25 格式:DOCX 页数:55 大小:852.68KB
下载 相关 举报
基于k-均值聚类的分析和bp网络算法手机套餐设计.docx_第1页
第1页 / 共55页
基于k-均值聚类的分析和bp网络算法手机套餐设计.docx_第2页
第2页 / 共55页
基于k-均值聚类的分析和bp网络算法手机套餐设计.docx_第3页
第3页 / 共55页
基于k-均值聚类的分析和bp网络算法手机套餐设计.docx_第4页
第4页 / 共55页
基于k-均值聚类的分析和bp网络算法手机套餐设计.docx_第5页
第5页 / 共55页
点击查看更多>>
资源描述

1、分类号:UDC:密级:编号:理学硕士学位论文基于 K-均值聚类分析和 BP网络算法的手机套餐设计硕士研究生:孙双双指导教师:沈艳教授学位级别:理学硕士学科、专业:应用数学所在单位:理学院论文提交日期:2012年 12月论文答辩日期:2013年 3月学位授予单位:哈尔滨工程大学Classified Index:U.D.C:A Dissertation for the Degree of M. ScienceDesign of Mobile Phones Payment SchemesBased on BP Neural Network and K-meansClustering Analysis

2、Candidate: Sun ShuangshuangSupervisor: Prof. Shen YanAcademic Degree Applied for: Master of ScienceSpecialty: Applied MathematicsDate of Submission: Dec. 2012Date of Oral Examination: Mar. 2013University: Harbin Engineering University哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的

3、引用已在文中指出,并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字 ):日期: 年 月 日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的全部内容

4、。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文 (在授予学位后即可 在授予学位 12个月后 解密后)由哈尔滨工程大学送交有关部门进行保存、汇编等。作者(签字 ): 导师(签字 ):日期:年月日年月日基于 K-均值聚类分析和 BP网络算法的手机套餐设计摘 要近几年,随着经济的发展,大学生逐渐成为手机套餐的主要消费群体,他们的主要生活费用是由家庭提供,因此学生消费群体相对集中且具有特殊性。针对这一现象,如何从运营商和大学生消费者角度综合考虑,设计一款既适合大学生又可为运营商树立自己的品牌的手机套餐,是一个重要问题

5、。为提出符合大学生群体的校园手机套餐,首先应用单因素方差分析对本科及以上学历消费人群的消费特征和偏好进行分析;其次在 K-均值和 K-中心点算法聚类思想的基础上,提出 K-伪均值算法,采用群论中的商集概念对 K-伪均值算法进行描述,该算法削减了 K-均值对初始中心点的依赖,降低了奇异点对聚类结果的影响,保证了每个类非空,保持了 K-均值算法的速度,比 K-中心点算法速度快很多;再次将提出的 K-伪均值聚类算法应用于手机消费数据中,利用回归分析理论对该聚类结果进行评价分析;最后在 K-伪均值聚类结果基础上,应用 BP神经网络算法对现有校园手机套餐进行分析,给出新的校园套餐设计方案-“青春”版手机

6、套餐。关键词:单因素方差分析;K-均值;K-伪均值;多元回归分析;BP神经网络哈尔滨工程大学硕士学位论文AbstractWith the development of economy, college students whose most costs of living is fromthe family supplicant become main consumers of current mobile phones payment schemes,and they have particularity and central tendency. It is an important pr

7、oblem to launch a newdesign plan of payment schemes for college students as also mobile phone operators in orderto let the mobile phone operators and the consumers both maximize profits.In order to launch a new design plan of payment schemes for college students, firstly, weanalyze characteristics a

8、nd preference of college students by one-way analysis of variances(one-way ANOVA) that programmed with SAS (V8); Secondly, K-imaginary means is putforward based on K-means algorithm and K-medoids algorithm, which is described byquotient set. K-imaginary means has the following advantages: Its speed

9、is faster thanK-medoids algorithms; It could reduce the influence of the singular point to the clusteringresults; It could ensure each class not empty; K-imaginary means algorithm is close toK-medoids stability. Thirdly, we adopt the methods of the K-imaginary means to clustermobile-phone fee data,

10、and a system is built that fits for the data mining and the evaluation onthe effects of the clustering data. At last, we analyze the current mobile phones paymentschemes and launch new design plan of payment schemes by means of BP neural network.The new design plan of payment schemes is named as “Ma

11、y”.Key words: One-way ANOVA; K-means algorithm; K-imaginary means algorithm; Multipleregression analysis; BP neutral network.基于 K-均值聚类分析和 BP网络算法的手机套餐设计目 录第 1章绪 论11.1论文研究的背景和意义11.2国内外研究现状21.3论文的篇章结构2第 2章基础知识介绍42.1单因素方差分析42.2聚类算法82.2.1 K-均值算法82.2.2 K-均值的算法流程92.2.3 K-中心点92.2.4 K-中心点算法流程102.3 BP神经网络理论10

12、2.3.1 BP神经网络结构102.3.2 BP算法流程112.4本章小结13第 3章手机套餐消费者群体特征及偏好调查分析143.1引言143.2 3G手机套餐消费者群体特征及偏好调查分析143.2.1消费者群体属性影响显著性分析163.2.2 3G手机套餐的信息频数统计193.3结论20第 4章 K-均值算法的改进及其应用214.1引言214.2 K-伪均值214.2.1商集214.2.2商集描述 K-伪均值224.2.3 K-伪均值算法流程224.3基于 K-伪均值的消费数据聚类24哈尔滨工程大学硕士学位论文4.3.1数据的初步筛选254.3.2基于 K-伪均值的消费数据聚类264.4基于

13、回归原理的聚类结果分析274.5本章小结29第 5章手机套餐分析与设计305.1引言305.2基于 BP神经网络对手机套餐的分析 305.2.1 BP网络训练315.2.2基于 BP神经网络手机套餐的分析与设计 365.3本章小结39结 论40参考文献42攻读硕士学位期间发表的论文和取得的科研成果48致附谢49录50第 1章绪论第 1章绪 论1.1论文研究的背景和意义中国是全球最大的移动通信消费国,中国移动、中国联通、中国电信,都已经推出了属于自己品牌的 3G业务。由于在技术、市场占有率等方面存在差异,运营成本各不相同,所以各运营商推出了针对各类人群的消费套餐。大学生作为手机套餐消费群体,数量

14、多而且具有集中性和特殊性。针对这一现象,从大学生作为消费群体的角度考虑,如何根据自己的消费习惯,对目前种类繁多的 3G套餐进行筛选,以选择最适合自己的套餐类型;从运营商的角度考虑,如何更加有效地扩大自己的市场占有率,针对学生用户推出消费者可自主选择的手机套餐,树立自己的校园品牌,提高竞争力,是今后发展的重中之重。在手机套餐设计方面的国内外研究较少,只有部分学者提出应用数据挖掘相关知识对电信客户进行特征提取和客户细分,为手机套餐的设计提供参考1-6,部分文献采用线性规划7、层次分析法8,9手机套餐资费进行研究。本文从运营商和大学生群体角度,应用统计分析、数据挖掘的聚类算法和 BP神经网络设计一款

15、适合大学生的校园手机套餐。聚类分析是一种重要的数据预处理技术,通常对数据进行聚类来获得数据的分布规律,进而对数据做深入分析。聚类是一个无监督的学习过程,在数据特征未知的前提下找到数据的这个特征。通过聚类,人们能够看出数据的分布规律即分布集中和稀少的区域,发现数据属性之间的关系等10。K-均值聚类算法由 MacQueen11提出,该算法是对数据进行聚类分析的一种常用的传统算法12,它具有算法简单且收敛速度快的特点。K-均值算法的聚类原则是在样本数据集中随机选取 K个点作为初始聚类中心,再计算每个数据对象与聚类中心之间的距离,根据最近原则,将数据对象指派到离它最近的类别中13-15,进而完成聚类。

16、BP神经网络是一种基于误差反向传播训练的含有隐含层的前向网络,其结构简单,算法数学意义明确,步骤分明,它能够对具有有限个不连续点的函数进行逼近16,具有广泛的应用前景。本文的研究工作对数据挖掘的聚类算法理论和聚类应用都有很好的指导作用,其研究成果不但丰富了聚类算法的理论内容,而且对克服 K-均值聚类算法对初始聚类中心点的依赖程度的不足之处提供了有益的思想和方法。本文提出的 K-伪均值算法保证了1哈尔滨工程大学硕士学位论文每个类非空,削减了 K-均值算法对初始聚类中心点的依赖程度,同时保持了 K-均值算法的速度,比 K-中心点算法快很多,接近 K-中心点的稳定性。1.2国内外研究现状K-均值聚类

17、算法17 适用于处理数据量很大的数据,并且收敛速度快,但此算法的聚类结果取决于初始聚类中心的选取,初始聚类中心点不同可能会导致聚类结果不同;基于梯度下降的方法可能使算法过早的收敛于局部最优18。1998年,一种适合于分类属性数据聚类的K-modes聚类算法19由Huang等人提出,此算法能够克服K-means聚类算法仅适合数值属性数据聚类的局限性;1999年,Huang等人证明了当K-modes 算法经过有限次迭代,它仅能收敛于局部最小值20;2001年,K-modes-CGC算法21 由Chaturvedi等人提出,该算法是一种面向分类属性数据的非参数聚类方法,类似于面向数值数据的传统K-m

18、eans算法;2003年,K-modes-CGC 算法与K-modes-Huang算法的等价性由 Huang证明22;2004年,一致性保留K-means 算法23由Ding等人提出;2003年希腊学者Likas等人提出了全局K-均值聚类算法24;2009年Park等人提出快速K中心点算法25,该算法缩短了计算时间;近些年,很多相关文献引入模拟退火算法26,遗传算法27-37,粒子群算法38-47 ,免疫粒子群算法48,49,免疫算法50-53 ,蚁群算法54,人工蜂群算法55,人工鱼群优化算法56等智能算法优化K-均值算法,应用同伦理论57及距离58 改进K- 均值算法;此外,部分学者应用K

19、- 均值算法优化智能算法59-61;对于初始聚类中心点的选取,文献62 提出了一种利用连接样本的最小树方法选择初始聚类中心,文献63应用密度聚类选取聚类中心;文献64提出了粒子群算法与K- 均值算法相结合,自动检测几何结构数据集的聚类中心。1.3论文的篇章结构第 1章绪论首先介绍论文的研究背景和意义,其次介绍 K-均值算法的研究现状;第 2章基础知识介绍介绍了方差分析、K-均值算法、K中心点算法和 BP神经网络的基本理论知识;第 3章手机套餐消费群体特征及偏好调查分析对本科及以上学历群体发放校园手机套餐调查问卷,基于统计中单因素方差分析理论,建立 3G手机套餐消费者群体特征及偏好的单因素方差分

20、析模型,应用 SAS(V8)软件进行显著性分析;2第 1章绪论第 4章 K-均值算法的改进及其应用本章是本文的核心内容。首先,在 K-均值算法和 K-中心点算法聚类思想基础上,提出 K-伪均值算法;其次,对消费数据进行预处理,应用提出的 K-伪均值算法对处理后的消费数据进行聚类;最后,对聚类结果应用多元回归分析方法得到其残差序列,并利用残差序列对聚类结果进行分析;第 5章手机套餐分析与设计结合第 3章的单因素方差分析结论和第 4章的聚类结果,本章应用 BP神经网络模型进行校园手机套餐分析与设计,给出新的校园手机套餐设计方案,并与现有的校园套餐进行比较分析。总结对全文进行总结。31哈尔滨工程大学

21、硕士学位论文第 2章基础知识介绍2.1单因素方差分析方差分析是数理统计中最常用的基本方法之一,其基本思路是将一组数据的总离差平方和分解为若干有意义的平方和,然后通过比较这些平方和的大小来判断总体均值相等这一假设是否成立的一种检验方法65。1.数学模型设因素 A有 r个不同水平 A , A2 , , Ar,在每个水平 Aj ( j 1, 2, ,r )下,进行n j (n j 2)次独立试验,得到表 2.1的结果。表 2.1 r个处理组的试验结果水平A1 A2 Aj Ar试验号12n j样本总和样本均值总体均值x11x21xn11T .1x .11x12x22xn2 2T .2x .22x1 j

22、x2 jxn j jT . jx . j jx1rx2 rxnr rT .rx .rr我们假定:各个水平 Aj ( j 1, 2, , r )下的样本 x1 j , x2 j , , xn j j,来自具有相同方差 2,均值分别为 j ( j 1, 2, , r)的正态总体 N ( j , 2 ), j与 2未知。且设不同水平Aj下的样本之间相互独立。由于 xij N ( j , 2 ),即有 xij j N (0, 2 ),故 xij j可以看成随机误差,记xij j ij,则可得到单因素方差分析的数学模型:4 ij N (0, 2 )各 ij独立1 rn 1j1i 1 xij , x. j

23、 n x , n n j再引入总离差平方和 ST , ST ( xij x )2ST ( xij x )2 ( xij j j. x )2 x. ) ( x其中 Se ( xij j. )2 , S A ( x. j x )2 , ST e A第 2章基础知识介绍 xij j ij (i 1, 2, n j ; j 1, 2, r)其中 j , 2均为未知数。2.确定假设方差分析的任务就是对于上述数学模型,检验 r个总体 N (1 , 2 ), N (2 , 2 ),N (3, 2 ), N ( j , 2 )的均值是否相等,即检验假设H 0 :12 jH1 :1,2 , , j不全相等3.平

24、方和的解要进行假设检验就得导出检验统计量,而要导出检验统计量就得从平方和的分解入手,通过将总离差平方和分解成若干有意义的平方和,然后比较这些平方和的大小,进而判断是否成立。先引入以下记号 x n jjn ji1ijrj1r n jj1 i1将 ST进行分解,得r n jj1 i1r n j r n j2j1 i1 j1 i1r n j r n j x S Sj1 i1 j1 i1这里, Se的各项 ( xij x. j )2表示在水平 Aj下,样本观察值与样本均值的差异是由随机误差引起的,故称误差平方和,又称组内平方和。 S A的各项 ( x. j x )2表示 Aj水平的5FSe e称为误差

25、均方和 )Sen r哈尔滨工程大学硕士学位论文样本均值和样本总均值的差异,是由水平 Aj以及随机误差引起的,故称为效应平方和,又称组间平方和66。总离差平方和 ST是试验的总误差,反映数据波动的程度;组内平方和 Se是由随机误差引起的,反映随机误差;组间平方和 S A是各水平样本均值与总体均值之间的差异,是由各水平以及随机误差引起的,反映由因素 A的水平变动而产生的误差,即系统误差。4.检验统计量及其分布定理 2.1.1在单因素方差分析数学模型中,(1) Se 2 2 (n r);(2)当 H 0成立时, S A 2 2 (r1),且 Se与 S A相互独立。根据 F-分布的定义,若随机变量

26、X 2 (m),Y 2 (n),则F X mY n F (m, n)综合定理 2.1.1,则当 H 0成立时,有S A2Se 2r 1n rS A r 1Se n rF (r 1n, r .)令S A S Ar 1 (S A称为因素 A的均方和 )= (S则有F =S ASe F (r 1, n r)(2-1)公式(2-1)可作为单因素方差分析的检验统计量。5.假设检验问题的拒绝域6E(S A )=(r 1) + n j 2jE 2 ,E = 2 + j1 n j j 2 .2 ; Se 2 n r S A Se当 H0 不成立时, E E ,也就是说,当 H 0 不成立时,ST xij T

27、n 1S A T . j T nS S S第 2章基础知识介绍定理 2.1.2在单因素方差分析数学模型中,r2j1则有E(Se ) ( N r ) Se n r2当 H 0成立时, E S A r 11r 1r r 1 n r的趋势。因此在显著性水平下:PF K PF F1 (r1, n r) ,其拒绝域为F F1 (r1, n r)6.单因素方差分析的计算步骤(1)建立假设H 0 :12 jH1 :1,2 , j不全相等(2)计算 ST , S A及 Se其简便计算公式为r n j2 2j1 i1r2 j1 n je T A7S ASe有大于 1其中 T . j xij , T xij2 ,

28、 n n j .标准测度函数通常采用平均误差 E , E p mi ,哈尔滨工程大学硕士学位论文n j r n j ri1 j1 i1 j1(3)计算因素 A的均方和 S A和误差均方和 Se , S AS A(4)计算 F值F=SeS Ar 1, Se =Sen r(5)查表,求出临界值 F1 (r1, n r);(6)作出判断若 F F1 (r1, n r),则拒绝 H 0,接受 H1;若 F F1 (r1, n r),则接受 H 0。上述计算结果可综合成方差分析表(表 2.2)表 2.2单因素方差分析表方差来源 平方和 S 自由度 df 均方和 S F值 临界值因素 S A r1 S A

29、S Ar 1 F =S ASeF1 (r1, n r)误差总和SeSTn rn1Se =Sen r-2.2聚类算法2.2.1 K-均值算法K-均值算法67仅以最终分类个数 K作为参数,把数据集中的 n个数据对象划分为K个聚类,确保聚类内的数据对象分布密集,聚类间的数据对象分布稀疏,根据聚类结果中聚类的重心来评价聚类效果的好坏68。k2i1 pCi8 C第 2章基础知识介绍其中 E代表数据集中所有聚类数据对象的平均误差的总和, p是数据集中的点, mi是聚类 Ci内各聚类对象的平均值。 ( p和 mi都是多维的 )即,mipCi ip (2-2)Ci表示聚类 Ci中 聚类对象的数目。2.2.2

30、K-均值的算法流程下面给出 K-均值算法的具体算法流程,(1)输入数据集 X,设定初始参数最终分类个数 K;(2)将数据 X中的每个数据对象分给初始的聚类中心;(3)计算聚类中数据对象的平均值 mi,根据最近原则,将每个数据对象重新指派给距离最近的聚类;(4)根据式(2-2)计算每个聚类中数据对象的平均值 mi,更新聚类的中心点;(5)判断中心点是否稳定,如果稳定,输出聚类结果,结束;否则,转向(2)。其中, X含有 n个样本点。2.2.3 K-中心点K-中心点算法过程与 K-均值算法的过程几乎一样,它们的区别在于:K-中心点算法用簇(类) 中距离中心最近的一个真实存在的数据对象来代表该簇(类

31、),而 K-均值算法用计算出来的聚类中心来代表簇(类),这个聚类中心是虚拟的,并不一定真实存在于数据样本集中69,70。K-中心点算法的基本步骤如下68:首先,随机选择数据集中的 K个对象作为初始的 K个簇的代表点,计算其余对象根据与代表点对象之间的距离,根据最近原则,将数据对象指派到离它最近的簇;其次,重复用非代表数据对象来替换代表数据对象,检查此次聚类的质量是否比上一次提高;如果聚类质量优于上一次,则该替换被保留,否则放弃此次替换,重复上述过程,直到聚类结果不再发生变化为止。9聚类结果的目标函数为 ( )min i jdis x .哈尔滨工程大学硕士学位论文n k, zi1 j12.2.4

32、 K-中心点算法流程下面给出 K-中心点算法的具体流程,(1)输入数据集 X,设定初始参数 K;(2)从数据集 X中任意选择 K个数据对象作为初始簇的中心点;(3)将每个剩余对象分配到离它最近的中心点所代表的簇;(4)选择一个没有被选择的中心点数据对象 Oi;(5)选择一个没有被选择过的非中心点数据对象 Oh;(6)计算用 Oh替代 Oi的总代价并记录在集合 S中;(7)循环(5)到(6),直到所有的中心点都被选择过;(8)循环(4)到(7),直到所有的中心点都被选择过;(9)如果在 S中所有的中心点被所有的非中心点替换后,计算出的总代价有小于 0的存在,则找出 S的中心点,形成一个新的 K个

33、中心点的集合;(10)循环(4)到(9),直到没有再生簇的重新分配,即 S中所有的元素都大于 0。其中, X含有 n个样本点。2.3 BP神经网络理论2.3.1 BP神经网络结构BP神经网络通过训练学习不断调整网络的权值和阈值,使网络的误差达到规定的范围内71。BP神经网络由输入层、隐含层、输出层构成,其中隐含层可以是一个或者多个,其拓扑结构如图 2.2所示。10j d第 2章基础知识介绍wijx1 w jky1x2ynxm输入层 隐含层图 2.2 BP神经网络拓扑结构图输出层图中, (x1, x2 , , xm )为输入向量, m为输入节点个数, ( y1, y2 ,, yn )为输出向量,

34、n 为输出节点个数, wij为输入层第 i 个节点与隐含层第 j 个节点的连接权值, wjk为隐含层第 j 个节点与隐含层第 k 个节点的连接权值。2.3.2 BP算法流程(1)初始化对权值矩阵 W 、 V 随机赋值,将训练计数器 q 和样本计数器 p 置 1,误差 E 置 0,学习率 置为 (0,1) 区间内任意小数,训练精度 Emin设为任意正小数;(2)输入样本,计算各层输出y j fV T X j1,2, , m(3)计算网络输出误差ok fWjTY k 1, 2,lE plk1pk okp2(4)计算各层误差信号11 w )yk kj哈尔滨工程大学硕士学位论文o k 1, 2, ,

35、l(5)调整各层权值l k1oj 1, 2 , m ,wj k w j o y j j 1, 2 , , mk 1, 2 , l,vij vij y xi i 1, 2, , n j 1, 2, , m(6)检查系统是否完成一次训练;(7)检查网络总精度是否在误差允许范围内。BP神经网络算法流程如图 2.3所示:开始输入数据初始网络的权值和阈值计算各层输出计算输出误差计算误差信号调整权值和阈值满足结束条件 NY输出结果结束图 2.3 BP神经网络算法流程12第 2章基础知识介绍2.4本章小结本章介绍了一些基本理论知识,具体工作包括以下几个方面:(1)详细阐述了单因子方差分析;(2)介绍了 K-

36、均值算法和 K-中心点算法及其实现步骤;(3)介绍了 BP神经网络原理、拓扑结构及其算法流程。13哈尔滨工程大学硕士学位论文第 3章手机套餐消费者群体特征及偏好调查分析本章以本科及以上学历的消费群体作为目标客户群,主要研究大学生消费群体对3G校园手机套餐的选择问题,通过调查问卷发放、回收、整理,使用 SAS(V8)做单因素方差分析,得到显著影响 3G校园手机套餐使用意向的因素。根据统计信息,给出校园手机套餐适宜的选择数目和信息描述字数,为第五章的 3G校园手机套餐设计奠定基础。3.1引言在手机套餐的设计过程中,运营商需要考虑消费群体的不同需求、消费能力以及竞争商家推出的手机套餐产品。如果手机套餐设计不合理,会影响移通讯行业的其它手机套餐产品的销售,还可能给公司带来损失。因此,根据消费者的群体特征,合理制定手机套餐的个数,选择手机套餐的属性值,设计合理的手机套餐,是通讯行业的一项重要任务72。大学生都是手机套餐的消费者,他们的主要生活费用是家庭提供,而学生消费群体相对集中且具有特殊性。面对众多的手机套餐业务,大部分大学生消费者没有足

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报