1、数据统计分析与数据挖掘,马继华,3,目录,4,这是什么?,报纸比杂志好。海边比大街好。一开始就跑比走好。你可能得试几次,也可能需要借助某种技巧,但很容易学,就连孩子都能享受其中的乐趣。一旦成功了,它就一点儿都不复杂。鸟儿很少会离太近。雨能迅速把它浸透。如果有很多人做同样的事就会引发问题,因为仅仅一个人就需要许多空间。不过,只要不发生纠纷,一切就会很祥和。岩石可以当停放的地方。可一旦挣脱开,你就不会有第二次机会。,5,10 87,6,什么是市场分析,7,全业务下市场分析的重点与目的,分析企业经营业务的性质 分析应着眼于未来 研究过去和现在的信息 在历史资料中寻找先导指标 注意有关未来的信息 掌握
2、管理当局的意图 分析企业报告信息的相对可靠性 了解相对于竞争对手和其他企业的业绩 及时了解影响企业的重大变动,8,中国通信市场的发展机遇和格局,3G因素,全业务因素,移动互联网,三网融合,9,三大纬度决定全业务市场竞争格局,业务纬度,用户规模指标,业务收入指标,业务量指标,注册用户数 过网用户数 新增用户数 客户数,各业务收入 本地话音业务收入 长途话音业务收入 数据业务收入 结算收入等,通话次数 上网次数 通话时长 计费时长 上网时长,指标纬度,宽带,固定业务,移动,10,成功的分析需要具备的关键条件,数据提取和收集 选取正确的数据来源,同时不影响正常的生产环境 必须对现有计费系统和数据结构
3、有明确的了解 在数据提取效率和提取深度之间进行权衡 数据挖掘和分析 做出适当的假设,并对各类假设进行优先排序 尝试所有的分析纬度,各种变量之间进行排列组合 对数值进行合理的归类或近似处理 数据表达和说明 选取合适的图表类型,一张图表胜过千言万语 突出重点,能直接为决策提供支撑依据 为进一步分析留有足够的空间,11,解释清楚以下问题是合格分析师,台湾某媒体报道:平均水深到膝盖,却淹死了人 30%车祸是持驾照三年以下者所为,所以新驾驶员容易闯祸 出生在上半年的人更容易成为球星 出动消防员越多火灾损失就越大 限购使北京交通拥堵状况下降了15% 我国航班正点率属国际中上水平 学历高的人收入高 人民币3
4、3年贬值6倍多 白银的投资挣钱空间仍然巨大,12,莫学国家统计局坏榜样,指标构成原始 数据采集不当 调查范围走偏 调查方式错误 计算方法杜撰 数据报告和谐 平均遮掩差距,13,问题出在哪里,14,做好市场分析的针对性建议,15,全业务运营情况下的分析理念变革,适应全业务和3G移动互联网发展需要 适应三网融合下的电信市场新格局分析 为以客户为中心的精确化营销活动提供支持 点面结合、逐层深化的问题本源挖掘思路 适应不同层级对数据分析结果的使用 使用定量与定性方法相结合的科学分析,16,Starbucks 2for1 Christmas drinks,从11月2日(本周五)到11月5日(下周一),每
5、天下午2点到5点之间,随便进一家Starbucks星巴克店里,不管大中小size的下列任何一款Christmas drinks都可以 2for1,就是买一送一(2杯中,最便宜的那一款免费送) 很适合和一个好朋友一起去哦只用花一杯的钱,就能一人一杯啦,17,我们可以采用的主要分析方法,统计 串连 比较 合成 拆分 推理 反证,18,目录,19,应该掌握的数据分析工具场,20,多渠道多途径获取足够信息和情报,21,二手资料的使用:怀疑的尊重,22,国八条与京十五条,国务院总理温家宝26日主持召开国务院常务会议,研究部署进一步做好房地产市场调控工作。会议指出,自去年4月份国务院关于坚决遏制部分城市房
6、价过快上涨的通知印发后,房地产市场出现积极变化,房价过快上涨势头得到初步遏制。为巩固和扩大调控成果,逐步解决城镇居民住房问题,继续有效遏制投资投机性购房,促进房地产市场平稳健康发展,必须进一步做好房地产市场调控工作。 为巩固和扩大调控成果,坚决贯彻落实国务院办公厅关于进一步做好房地产市场调控工作有关问题的通知(国办发20111号)精神,进一步做好本市房地产市场调控工作,逐步解决城镇居民住房问题,促进房地产市场平稳健康发展,结合本市实际,经市政府同意,现就有关问题通知如下:,23,公开资料中的洞察秋毫,运营商高管分工对比:中国联通董事长常小兵:(中国联合网络通信集团有限公司 董事长、党组书记)负
7、责公司全面工作,分管董事会办公室,人力资源部(高管人员部分);中国移动董事长、党组书记王建宙主持公司全面工作。中国联通总裁陆益民(中国联合网络通信集团有限公司 总经理、副董事长、党组副书记)分管综合部、战略投资部,人力资源部(高管人员外的部分)、国际业务部、联通研究院、国家工程实验室;中国移动总裁、党组成员李跃主持公司生产经营管理工作,组织实施董事会决议。,24,25,确保数据质量是做好分析的关键基础,精 度:最低的抽样误差或随机误差 准 确 性:最小的非抽样误差或偏差 关 联 性:满足用户决策、管理和研究的需要 及 时 性:在最短的时间里取得并公布数据 一 致 性:保持时间序列的可比性 最低
8、 成本:以最经济的方式取得数据,26,认真看下面的数据,27,数据整理和统计分析,来源甄别 配额核实 加权处理 检查逻辑问题 检查分布情况 特异值 遗漏项 重复数据删除 多余数据 缺失值处理 信度,28,观察这个,29,将定性资料转化为定量资料进行研究,30,数据特征与测度是分析的第一步,31,离散程度的测度:异众比率,非众数组的频数占总频数的比率,32,离散程度的测度:四分位差,上四分位数与下四分位数之差 QD = QU QL 反映中间50%数据的离散程度,解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2, QU = 一般 = 3 四
9、分位差: QD = QU = QL= 3 2 = 1,33,离散程度的测度:方差及标准差,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,未分组数据:,34,标准差与其相应的均值之比 消除了数据水平高低和计量单位的影响 测度了数据的相对离散程度 用于对不同组别数据离散程度的比较 计算公式为,离散系数,35,标准化可以帮助完善考核合理性,给出某一个值在一组数据中的相对位置 可用于判断一组数据是否有离群点 用于对变量的标准化处理 计算公式为,36,【例】某省移动用户数,2006年、2007年、2008年和2009年增长率分别为4.5%、2.0%、3.5%、5.4%。
10、计算该省在这四年内的平均用户增长率。,平均增长率103.84%-1=3.84%,几何平均数计算用户增长率,37,方差分析测量数据的离散程度,A、B两组各有6位客户的ARPU:A组为95、85、75、65、55、45 B组为73、72、71、69、68、67,38,2010年11月运营商用户数,39,HHI指数评估市场竞争态势,式中: X市场的总规模 Xii企业的规模 Si = Xi / X第i个企业的市场占有率 n该产业内的企业数,40,主要高级统计分析方法介绍,41,度量变量之间关联程度的方法叫相关分析。如果考虑的是两个变量之间关系时,称为简单相关;如果讨论一个变量与两个或多个其他变量的关系
11、时,就称为复相关或偏相关 相关分析只是测定变量之间的相关程度。它考虑的是随机变量之间的共同变动,不必区分自变量和因变量 我们通过观察相关系数的大小和双侧检验的值来分析变量间相关程度的大小。一般来说,sig的值小于0.005,我们可以认定变量间存在比较强的正相关或者负相关。 应用: 1、销售与广告支出的关联程度 2、市场份额与销售队伍 3、顾客的质量观与价格观,相关分析(Correlations),42,回归分析是根据已知的一个或一个以上变量(自变量)的值来估计另一个变量(因变量)的值,并且算出估计的误差,所建立的数学模型及所进行的统计分析 。 回归分析是希望得出一个有关各个变量之间联系的数字表
12、达式,其中只有目标变量因变量假设为随机变动,而自变量均为已知常数 回归分析可以分为线性回归分析和曲线回归分析 应用: 销售差异能够用广告支出、价格、分销水平上的差异解释 市场份额的差异能够用销售力量的强弱,广告支出和促销额来解释 消费者对产品质量判断是由产品价格、品牌形象和属性决定 度量影响程度的大小,回归分析,43,一元回归分析,44,案例:中金对房价的分析,45,富士康事件的Logistic回归,46,时间序列预测法,47,弹性分析,48,弹性分析农村居民需求与收入关系,49,弹性分析农村通信需求与收入关系,50,数据分析应注意的几个问题,要注意每种统计分析方法的适用范围 在选择一种分析方
13、法的同时,要按照方法的要求整理数据库 如果必要,可以使用不同的研究方法对同一问题进行解释,来互相验证结论的真伪 片面的相信任何高级分析方法,哪怕是世界上最先进的分析模型,研究失误都是必然的 数据分析结果要使用通俗易懂的语言或图表进行描述 哪怕是一点点的失误,都可能产生“蝴蝶效应”,让研究变的一钱不值 统计分析方法高级不一定是最好的,简单有效能够解决问题才是最好的,51,目录,52,结构化的思维方式非常重要,10张,5张,2张,53,战略举措优先排序法分析业务前景,54,家庭客户业务的市场分析,55,业务营销钟摆理论,信任,价值,安全,自主,便捷,56,PEST分析模型分析经营环境,竞争环境分析
14、,政治因素分析,主要分析国家对电信行业实施的相关政策,例如管制政策和资费政策的变化给电信企业带来的机遇和挑战。,主要分析经济发展与通信业发展的互动关系,以经济发展对通信业发展的影响,以及给电信企业带来的机遇与挑战。,经济因素分析,主要分析人口规模和结构、消费模式等的变化对通信业发展的影响,以及给电信企业带来的机遇与挑战。,社会因素分析,主要分析通信技术、信息技术等的发展对电信运营环境带来的影响,以及给电信企业带来的机遇与挑战。,技术因素分析,57,P/政治,E/经济,S/社会,T/技术,胡锦涛总书记提出“大力发展战略性新兴产业”,温家宝总理提出“感知中国”,十二五规划将物联网列为战略性新兴产业
15、,物联网专项资金扶持政策出台。,金融危机的影响;产业结构调整及经济发展方式转型升级;物联网产业发展带来产业集聚效应;各地产业园区如雨后春笋出现。,中国互联网发展迅猛,网民数量全球第一,奠定物联网发展基础;用户需求刺激,物联网各项应用潜在市场巨大;城市的发展需要物联网相关技术及应用来辅助政府管理。,在无线智能传感器网络通信技术、微型传感器、传感器终端机和移动基站等方面取得重大进展;标准方面与德、美、韩一起成为国际标准制定的主导国之一;在通信、网络等领域申请了大量具有自主知识产权的技术专利。,中国物联网行业发展分析,58,价格分道扬镳,59,电信运营商的十面埋伏与中原突围,60,问题树分析方法分析
16、问题症结根源,满意度下降,网络问题,渠道问题,价格问题,固定,移动,宽带,固话,3G,问题树是为了证明或证伪某个假设而罗列出的一系列问题。问题树在结构和假设之间搭起了桥梁。利用结构框架,每个问题可以分解为若干子问题,子问题可进一步细分。通过创建问题树,所有的问题和子问题都以一种看得见的方式展示出来。这样一来,就可以根据迅速消除分析过程中的一些死角,因为依据对问题的回答你可以立刻删除某些不必要的分枝。,2G,61,房价上涨的症结在哪里,62,PDCA分析模型用于项目管理和分析,63,营销管控体系构成,64,KANO模型分析影响客户需求的因素,65,客户需要怎样的智能终端,网络,系统,芯片,电池,
17、摄像头,这些可能是必须考虑的关键因素,3G MOBILE,屏幕,WIFI,网络 功能 能力,66,随手拍,67,BCG矩阵,68,SCP模型分析竞争对手和外部冲击,69,三网融合给运营商带来的冲击,70,SWOT分析寻找企业战略发展目标,扭转性策略,增长性策略,多元性策略,防御性策略,71,系统分析运营商渠道体系,72,波特五力模型分析企业竞争战略,73,运营商的应用程序商店发展分析,74,战略钟模型分析企业竞争战略,75,产品的钻石定位法则,76,以客户为中心的分析,77,LBS:我在哪?和谁一起?附近有啥?,78,一样的优惠,不一样的说法,公司七位领导可以选任何一款套餐 送最贵的价值580
18、0元的手机,79,目录,80,数据统计分析的核心,1. 总量:有多少 2. 趋势:去何处 3、结构:变哪里 4、对比:找差距 5、关系:晓因果,81,82,对比分析法了解企业经营发展状况,根据经济现象之间的内在联系,对相关指标进行对比,以分析其数量关系及形成原因的分析方法,是最基本的分析方法。 主要的参照系有三种: 历史标准:说明其增长或发展速度 计划标准:说明其工作目标完成情况 行业标准: 与行业平均标准比较以说明横向的优劣 和先进标准比较说明其差距 对比分析包括: 绝对数的对比:业务发展增长幅度 相对数的对比:主线普及率的增长情况 通过office系列软件制作直观的图表进行表现 表格业务、
19、工作情况 饼图结构比例 曲线发展趋势 柱状图横向比较分析或目标完成情况 线柱组合图业务的双指标完成情况 示例:发展情况 绝对数 总体累计增长情况电话用户数增长,一定时段内规模增长本年放号 相对数 较基期倍数:表现为发展业绩整体比较等 较基期增加:表现为发展业绩在基期基础上的增加幅度 多用柱线图表示 示例:完成情况(战略规划计划目标) 绝对数:预定目标完成数量 相对数: 计划完成比例售卡收入完成年度计划的90% 时间进度按照每月完成1/12年计划的进度 多用柱线图表示 具体内容 与计划对比 与上期对比 与去年同期、上期对比 与历史最好水平对比 与总体平均水平对比 与国际、国内最好水平对比,83,
20、运营商之间竞争的实力对比,数据来源:2008年工信部统计月报、中国联通月度统计资料,84,2009年底用户数占有率与2008年底对比,85,收入变化分析,86,运营商区县公司满意度横向对比,87,环比分析,88,同比分析,89,定基比分析,90,预测值与真实值比较,91,三家运营商的品牌对比分析,92,93,三家运营商的客户俱乐部比较,94,相对价格感受才是关键,25-18,455-448,95,平衡分析法综合评价企业经营绩效,平衡就是协调、和谐,是可持续。 主要的平衡有两种: 动态I/O平衡 对单一事物而言,均有一个新陈代谢和动态平衡的过程 如:盈亏平衡、收支平衡 综合协调 对于一个总体集合
21、而言,其中各部分之间按照其数量关系、重要性关系等均有一个综合协调的问题,这种协调就是一种平衡。,96,战争与美国经济,97,营业费用效益评估方法,98,动态分析法时刻关注企业发展趋势,企业经营是动态的过程,指标基本都是在动态变化过程中。围绕动态现象进行分析就是动态分析。 传统动态指标 发展速度 增长速度 平均发展速度 平均增长速度 其他动态指标:主要是考虑资金的时间价值与变动幅度。,99,三大运营商用户数的发展变化,100,运营商市场份额,101,瑞银对中国移动通信市场份额的预测,102,不同时段的在线人数透露出的信息,103,指数分析法实现同类指标的可比较,主要用于分析数量的相对变化程度。
22、反映内容 数量指数 质量指数 项目多少 个体指数 综合指数 对比场合 时间指数 区域指数 计算形式 简单指数 加权指数,注意指数的构成变化 了解指数的权重分配,104,谷歌指数&百度指数,105,德尔菲法运营商业务运营能力指数,106,客户投诉处理速度,107,客户投诉强度,108,因素分析法明晰各因素的影响程度,分析有明确数量关联关系的各因素之间的变动对总变动量的影响程度,从而揭示现象动态中的具体情况和原因。 注意: 因素之间要有明确的函数关系 各因素之间相关作用,相互独立 注意各因素之间的连环替代的顺序,基期数量要注意选择 分因素影响量之和等于总变化量 分析某一因素影响时,必须假设其他因素
23、不变,109,因素分析法探究收入未完成的原因,收入单价MOU年度平均用户数,110,因素分析法计算各部分的贡献程度,语音收入变动对总收入变动的影响程度为 比重法=0.457 * 0.2154=0.0984或9.84(个百分点) 差额法=(5246.91-4316.86)9436.34=930.059436.34=0.0985或9.85个百分点 计算结果表明收入增长了20.61%,其中语音收入贡献了9.84个百分点,数据业务贡献了10.77个百分点。,111,中国经济增长得益于人口红利,112,异常分析法发现经营中的突出问题,对企业生产经营管理中的各种经济现象中比较突出的部分进行分析,就基本可以
24、找到问题所在和解决办法。如客户流失预警。 异常主要的情况: TOP标准:按照全部(或分组)排名,找出前n名和后n名 设定标准:按照“同一把尺子”观察分析不同的对象 注意: 标准要选择恰当,泰勒把最优作为标准 何为“异常”应明确,一般还是正常多异常少,113,客户流失预警的有效识别,关键时点,果断出击,关键表现,协议到期,预存款额不足,对手针对营销,异网客服通话,消费骤降,长期或频繁呼转,密切跟踪,114,对离网用户的分析,分析离网用户的离网原因 分析离网用户的离网去向 分析三家运营商的流动趋势 分析离网用户的新入网原因 分析离网用户的在网使用行为 分析用户多机使用的行为规律,分析离网用户的在网
25、时评价 分析离网用户曾经的投诉行为 分析用户对新入网运营商的评价 分析用户离网后对我公司的评价 预测用户的未来回归可能性 归纳离网用户的群体特征和关键因素,115,分组分析法实现多侧面的结构剖析,按照统计分组原则,对于一个总体或集合,其各层次的组成部分之间都有内在的联系,有互补关系。对这些指标的分析就可以从不同的侧面、按照不同的标志去解剖总体、分析总体,以便从总体的内部结构和内在联系中去发现问题。 主要的参照系有三种: 数量标准:说明应关注的重点 区域标准:不同的区域一般代表不同的市场特征 专业标准:如固网、增值、宽带、移动,116,细分标准也许只在游戏之间,有1到9九个数,将它们分类, 如
26、1,3,5,7,92,4,6,8 是按奇偶数分的, 现问1,3,7,85,92,4,6 是按什么把它们分成3类的呢?,117,适合全业务运营需要的客户细分,118,趋势分析法预测未来的客观走向,趋势线法 趋势线是已经发生的事件和可能发生的事件之间的简单指示器。 趋势线是为了将未来与历史数据进行比拟,若一条直线或曲线与历史上有过的数据类似,就可以进行预测。 方法简单 只能对正常情况下短期的事件作出估计 移动平均法 在各个时间所得到的数据常常具有周期的和因时间不同而异的特点,这种特点扰乱了数据所服从的基本趋势,对数据进行平滑或修匀处理就可以消除上述特点,移动平均则是其中一种方法。 移动平均法是建立
27、在列表法基础上的。 运用简单 结果不太准确 最小平方法 可以简化地描述长期趋势。 最小平方法以时间为自变量(X),以要研究的现象为因变量(Y),形成线性回归方程式:YbX+a。 注意: 防止“蝴蝶的翅膀”效应,理论有余实践不足。 注意假设条件的变化情况。,119,中国人口的变动趋势,120,电信业增加值占GDP比重下滑趋势,121,手机游戏业务发展情况,122,那条曲线最合适?,123,目录,124,多维分析法让我们多双慧眼,125,总结:如何做好市场分析,横向和纵向:瞻前顾后与左顾右盼 总量和结构:大大小小与孰轻孰重 宏观和微观:行业社会与企业部门 内部和外部:内在因素与外部影响 实体和虚拟
28、:实实在在与虚无缥缈 现状和趋势:现实情况与发展趋势 增量和增速:绝对数量和相对比例 同比和环比:同期比较与连续比较 短期和长期:短期利益与长期价值 定性和定量:定性分析与定量计量 现象和本质:观察现象与透视本质 分析和综合:分析演绎与综合归纳,126,PPT制作原则,PPT的灵魂:尽量用1种字体,最好不要超过3种 PPT的恶心:错别字等于苍蝇 3色原则:不要超过3种色系 6字解码:大化小,小化图 12字真言:能用图,不用表;能用表,不用字 KISS原则:Keep It Simple and Stupid,127,EXCEL图表制作原则,选择合适的图表类型 适合的字体和大小 图表整体及标志配色
29、 对比清晰强烈 积累很重要 简单就是美,128,通过不同的图表表达特定的比较,129,一个好的图表遵循一定标准的格式,130,颜色搭配法则,色调 明度 纯度,131,全业务运营:固移融合,路在何方?,132,从结论说起的文章结构,133,练习:组合和总结-金字塔式写作,134,市场份额下降的分析思路,135,撰写PPT分析报告的十步骤,业务熟悉头脑明,吃透指标理解深; 内外环境研究透,领导意图把握好。 数据提取多用功,整理清洗不可少; 选择合适好工具,简便易用便可行。 定性总比定量先,数量之后要格局; 验证反思都重要,所有结论须三思。 总量趋势和结构,对比分析与因果; 考虑全面问题树,竞争五力战略钟。 开门见山定主旨,金字塔型逻辑清; 结构严谨立论稳,实战实效更实用。,136,向三国CEO学习市场运营,137,谢谢关注,http:/,