1、数据化运营与决策 统计学的基本介绍与应用,客户关系管理中心 沈冬冬2015年3月,2,目录,什么是统计学 数据分析(挖掘)主要方法及其一些应用 如何养成统计学思维和品质 常用的统计学书籍与软件,Part One:什么是统计学?,人类发现了统计,统计改变了世界。统计学的故事第一章标题(1)统计学的定义(2)统计学起源(3)统计学与其他学科的区别(4)统计模型(5)总结:统计学是一门什么样的学科,(1)统计学的定义,定义:统计学是一门研究随机现象,以推断为特征的方法论科学,“由部分推及全体”的思想贯穿于统计学的始终。具体地说,它是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对
2、总体特征进行推断的原理和方法。此外,统计学也是于收集、整理、分析和解释统计数据的科学,是一门认识方法论性质的科学,其目的是探索数据内在的数量规律性,以达到对客观事物的科学认识。用统计来认识事物的步骤是:研究设计抽样调查统计推断结论。这里,研究设计就是制定调查研究和实验研究的计划,抽样调查是搜集资料的过程,统计推断是分析资料的过程。显然统计的主要功能是推断,而推断的方法是一种不完全归纳法,因为是用部分资料来推断总体。,(2)统计学起源,两个源头: 概率论 VS 国情学 一、概率论:16世纪,概率论的体系渐渐发展起来,而这要从一种和掷骰子有关的赌博活动说起。虽然这个起源并不是很光彩,而且有待考证,
3、但是在欧洲兴起并兴盛的骰子赌博活动,引起了一批好奇的学者的关注。掷骰子得到的点数直接决定赌局的输赢,于是开始研究各种点数出现的机遇的大小,胜率的大小,最早开始数量研究并且给概率下定义的学者已经无从考证了,可是有一些著作的问世和问题的讨论对概率统计的发展产生了重大的影响,比如卡丹诺的机遇博弈、惠更斯的机遇的规律 、伯努利的推测数 、著名的分赌本问题、帕斯卡和费马之间的通信,在这期间,古典概型得到了极大的发展,概率、期望、二项分布、中心极限定理等概念被相继提出。结论:赌博也是把双刃剑!,二、国情学:统计学的英文是“statistic”,其实它是源于意大利文的“stato”,意思是“国家”、“情况”
4、,也就是后来英语里的state(国家),在十七、十八世纪,统计学很多时候都是以国情学的姿态出现的。而且很长一段时间,都是在研究人口统计,尤其是生男生女的比例问题。 概率论和国情学的融合,统计学渐渐发展也是从这开始。在这期间时,一些重要的理论被发现,如二项分布和大数定律。结论:统计学起源于国家的实际应用。,一个关于生男生女的问题:,从生物学角度来说,XX染色体与XY染色体结合是随机的,故孕妇生男生女的概率均是1/2。已知一对夫妇有两个孩子,且其中一个是男孩,问另外一个是女孩的概率是多少?A: 1/3 B: 1/2 C: 2/3 D: 3/4 你知道答案吗?,(3)统计学与其他学科的异同,一、统计
5、学与概率论的异同: 不是废话的废话:概率论是统计学的基础,统计学是概率论的发展。区别:概率论就好比是给你一个模型,你可以知道这个模型会产生什么样的数据;而统计则是给你一些数据,你来判断是由什么样的模型产生的。For example,概率论研究的是一个透明箱子,你知道这个箱子的构造(里面有几个红球、几个白球,也就是所谓的分布函数),然后计算下一个摸出来的球是红球的概率。而统计学面对的是一个黑箱子,你只看得到每次摸出来的是红球还是白球,然后需要猜测这个黑箱子的内部结构,例如红球和白球的比例是多少?(参数估计)能不能认为红球40%,白球60%?(假设检验),二、统计分析与数据挖掘的异同:(当前比较热
6、门的话题),何为数据挖掘(Data Mining)? (1)是个什么样的学科:是在多个学科的基础上发展起来的。包括数据库、人工智能、机器学习、统计学、数据可视化等一系列学科交叉结合。 (2)为什么会发展起来:随着数据库技术的发展,数据的积累快速膨胀,导致简单的查询和统计已经无法满足企业的商业需求(尤其是在互联网公司),急需革命性的技术去挖掘数据背后的信息。 (3)如何发展起来:随着计算机领域人工智能的巨大进步,进入机器学习的阶段,故人们将数据库和机器学习相结合,用数据库管理系统存储数据,用计算机分析数据,产生了一门新的学科:数据库中的知识发现(Knowledge Discovery in Da
7、tabases,KDD)。综上:数据挖掘则是知识发现的核心部分,指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的过程,这些信息的表现形式为:规则、概念、规律以及模式等。,二、统计分析与数据挖掘的异同,相同点:(1)都是对数据做分析与发现。“不管是白猫还是黑猫,抓住老鼠才是好猫”。在实战中,分析问题解决问题的首要考虑是思路,其次才是筛选与思路相匹配的分析挖掘技术; (2)二者的理论来源很多是同根同源。数据挖掘中的技术有相当比例是依靠统计分析中的多变量分析来支撑; (3)更有观点认为,数据挖掘是统计分析技术的延伸和发展,用于处理更大规模的数据(几十万行、几百万行的数据)不同点: (1)“统计
8、分析”得出的结论是人的智能活动结果,而“数据挖掘”得出的结论是机器从学习集(或训练集、样本集)发现的知识规则; (2)相对于重视理论和方法的统计分析而言,数据挖掘更强调应用,毕竟数据挖掘的目的是方便企业用户的使用; (3)“统计分析”不能建立数学模型,需要人工建模,而“数据挖掘”直接完成了数学建模。如传统的控制论建模的本质就是描述输入变量与输出变量之间的函数关系,“数据挖掘”可以通过机器学习自动建立输入与输出的函数关系,根据KDD得出的“规则”,给定一组输入参数,就可以得出一组输出量。,(4)统计模型,模型的作用:预测 or 理解产生数据的机制。如何寻找模型: (1)对数据进行初步探索性分析,
9、利用图形和各种统计量(比较简单的如期望、方差等)作基础分析,了解数据的分布,必要的话对部分数据(缺失值、异常值等)进行清洗或者转换处理; (2)根据具体业务需求选定因变量(目标变量、响应概率)和自变量(解释变量),分析变量与变量之间的关联性、相关性、线性性、共线性等各种关系; (3)选定变量后就要寻找合适的模型和算法(已有的模型或自己建立新的模型); (4)对多个模型进行比较分析,选择最合适的模型,并对模型不断优化,解释其中的各个变量。 (5)对模型进行检验,是否具有稳健性,对业务是否真的有帮助。PS:一个好的模型应该是模型能很好的拟合数据,而不是让数据来拟合模型。,(5)总结,统计学究竟是一
10、门什么样的学科?一千个读者眼里有一千个哈姆雷特,一千个学者眼里也有一千种统计学看法。数学?社会科学?自然科学概率学?My view:数学不可证伪,可脱离现实,不是科学 。应用科学是对科学的应用,不是科学本身,应该算作工程学。= 统计学是应用数学。,Part Two: 数据分析(挖掘)主要方法,若想了解上帝在想什么,我们就必须要学统计,因为统计学就是在量测他的旨意。 现代护理学奠基人 南丁格尔回归分析 关联分析 主成分分析 聚类分析 参数估计与假设检验,(1)回归分析(Regression),回归分析包括两项主要内容:多元线性回归Logistic 回归,(1)回归分析(Regression),一
11、. 多元线性回归描述的是一个因变量(y)如何随着一批自变量 ( )的变化而变化,它的回归公式(即回归方程)就是因变量与自变量关系的数据反映。多元线性回归方程:ps: 当p=1时,就是最简单的一元线性回归方程,即通过一个自变量来解释因变量。:自变量的系数。 :残差,一般假设为满足正态分布, 如何解释因变量的变化:a. 系统性变化,这个是由自变量引起的(也就是可以用自变量进行解释);b. 随机变化,不能由自变量进行解释,由残差所造成。,(1)回归分析(Regression),二、Logistic回归: 描述:相比于线性回归,Logistic回归在日常应用和数据化运营中有更频繁的作用,因为该分析技术
12、预测的因变量(y)是介于0和1之间的概率,因此能够很好的回答诸如预测、分类等更常见的“二选一”问题。(比如“买”或“不买”,客户“流失”或“不流失”的概率有多少等) Logistic 回归方程:其中:p(y=1)为响应概率(也就是顾客买的概率),p(y=0)为不响应概率。其余变量解释和线性回归类似。,(2)关联分析(Association Analysis),描述:所谓关联分析,主要目的就是寻找数据集中频繁模式,通俗的说也就是两个或多个变量多次同时出现的关系。应用:应用关联分析最经典的案例就是“购物篮分析”,通过分析顾客购物篮中物品之间的关联,可以挖掘顾客的购物习惯,从而帮助零售商更好的制定有
13、针对性的营销策略。(当当网、亚马逊等常用的推荐算法Apriori)一个生活常识:男人去超市买尿不湿时会顺便去买瓶啤酒。婴儿尿不湿 啤酒 支持度=10%,置信度=70%上述式子表明,在所有顾客中,有10%(支持度)同时购买了婴儿尿不湿和啤酒,而在所有购买了尿不湿的顾客中,占70%(置信度)还同时购买了啤酒。 =X对Y的支持度:事物全体中包含 的事物百分比。主要衡量规则的有用性,若太小说明只是偶然事件。=X对Y的置信度:既包含了X又包含了Y的事物总量占所有包含了X的事物数量的百分比。衡量的是规则的确定性,或者说是可预测性。,(2)关联分析(Association Analysis),“啤酒和尿不湿
14、”营销案例:沃尔玛超市发现了上述啤酒与尿不湿之间的关联性后,决定把这两样东西摆放在一起进行销售,结果明显的提高了二者的销售额,这就是经典的“啤酒与尿不湿”营销案例。,(3)主成分分析(Principal Components Analysis),描述:属于传统的统计分析技术范畴。通过线性组合将多个原始变量合并成若干个主成分,这样每个主成分都变成了原始变量的线性组合。这种转变的目的,一方面是可以大幅度降低原始数据的维度,同时也在此过程中发现原始数据属性之间的关系。基本思想:设法将原来众多具有一定相关性(比如n个指标),重新组合成一组新的互不相关的综合指标(如m个,mn)来代替原来的指标。,exa
15、mple:,以影响房地产价格的因素为例:线性组合,人口数量(x1)、 人口密度(x2)、 城市化程度(x3)、 社会稳定情况(x4)、,X=a1*x1+a2*x2+a3*x3+a4*x4 社会因素,国民经济水平(y1)、 税率(y2)、 平均工资(y3)、 银行利率(y4)、,地理位置(z1)、城市功能区(z2)、 交通情况(z3)、,Y=b1*y1+b2*y2+b3*y3+b4*y4 经济因素,Z=c1*za+c2*z2+c3*z3 区域因素,(4)聚类分析(Clustering Analysis),描述:所谓聚类,就是俗话说的“物以类聚,人以群分”。针对几个特定的指标,可以将观察对象的群体
16、按照相似性和差异性进行不同群组的划分。经过划分后,每个群组内部各对象间的相似度会很高,而在不同群组之间的对象彼此将会差异较大。聚类的方法:聚类分析的算法比较多,其中最简单也最常用的方法就是k-means方法。所谓k-means方法,通俗的说就是通过你周围k个人的平均情况从而来判断你是属于什么情况。具体的原理是:a.首先随机选择K个对象,并且所选择的每个对象都代表一个组的初始均值;b.对剩余的每个对象,根据其与各个组初始均值的距离,将它们分配给最近的(即最相似的)的小组c.然后重新计算每个小组的均值;d.不断重复上述过程,直到所有的对象在K组分布中都找到距离自己最近的组。,(4)聚类分析(Clu
17、stering Analysis),应用:聚类分析的应用场景较多,比如:根据购房者的年龄、职业(收入)、家庭情况(婚姻、家庭人数等)、购买何种户型四个维度进行聚类划分,从而得到不同特征的群体。进一步的,根据特征情况向潜在客户(即有意向购房客户)推荐合适的户型,建立起品牌的忠诚度。,(5)参数估计与假设检验(Estimation and testing),点估计(例如用样本中的均值去估计总体的均值) 参数估计区间估计(用样本均值的95%置信区间去估计总体均值)统计分析中的两大主要板块“小概率”反证法思想假设检验构造已知某种分布的检验统计量,(5)参数估计与假设检验(Estimation and
18、testing),一、参数估计(Parameter Estimation) 描述:在日常工作中,在面对总体数据较为庞大时候,我们大都需要做参数估计(除全国人口普查外),它是通过抽取样本、计算样本中信息进而估计总体分布中的参数和数字特征,用以反应总体本质和规律。例如:我们要想知道客户对碧桂园的物业服务满意度(设为参数E),在进行调查有两个方法:总体普查或者抽样调查。 总体普查虽精确,但成本高、人力付出大,因此在时间成本有限的情况下往往使用抽样调查,从样本中计算出我们所需的参数,用以估计总体参数。常用的数字特征估计:a.样本均值估计总体的均值(期望);b.样本方差估计总体方差;c.样本的偏度估计总
19、体偏度d.样本参数的函数估计总体参数的函数估计量的评价指标:无偏性相合性有效性.,(5)参数估计与假设检验(Estimation and testing),二、假设检验(Hypothesis Testing) 起源:女士品茶 发明者:费舍尔(Ronald Aylmer Fisher),英国统计学家,在统计史上具有显赫地位。 Fisher思想:显著性检验a.试验过程:准备8杯饮料,其中四杯是先倒茶后加牛奶(TM),另外四杯是先加牛奶后倒茶(MT),将它们随机排列,让该女士依次品尝,然后让她指出哪四杯是TM?b.推理过程:引进假设 H:该女士并无鉴别能力假设意义:当H是正确的,那么该女士只能从8杯
20、饮料中任意选取四杯,故有 种选法,其中只有一种是对的。因此,若该女士真的全部都选对了,我们必须承认以下两种情况下的一种: 1、H不成立,即该女士的确拥有鉴别能力; 2、发生了一件概率只有1/70的事件。,(5)参数估计与假设检验(Estimation and testing),上述的第二种情况相当于在一个放有70个球的黑箱子里随意摸出一个球,正好摸出事先指定的一个,这种情况比较稀奇,因此我们有相当的理由承认第一种情况的可能性。或者说,该女士4杯全都挑对的这个结果,是一个不利于假设H的显著证据,据此,我们否定H。这样一种推理过程就称做显著性检验。,(5)参数估计与假设检验(Estimation
21、and testing),主要思想:假设检验的基本原理就是小概率事件原理,即观测小概率事件在假设成立的情况下是否发生。如果在一次试验中,小概率事件发生了,那么说明假设在一定的显著性水平下不可靠或者不成立;如果在一次试验中小概率事件没有发生,那么也只能说明没有足够的理由相信假设是错误的,但是也不能说明假设一定是正确的,因为无法收集到所有证据来证明假设是正确的。显著性水平:要得到一个判断的决定,通常是给定一个阈值,当算出的概率(如上述例子中1/70)小于这个阈值时,就认为结果是显著的(提供了不利于原假设H的显著证据),并导致否定H,这里的阈值就称为显著性水平。在统计学中,显著性水平根据不同的情况取
22、不同的值,一般来说都是取0.01,0.05,0.1等几个水平。,(5)参数估计与假设检验(Estimation and testing),由于假设检验是在一定的显著性水平下得出的,因此当采用这个方法观测事件并下结论时,有可能会犯错误,这些错误主要有两大类:,Part Three: 如何养成数据分析师的思维和品质,人皆含灵,惟勤诱致。 禅林宝训 宋代 妙喜禅师态度决定一切 基本的方法论 二八原理 既要主观,也要客观,(1)态度决定一切,信念:坚信数据背后一定有值得提炼的规律和结论,本着事物都是普遍联系的辩证唯物主义观点来看待业务的本质规律及其内在关系。信心:信念是针对客观存在的数据而言,信息则是
23、针对数据分析师自己而言。越是自信的人,越会理性看待自己的优点和缺点,取长补短。信仰:把业务和思路作为信仰,始终要以业务和思路为重点,以分析技术为辅佐的手段。强调的是分析思路的价值和重要性要远胜过分析技术本身。,(2)基本方法论,做假设 搞清楚分析的目的是什么 定标准 分析中要统一数据口径,明确对比的有效性和可比性 做比较 万事万物都是相互依存的,没有比较就没有结论 看趋势 通过以往数据的分布和趋势图,可以发现事物的发展走向 辨真伪 找到现象背后真实的原因和真正的数据关系 下结论 数据分析的最终产物,(3)二八原理,二八原理反映了矛盾论的观点,那就是要善于抓住主要矛盾和矛盾的主要方面,这样才可以
24、突出重点、聚焦充分,从而有效地突出问题,发现问题。对于数据分析师而言,二八原理的价值就在于有意识地关注和聚焦20%的核心产品、核心用户、核心因素和核心问题;在众多影响变量中找到最关键的变量,防止造成维数灾难。,(4)既要客观又要主观,客观:由于数据和数据分析都是客观的,因此数据分析师面对分析和结论时当然也必须是客观的。主观:a.对于分析的目标和分析的产出物应该有自己主观上的预判,并且优秀的数据分析师所做的这些主观上的预判通常会被后期的事实所验证,证明是正确的。b.在面对决策层和分析需求方时要站在管理层的角度,站在需求方的角度去思考、提炼、分析以及下结论。,Part Four:统计学书籍与软件,
25、课外读物:女士品茶统计学史 爱上统计学没有太多的数学公式 统计数字会说谎如何辨别生活中的真伪统计数字 大数据时代当下最热门的大数据书籍,通俗易懂 黑天鹅模型无用论,专业统计学软件:SAS国际上最权威的数据分析软件,商业用途需付费,价格昂贵,既可自己编程也可用窗口分析; SPSS最简单的、“傻瓜式”统计分析软件,无需编程; R当前最为热门的数据分析软件,作图功能强大,适用于教学和科研,交互界面友好,可根据自己需要自行改进、上传软件包; Matlab既可作为数学实验软件也可作为统计分析软件; Excel拥有快捷、方便的统计分析功能,日常办公工具,也可作为存储数据的工具,但无法应对当前的大数据。,报告结束,感谢聆听,