收藏 分享(赏)

统计分析方法——描述性统计.ppt

上传人:fmgc7290 文档编号:8697871 上传时间:2019-07-08 格式:PPT 页数:59 大小:458KB
下载 相关 举报
统计分析方法——描述性统计.ppt_第1页
第1页 / 共59页
统计分析方法——描述性统计.ppt_第2页
第2页 / 共59页
统计分析方法——描述性统计.ppt_第3页
第3页 / 共59页
统计分析方法——描述性统计.ppt_第4页
第4页 / 共59页
统计分析方法——描述性统计.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、2019/7/8,1,市场调研 Marketing Research主讲人:蔡清毅 厦门理工学院文化传播系 2007年5月,2019/7/8,厦门理工学院文化传播系 蔡清毅,2,市场调研,描述性统计 频数分布:列联表和假设检验,2019/7/8,厦门理工学院文化传播系 蔡清毅,3,1.数据的表现统计数字和统计图表,假如你已经获得了所要的全部数据; 认识数据的第一步:你得到的是什么类型的数据? 利用图和表来展示数据中的信息; 运用指标刻画数据的某些特征和程度; 使用EXCEL来完成对数据的描述。,2019/7/8,厦门理工学院文化传播系 蔡清毅,4,数据变量的分类,按照取值类型:品质数据和数量数

2、据; 按照测量水平:定类(Nominal)、定序(Ordinal)、定距(Interval)、定比(Ratio)等四类; 按照获取时间:截面数据、时间序列; 不同类型的数据应使用不同的统计方法; 问题:刚才的数据表中分别是什么类型?,2019/7/8,厦门理工学院文化传播系 蔡清毅,5,区分不同的测量水平,区分原则:定类数据没有大小之分;定序数据有大小之分,差值有意义;定距数据有大小之分,差值有意义,但其比值无意义;定比数据比值有意义。 定比定距数据可以向前化成定序或者定类数据,但是将损失一定信息;反之,不能将定序定类数据化成定距定比数据。,2019/7/8,厦门理工学院文化传播系 蔡清毅,6

3、,品质标志的描述方法(1),频数分布、相对分布、百分比频数分布,某校学生对体育锻炼的态度,2019/7/8,厦门理工学院文化传播系 蔡清毅,7,品质标志描述方法(2) 条形图、柱形图,某校学生对体育锻炼态度调查结果,2019/7/8,厦门理工学院文化传播系 蔡清毅,8,品质标志的描述方法(3) 饼图,某校学生对体育锻炼态度调查结果,2019/7/8,厦门理工学院文化传播系 蔡清毅,9,对矿泉水市场的调查,北京市居民矿泉水最喜欢品牌,2019/7/8,厦门理工学院文化传播系 蔡清毅,10,数量标志的描述方法(1),频数分布 单项式分布 组距式分布:等组距、不等组距有关概念:组数、组限(上限、下限

4、)、开口组、闭口组、组距、组中值,2019/7/8,厦门理工学院文化传播系 蔡清毅,11,如何按品质标志分类 如何按标志标志分类,假设某年某月某工地100名工人所得工资资料如下: (单位:元),450 520 540 580 650 720 580 780 650 620 首先:编制一个序列 其次:编制变量数列,数量标志的描述方法(1),案例:,2019/7/8,厦门理工学院文化传播系 蔡清毅,12,(1)单项变量数列,数量标志的描述方法(1),2019/7/8,厦门理工学院文化传播系 蔡清毅,13,(2)等组距变量数列,数量标志的描述方法(1),2019/7/8,厦门理工学院文化传播系 蔡清

5、毅,14,数量标志的描述方法(1),2019/7/8,厦门理工学院文化传播系 蔡清毅,15,注意几个问题: 第一 工资水平是连续变量 要用重叠组限 第二 组限的确定,即分组界限的确定 第三 组距大小的确定 第四 组数的确定,组数,数量标志的描述方法(1),2019/7/8,厦门理工学院文化传播系 蔡清毅,16,(3)不等组距变量数列 如在生命统计中,人口死亡率将人口按年龄分组,1岁以下 11.9岁 22.9岁 33.9岁 44.9岁,组距为1,59.9岁 1014.9岁 1519.9岁,组距为5,2029.9岁 3039.9岁 4049.9岁 5059.9岁,组距为10,6064.9岁 ,组距

6、为5,数量标志的描述方法(1),2019/7/8,厦门理工学院文化传播系 蔡清毅,17,数量标志的描述方法(2),某校20名学生的身高分布表,2019/7/8,厦门理工学院文化传播系 蔡清毅,18,数量标志的描述方法(3) 直方图,2019/7/8,厦门理工学院文化传播系 蔡清毅,19,数量标志的描述方法(4),对数据进行探索性分析:J.W.Tukey; 茎叶图(Stem-leaf),2019/7/8,厦门理工学院文化传播系 蔡清毅,20,描述两个变量的关系,研究两个变量之间的关系:两个变量的类型分别是什么? 两个品质变量之间的关系; 一个品质变量和一个数量变量的关系; 两个数量变量之间的关系

7、。,2019/7/8,厦门理工学院文化传播系 蔡清毅,21,交叉分组列表(列联表),表1 学生性别对体育锻炼的态度调查结果比较,2019/7/8,厦门理工学院文化传播系 蔡清毅,22,表2 年龄和性别对出国旅行的愿望的影响,交叉分组列表(列联表),2019/7/8,厦门理工学院文化传播系 蔡清毅,23,图形展示两个变量的关系,2019/7/8,厦门理工学院文化传播系 蔡清毅,24,描述两个数量型的变量 散点图,通过这个图,你觉得身高和体重是什么关系?,2019/7/8,厦门理工学院文化传播系 蔡清毅,25,数据描述的数值方法,通过数据指标来概括数据中的信息; 如何刻画数据的集中程度,或集中位置

8、; 如何刻画数据的变异程度; 如何刻画检验异常值; 如何刻画两个变量之间的关系; 探索性分析。,2019/7/8,厦门理工学院文化传播系 蔡清毅,26,数据集中位置的度量,平均数(Mean) 中位数(Median) 众数(Mode) 四分位数(Quartiles) 百分位数(Percentiles) 调整(或截尾)平均数(Trimmed Mean),2019/7/8,厦门理工学院文化传播系 蔡清毅,27,一个例子,某城市一居室月租金(美元)的70个数据,2019/7/8,厦门理工学院文化传播系 蔡清毅,28,平均月租金,2019/7/8,厦门理工学院文化传播系 蔡清毅,29,月租金的中位数,中

9、位数=(475+475)/2=475美元,2019/7/8,厦门理工学院文化传播系 蔡清毅,30,月租金的众数,众数是450,450出现的最多,频数是7,2019/7/8,厦门理工学院文化传播系 蔡清毅,31,理解百分数,P百分数是这样一个数,它使得至多有p%的数据项小于这个数,而且至多有(100-p)%的数据的数据大于这个数。中位数和上下四分位数都是特殊的百分位数。,2019/7/8,厦门理工学院文化传播系 蔡清毅,32,计算第P百分位数的步骤,以递增顺序排列原始数据(由小到大); 计算 I=(p/100) n; 如果I不是整数,将I向上取整。大于I的毗邻整数指示第p百分位数的位置;如果I是

10、整数,则第p百分位数是第I项与第I+1项的平均值。,2019/7/8,厦门理工学院文化传播系 蔡清毅,33,月租金的第90百分位数,计算I=(90/100) 70=63。所以第90百分位数是 第63和64个数的平均值。,2019/7/8,厦门理工学院文化传播系 蔡清毅,34,四分位数,第一个四分位数 =第25百分位数 第三个四分位数 =第75百分位数,2019/7/8,厦门理工学院文化传播系 蔡清毅,35,截尾均值,去除 %的最大和最小值,计算剩余数的平均值。月租金的5%的截尾值=487.19,2019/7/8,厦门理工学院文化传播系 蔡清毅,36,考虑数据的类型,不同类型的数据应该采用不同类

11、型的指标来刻画他们的集中位置。 对于定类数据你能够做什么? 对于定序数据你能够做什么? 对于定距数据和定比数据你能够做什么?,2019/7/8,厦门理工学院文化传播系 蔡清毅,37,数据变异程度的度量,全距(Range) 四分位间距(IQR) 方差(Variance) 标准差(Standard Deviation) 变异系数(Coefficient of Variance, CV),2019/7/8,厦门理工学院文化传播系 蔡清毅,38,月租金的全距和四分位间距,2019/7/8,厦门理工学院文化传播系 蔡清毅,39,关于方差和标准差,总体方差 样本方差 总体标准差,样本标准差s。 样本的标准

12、差系数=,2019/7/8,厦门理工学院文化传播系 蔡清毅,40,月租金的标准差,方差 标准差标准差系数,2019/7/8,厦门理工学院文化传播系 蔡清毅,41,探索性的数据分析,五数概括最小值(Min),第一个四分位数( ),中位数( ),第三个四分位数( ),最大值(Max).,2019/7/8,厦门理工学院文化传播系 蔡清毅,42,用EXCEL对数据进行描述分析,数据录入 制作图表 数据分析 计算描述统计量 相关系数,2019/7/8,厦门理工学院文化传播系 蔡清毅,43,3.假设检验,假设检验问题的提出假设检验是首先对总体提出假设,从而抽取一个随机样本,然后以样本的统计值来验证这个假设

13、是否成立,可以说假设检验是统计推论的反证法。,2019/7/8,厦门理工学院文化传播系 蔡清毅,44,3.假设检验,假设检验的一般步骤 1) 建立零假设 和备择假设 ; 2) 选择适当的用来决定是否拒绝零假设的统计方法和相应的检验统计量; 3) 选择显著水平的大小。在实践中,进行假设检验的人员确定允许拒绝第一类错误概率的最大值称为检验的显著性水平。显著性水平一般选择0.05和0.01;,2019/7/8,厦门理工学院文化传播系 蔡清毅,45,3.假设检验,4) 决定样本规模并收集数据,计算检验统计值,如样本均值、样本比例、样本标准差等等;5) 用检验统计量的抽样分布来决定检验统计量在零假设条件

14、下的概率,以及检验统计量的临界值(即指拒绝域的边界),以便将检验统计量的值与临界值比较;,2019/7/8,厦门理工学院文化传播系 蔡清毅,46,3.假设检验,6) 做出是否拒绝零假设的决定。有四种拒绝零假设的方式:如果最终统计量落入拒绝域之内,则拒绝零假设H0如果最终统计量(它的绝对值)大于临界值,则拒绝零假设H0如果概率值小于显著性水平,则拒绝零假设H0如果零假设的值落在置信区间之外,则拒绝零假设H0,2019/7/8,厦门理工学院文化传播系 蔡清毅,47,3.假设检验,2019/7/8,厦门理工学院文化传播系 蔡清毅,48,3.假设检验,2019/7/8,厦门理工学院文化传播系 蔡清毅,

15、49,课堂练习,2019/7/8,厦门理工学院文化传播系 蔡清毅,50,课堂练习,2019/7/8,厦门理工学院文化传播系 蔡清毅,51,课堂练习,2019/7/8,厦门理工学院文化传播系 蔡清毅,52,课堂练习,2019/7/8,厦门理工学院文化传播系 蔡清毅,53,课堂练习,2019/7/8,厦门理工学院文化传播系 蔡清毅,54,课堂练习,第一类错误是指样本结果拒绝了实际上正确的零假设。本例,如果通过样本数据得出,认为偏好新的服务的客户比例超过40名,而实际数字却等于或小于40名,我们就犯了第一类错误。第一类错误发生的概率 也叫显著性水平,即原假设是正确的,却接受了对立假设。,2019/7/8,厦门理工学院文化传播系 蔡清毅,55,课堂练习,2019/7/8,厦门理工学院文化传播系 蔡清毅,56,课堂练习,2019/7/8,厦门理工学院文化传播系 蔡清毅,57,课堂练习,2019/7/8,厦门理工学院文化传播系 蔡清毅,58,课堂练习,2019/7/8,厦门理工学院文化传播系 蔡清毅,59,课堂练习二,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报