1、2006-2007学年第二学期,华中科技大学公管学院胡隆基,1,管理定量分析方法 本科生课程,胡隆基 华中科技大学公共管理学院 ,2006-2007学年第二学期,华中科技大学公管学院胡隆基,2,第一讲:管理定量分析的性质与运用,2006-2007学年第二学期,华中科技大学公管学院胡隆基,3,友情提示,上课不要迟到。 上课不能使用手机。 上课不要睡觉。 上课不要在下面私聊,如有疑问或者有什么有意思的话题,请举手,大家一起来讨论、一起来分享。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,4,本课程的参考书籍和软件,指定教材: 许晓东,定量分析与方法,华中科技大学出版社,2008年。
2、 马庆国,应用统计学:数理统计方法、数据获取与SPSS应用(精要版),科学出版社,2005年版 。 参考书籍 盛骤、谢式千、潘承毅,概率论与数理统计(第二版),高等教育出版社,1994年。 吴冬友、杨玉坤,统计学,中国税务出版社,2005年 贾俊平,统计学,清华大学出版社,Springer出版社,2004,2006-2007学年第二学期,华中科技大学公管学院胡隆基,5,本课程所使用的软件是: 统计学SPSS 15.0,(自己到华科在线用FTP搜索下载安装,或到电子市场购买)。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,6,本讲主要内容,1课程性质与内容 2课程学习方法 3管理
3、学研究和定量分析 4定量分析在管理实务中的应用 5本课程的日程安排 6本课程的考试方法 7课外作业,2006-2007学年第二学期,华中科技大学公管学院胡隆基,7,1 课程性质与内容,管理定量分析是一门工具性课程,主要讲授广泛应用于管理研究与管理实务中的各种定量分析工具,是一门应用性很强的课程。 管理定量分析主要包括两个领域:优化方法(或系统工程)与应用统计学。 由于学时和大家数学基础所限,本课程主要讲授应用统计学中的基础统计学,以及优化方法中的线性规划初步。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,8,2 课程学习方法,1)不要试图去证明相关的定理,而是要懂得这些定理后面
4、的逻辑或原理。 2)不要死记相关的计算公式和方法,而要懂得这些方法和公式后面的逻辑和适用条件。 3)也不要去手工计算,要学会用计算机去完成相关的计算工作。你的精力要集中在计算结果的解释,以及就结果对你研究的问题的意义进行判断。(注:为了熟悉原理而进行的简单计算例外)“把证明留给数学家,把计算留给计算机,把原理与逻辑留给自己”,2006-2007学年第二学期,华中科技大学公管学院胡隆基,9,3 管理学研究与定量分析,31 梅奥的霍桑实验3-2 定量分析在管理学研究中的地位,2006-2007学年第二学期,华中科技大学公管学院胡隆基,10,31 梅奥的霍桑实验,梅奥的霍桑实验(Hawthorne
5、Experiments)中有关非正式组织的研究。,George Elton Mayo,18801949,2006-2007学年第二学期,华中科技大学公管学院胡隆基,11,目的是要证实在工人当中存在着一种非正式的组织,而且这种非正式的组织对工人的态度有着极其重要的影响 实验条件:(1)人员:14名男职工,其中9名绕线工,3名是焊接工,2名检验工;(2)计件工作制度。 实验结果:工人每天只完成了60006600个焊接点(标准每个工人应该完成7312个焊接点),且天天如此。为什么?,2006-2007学年第二学期,华中科技大学公管学院胡隆基,12,解释1:可能是这些工人的智力或者动作协调性有问题。研
6、究测试结果否定了这一解释。 合理的解释: 工人们自动限制产量的理由是,如果他们过分努力地工作,就可能造成群体内同伴的失业,或者公司会制定出更高的生产定额来。所以群体会迫使其中的个体进行一致限产。也就是工人会受到非正式组织的影响。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,13,让我们总结一下该研究的研究过程,2006-2007学年第二学期,华中科技大学公管学院胡隆基,14,3-2 定量分析在管理学研究中的地位,管理学研究的一般程序(1)提出和形成问题(2)文献综述(3)假设的提出(4)概念定义及其变量操作化 (5)数据收集(6)数据分析(7)结论及其分析(8)研究报告写作 从
7、上面可以看到,在(6)中定量分析具有重要的地位,它是数据分析的主要方法,2006-2007学年第二学期,华中科技大学公管学院胡隆基,15,4定量分析在管理实务中的应用,估计出租车数量(第二讲 数据收集、描述性统计与SPSS简单应用 ),2006-2007学年第二学期,华中科技大学公管学院胡隆基,16,估计某中濒危动物的数量(第三讲中的概率知识) 假设你是劳动人事局的项目评估人员,要对一项针对下岗职工的就业培训项目进行评估,你发现参加了这个培训项目的下岗职工中有60%找到了工作,而没参加这个项目的下岗职工中只有45%找到了工作.你如何对这项目的有效性加以评估?(第三讲,假设检验),2006-20
8、07学年第二学期,华中科技大学公管学院胡隆基,17,如何判断几个政府部门的绩效是否确实存在差异(第四讲方差分析),2006-2007学年第二学期,华中科技大学公管学院胡隆基,18,如何估计盗窃数量?(第五讲 回归分析),2006-2007学年第二学期,华中科技大学公管学院胡隆基,19,其他: 聚类:社会阶层的划分,经济区域的划分.红学中的作者研究 主成分分析:地区生产率的排序.制衣业中规格的确定 判别分析:信用等级判定,是否偷税漏税?企业是否会破产? ,2006-2007学年第二学期,华中科技大学公管学院胡隆基,20,5 本课程的日程安排,2006-2007学年第二学期,华中科技大学公管学院胡
9、隆基,21,6 本课程的考试方法,考试方式:平时成绩10%期终考试笔试70上机考试成绩20。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,22,7 课外作业,课外作业 1)随机找100个同学,让他们在O/V两个子母中任选一个(不要思考),并用纸笔记录下每个人的选择。 2)随机找100个同学,让他们从110十个数字任意选择一个数字(不要思考),并用纸笔记录下每个人的选择。 3) 结合教材预习第一章和第二章,2006-2007学年第二学期,华中科技大学公管学院胡隆基,23,第二讲 数据获取、描述性统计与SPSS简单应用,2006-2007学年第二学期,华中科技大学公管学院胡隆基,2
10、4,本讲内容,1 统计学的主要思想2 数据获取3 SPSS简单应用 4 单变量描述性统计 5 双变量数据整理,2006-2007学年第二学期,华中科技大学公管学院胡隆基,25,1 统计学的主要思想,11 随机性中的规律性 12 规律性中的随机性 13 概率(probability) 14 变量(Random Variable) 15 总体与样本(Population and Sample),2006-2007学年第二学期,华中科技大学公管学院胡隆基,26,11 随机性中的规律性 1)随机性是指不能预测某一特定事件的结果。 2)规律性是指我们从许多随机事件中收集数据时发现的模式。 统计可以看着是
11、对随机中的规律进行研究的学科。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,27,12 规律性中的随机性 1)在进行统计观察的时候,大部分时候我们都得不到完全一模一样的观察结果。所以规律也表现出某中随机性,这是统计的一个重要的本质特征。 2)所以任何两次数据收集过程中,得到的结果一般都有差异。关键是这种差异是可以用数据本身的随机性进行解释,还是差异达到了无法用随机性进行解释?当两种规律的差异超出了随机性本身的范围的受,变化趋势就发生了。 所以统计也是对数据中的偏差问题进行研究的学科。统计把单独的、随机事件置于规律中,并揭示出其变化的趋势。,2006-2007学年第二学期,华中科
12、技大学公管学院胡隆基,28,研究随机性和规律性的两个例子 1)20世纪50年代,小儿麻痹症育苗的研究。,问题是:56和138之间的差别是否超过了随机性所能解释的范围。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,29,2)1970,美国越战的征兵。,问题是:73和110之间的差别是否超过了随机性所能解释的范围。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,30,思考题 拧松水龙头,让其刚好到只有水滴下来,计算并记录15分钟内每个20秒里的水滴数。利用你的数据,请说出该水滴在什么方面是随机的?什么方面又是有规律的?,2006-2007学年第二学期,华中科技大学公管
13、学院胡隆基,31,13 概率(Probability) 在讨论随机性的时候,统计学的大部分内容根基于一个很重要的概念概率。 概率是一个取值介于0到1之间的数,告诉我们某一特定的事件以多大的机会发生。 对于两个数字的差别是否超出了随机性本身所能解释的范围,我们可能永远无法肯定。但是我们可以确定,这种差别超出随机性能解释的范围发生的概率是大还是小。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,32,14 变量(variable) 统计的又一块较大的基石是变量。变量简单的说就是事物的特征或者属性。 研究者在研究项目开始的时候,就要确定他们所要研究的变量是什么。 变量的值(value)
14、通常是对某一个特定单位的度量,这种单位常常被视为一个个体(element)。什么是个体取决于你的研究问题。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,33,思考题:指出下面研究中的变量、变量的值、个体是什么? 1)研究华中科技大学男生的身高和体重之间的关系。 2)研究武汉市居民对打的加收燃油税这项政策的满意程度。 3)统计湖北省个县市的工业生产总值。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,34,15 总体与样本,2006-2007学年第二学期,华中科技大学公管学院胡隆基,35,思考题:请判别下面研究问题中的总体与个体是什么? (1)如果你对华中科技大学女
15、生的身高感兴趣,想研究下其分布。(2)如果你想研究武汉市的高新技术企业的盈利情况。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,36,总结一下,1)随机性和规律性是统计学的两个重要概念。规律性本身包含着随机性。统计可以定义为在随机性中寻找规律性,当两种规律之间的差异超出了随机性本身的影响(或者解释范围),变化趋势就发生了。 2)概率为我们从数据中得出结论提供了基础,统计学家利用概率判断数据间的差异是否超出了随机性本身的影响。 3)变量可定义为一个特征或属性,我们的数据收集都是针对一个个变量进行的。 4)统计很少对总体进行直接的研究,都是通过对具有代表性的样本的研究,来对总体的信
16、息进行推断。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,37,2 数据收集,21 定义变量22 变量的测量层次23 观察数据抽样调查:问题和可能性24 问卷设计中常出现的问题25 数据文件的格式,2006-2007学年第二学期,华中科技大学公管学院胡隆基,38,21 定义变量数据收集的第一个工作,就是要清楚测量和收集什么。你要将你的研究问题转化为用变量的语言来描述,并且要对变量进行清楚的定义。 例如:思考一下,假设你想了解一个家庭孩子的数量,你设计的问题为:“在你家庭中有多少个孩子?”,该问题存在什么问题? (C),2006-2007学年第二学期,华中科技大学公管学院胡隆基,
17、39,至少存在以下问题: (1)孩子是否应该小于18周岁? (2)孩子是仅仅指亲生子女,还是包括养子养女?过继的算不算?对于不和亲生父母生活在一起的孩子算不算?父母离了婚而共同抚养的孩子怎么算? 所以要对“孩子”这个变量做清楚的界定。 思考:这个调查问题存在什么问题: “请问贵企业的销售收入是多少?_”,2006-2007学年第二学期,华中科技大学公管学院胡隆基,40,22 变量的测量层次 1)思考题:请回答以下收集到的数据,可以进行“”,“、” ,“,”中的哪些运算?(1)五个人的性别:1,0,0,1,1(1:男性;0:女性)(2)五个人的身高:170,173,165,180,161(单位:
18、厘米)(3)七天的气温(摄氏温度):15,24,27,18,34,30,19。(4)五个人对一项政策满意程度的评分:5,3,3,4,2(1:十分不满意;2:不满意;3:一般或中立;4:满意;5:十分满意),2006-2007学年第二学期,华中科技大学公管学院胡隆基,41,2)按照数据适合的运算规则,统计学将数据(或变量)划分为四个层次: (1)定类数据(nominal sale)(变量)。它仅仅是一种标志,取数值仅仅是用以区分变量中的类型名称。不适合任何四则运算和大小运算。 (2)定序数据(ordinal scale)。定序数据值能够比较大小,不能够做加减乘除运算,它表示一种次序。,2006-
19、2007学年第二学期,华中科技大学公管学院胡隆基,42,(3)定距数据(interval scale)。这类数据可以做大小比较以及加减运算,不能做乘除运算。数据之间的距离是相等的。其根本特征是,数据中的0不是物理客观存在的,而是人为设定的。例如:温度测量值就是定距。 (4)定比数据(ratio scale)。定比数据是数据中最高层次的测度等级。这类数据可以做大小比较和加减运算外,还可以做乘除运算。这时的0值不是人为确定的,而是物理客观存在的。例如:人的身高数据、体重数据。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,43,思考题:1)我们用一个量表测量人们对一项法律的态度,如果
20、1表示不赞成,2表示无所谓,3表示赞成,对于3个人我们测得的值分别为:3、1、2,这些数据为_数据。 2)测量10个大学生所在的年级,如果用1表示大一、2表示大二、3表示大三、4表示大四、5表示其他。测量的值为:1、3、4、1、2、3、2、1、1、4,这些数据为_数据。3)测得5个人的第一次结婚年龄(单位:周岁)为:20、22、24、30和26,这些数据为_数据。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,44,注意三点: 1)SPSS中将定距数据和定比数据合并为一类,叫刻度级数据。所以SPSS的数据测量层次只有三种。 2)一项统计方法适合低级别的数据,也适用于高级别的数据。
21、但反过来不成立。例如我们可以计算身高数据的均值,但不能计算五个人性别的均值。 3)在社会科学研究对定序数据的处理有两种方式:一是将其作为定类数据看待;另一是将其作为刻度级数据看待。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,45,23 观察数据抽样调查 定义:凡是在获得数据的过程中,不对被调查对象数据产生的条件施加任何控制所得到的数据,称为观察数据。 两种方式:普查与抽样调查。 普查(Census) :就是收集总体中的所有个体的数据。 抽样调查(Sampling):是在总体中选择出一个样本,然后对样本中的个体进行调查,从所了解的样本数据来推断总体情况。,2006-2007学年
22、第二学期,华中科技大学公管学院胡隆基,46,抽样调查的优点: (1)经济性。 (2)时效性强。抽样调查可以迅速、及时地获取到所需要的信息。 (3)准确性高。 抽样调查的一个原则: “确信锅里的汤被搅拌均匀”。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,47,抽样调查的方法:概率抽样(Probability sampling)非概率抽样(Nonprobability sampling) 概率抽样(Probability sampling) (1)简单随机抽样(simple random sampling):就是等概率抽样,每个个体以相同的概率被抽中。这也可以分为重复抽样和不重复
23、抽样两种形式。 (2)分层抽样(Stratified sampling):在抽样之前将总体划分为不同的层(群),然后在各个层中抽取一定数量的元素组成样本。分层抽样的时候应该是各个层内之间的元素的差异比较小,而使层之间的元素比较大。各个层的划分要根据研究者的判断和研究目的。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,48,(3)等距离抽样(systematic sampling,系统抽样):首先将总体中的个体按照某种顺序排列起来,然后按照某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直到抽满n个元素形成一个样本为止。 (4)整群抽样(Cluster samplin
24、g):就是首先将总体划分为若干个群,然后以这些群为抽样单位从中抽出部分群,在对抽选出的群中的所有元素进行观察。 思考题:假如你要调查武汉市市区内的居民月收入,假设抽样容量为1000。你如何展开抽样?,2006-2007学年第二学期,华中科技大学公管学院胡隆基,49,非概率抽样(Nonprobability sampling) (1)便利抽样(Convenience sampling):研究者出于收集数据的便利,而不考虑抽样的概率,所进行的抽样。例如:街头访谈、电话访谈、向自己的亲朋好友收集数据。这种样本数据收集过程都加入了某中人为的干扰和选择,所以从方便样本中得出的结果对于总体信息的推论程度是
25、有限的。 思考题:有时候杂志要求读者回答某些问题并寄回答案,从而构成一个样本。 请问这个样本能不能代表读者群总体?为什么?,2006-2007学年第二学期,华中科技大学公管学院胡隆基,50,(2)判断抽样(Judgment sampling):是指经过专家考虑后,以适当的方式进行抽样。例如:研究青少年吸毒问题。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,51,24收集观察数据过程中常出现的误差两大类: (1)未响应误差(nonresponse error)。没办法,现在的响应率确实太低了。据估计:一次好的电话调查,响应率8590;一次邮寄调查的响应率很少有达到50的;即使是名
26、声比较好的调查组织的响应率也经常不超过60。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,52,(2)响应误差(response error)。即使所有的问题都有了回答,我们所知道的也仅仅是调查时人们告诉访员的,而未必是它们实际上做的、感觉的或所想的。影响响应误差的因素很多,常常有: (A)问卷的长度。 (B)问题的措词。要通俗易懂;要准确而不笼统;避免双重否定形式的提问。1992 Roper协会做的调查: “在你看来,纳粹对犹太人的灭绝从未发生过是可能的还是不可能的” (22怀疑)1994 “在你看来,纳粹对犹太人的灭绝从未发生过可能吗?还是你确信它发生过?” (1),200
27、6-2007学年第二学期,华中科技大学公管学院胡隆基,53,避免诱导性提问,2006-2007学年第二学期,华中科技大学公管学院胡隆基,54,(C)问题所在的位置。不要将敏感性问题放在问卷的前面,要结束调查时的问题要短且简单。 (D)调查员的影响。调查设计者要尽量让调查员和被调查者在人口统计特征上相近,如:年龄、性别、种族等。特别是在调查一些敏感问题时尤其如此。例如你要调查女性对化妆品的看法,找男性去就不合适。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,55,最后要提醒大家的是: (1)任何一种抽样程序的一个普遍困难是,很少有一份完全包括属于总体的所有个体的名单。即使存在这份
28、名单,这份名单也往往是不完全的。 (2)要总是对你的数据采取一种怀疑态度,这样收集到的数据才可能尽量可靠 (3)仅仅使用观察数据来进行因果关系的判断是十分困难的。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,56,25 数据文件的格式,2006-2007学年第二学期,华中科技大学公管学院胡隆基,57,4 描述性统计,41样本数据的基本特征:频次和频率42刻度级数据的数据结构:茎叶图和直方图43 数据中心描述44离散趋势描述:点描述和区间描述。45 综合表述:箱形图,2006-2007学年第二学期,华中科技大学公管学院胡隆基,58,41样本数据的基本特征: 频次(Frequenc
29、y)和频率(Percentage),所谓频次就是一个特定数据值在整个数据集合中出现的次数。 频率就是某个特定数据值出现的频次与数据集合的数据总数之比。 一个延伸的概念是累积频率,当数据的测量层次在定序级以上时,设x1 x2 xm ,是样本数据集合中的不重复的样本值(mn样本个数)。 若把样本值小于等于某个样本数据xi 的频率值,都累加起来,就得到“小于等于xi”的累积频率 思考题:累积频率适合于何种测量层次的数据?,2006-2007学年第二学期,华中科技大学公管学院胡隆基,59,条形图(Bar Chart),2006-2007学年第二学期,华中科技大学公管学院胡隆基,60,女性结婚年龄,30
30、,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30, 33,30,31,26,29,25,24,31,46,23,26,24, 25,60,23,19, 34,25,27,25,2006-2007学年第二学期,华中科技大学公管学院胡隆基,61,2006-2007学年第二学期,华中科技大学公管学院胡隆基,62,2006-2007学年第二学期,华中科技大学公管学院胡隆基,63,经济,10%,管理,25%,会计,65%,饼状图 Pie Chart,1. 表示出总量的分类 2. 是表示相对差异的有效办法 3. 角度大小 360(百分数),专业,(360)
31、(10%) = 36,36,2006-2007学年第二学期,华中科技大学公管学院胡隆基,64,42茎叶图和直方图,1)茎叶图( Stem-and-Leaf displays),把每一项观察分解为茎值和叶值 茎值确定组别 叶值确定频数(计数),Xi,2006-2007学年第二学期,华中科技大学公管学院胡隆基,65,结婚年龄 Stem-and-Leaf PlotFrequency Stem & Leaf1.00 1 . 99.00 2 . 22333344413.00 2 . 55556677799998.00 3 . 000113341.00 3 . 71.00 4 . 04.00 Extrem
32、es (=44)Stem width: 10.00Each leaf: 1 case(s),110919,2006-2007学年第二学期,华中科技大学公管学院胡隆基,66,0,1,2,3,4,5,2)直 方 图 Histogram,频数 频率 百分数,0 15 25 35 45 55,下界,柱条接触,计数,类别,频数,15 25,3,25 35,5,35 45,2,2006-2007学年第二学期,华中科技大学公管学院胡隆基,67,2006-2007学年第二学期,华中科技大学公管学院胡隆基,68,直方图的注意点,对于直方图的形状我们关心:(1)是否为单峰(unimodal)?如果是单峰的,则说明
33、观测中只有一组是主要的;否则呢?(2)是否对称(symmetric)? 值得注意的是,有时候由于人为的构造,对同一个数据集的直方图会让人产生错觉。(1)区间的划分数目选择可能产生;(2)纵轴的刻度选择。 一般来说,区间划分数为510个比较好,2006-2007学年第二学期,华中科技大学公管学院胡隆基,69,2006-2007学年第二学期,华中科技大学公管学院胡隆基,70,2006-2007学年第二学期,华中科技大学公管学院胡隆基,71,直方图与茎叶图的区别:直方图和茎叶图都用来展示刻度级的数据,茎叶图类似于横放的直方图。但是直方图主要用于对原始数据进行分组后的展示,而茎叶图主要对于原始数据的展
34、示。同时,茎叶图既能给出数据的分布,又能给出每一个原始数据值,即保留了原始数据的信息。而直方图不能给出原始的数值。注意:当变量的观测数很多的时候,茎叶图的效果就不太好了。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,72,43 数据中心描述,常用的有三个:“样本中位数(Median)”、“样本众数(Mode)”和“样本均值(Mean)”。 中位数:就是将资料排序(从大到小,从小到大都可)后,居于中间位置的那个数称为中位数。用 表示。,当n为奇数的时候:,当n为偶数的时候:,2006-2007学年第二学期,华中科技大学公管学院胡隆基,73,众数、中位数与均值之间的区别: 1)一般
35、来说,众数适合于定类数据;中位数适合于定序数据及其以上的数据;均值适合于样本均值; 2)中位数只与位置有关,它只利用了数据集中的少数几个数据(最多两个数据)的信息,对极端值不敏感。而均值则利用了数据集中所有数据的信息,极容易受到极端值的影响。 3)对于刻度级数据,很少用众数来代表其集中趋势的;如果存在极端值的时候,要用中位数来代表数据集的集中趋势。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,74,思考题1:一般来说,最适合代表定类数据的集中趋势的是:_. (A)中位数;( B)众数; (C)平均数; (D)方差。,2)6个人的身高数据为:173cm、173cm、178cm、1
36、76cm、171cm和226cm,请你选择代表这个数据集集中趋势,最适合的是:_. A、中位数; B、众数; C、平均数; D、方差。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,75,案例:估计一个城市的出租车数量,某城市的出租车数量少,某位统计学家等了几辆车,发现都是满载的。这位统计学家就怀疑这城市到底有多少出租车,以至于不够用。如何进行估计? 他开始记下满载的出租车号,依次为:405, 280, 73, 440, 179 。你如何根据这些资料推断这个城市的出租车数量? 上车一问该城市一共 550辆出租车。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,76,
37、相对误差为(550 - 527) /550 = 0.04,2006-2007学年第二学期,华中科技大学公管学院胡隆基,77,(M+1)/2=280 也就是说 M=559,相对误差为: ( 559 - 550) /500 = 0.02,思考题:1)你还能想出其它方法吗? 2)我们这样做的时候有什么假设,2006-2007学年第二学期,华中科技大学公管学院胡隆基,78,其他方法: 利用均值。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,79,44(1)离散趋势点描述,(1)极值 两个极值:最大值(Maximum)和最小值(Minimum) 适合于定序级以上的数据 (2)下四分点(l
38、ower quartile)与上四分点(upper quartile) 下四分点把排序后的样本数据集合分成了左右两部分,使其左边部分包含了25%的样本总个数,使其右边部分包含了75%的样本总个数。上四分点则刚好相反。 (3)上下十分位点(percentile) 下十分点把排序后的样本数据集合分成了左右两部分,使其左边部分包含了10%的样本总个数,使其右边部分包含了90%的样本总个数。上十分点则相反。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,80,44(2)离散趋势区间描述,思考题:“区间描述”,适用于什么等级的数据? 1)极差(Range,也称为全距) 极差极大值极小值,用
39、Rn表示 它反映了样本数据在数轴上的分布范围。 2.)四分位距(Interquartile range) 四分位距(Iqr)Q3Q1 它反映了样本数据集合中样本值处于中间大小的1/2的数据的分布范围。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,81,全距和四份位距的适用范围。 思考题:请问下列两个数据集用全距来代表该数据集的离散趋势,适不适合?为什么? A)72,70,68,74,75,65,69,71,73,74Rn7565 B)96, 70,68,74,75,65,69,71,73,74Rn966531,2006-2007学年第二学期,华中科技大学公管学院胡隆基,82,3
40、) 样本离差(Deviations)与离差平方和(Sum of squared deviations) 样本离差被定义为每个样本与样本均值之差:xi , i1, 2, , n 样本离差又称为样本中心化数据。 反映数据集对均值的总偏差指标:离差平方和。离差平方和被定义为:,2006-2007学年第二学期,华中科技大学公管学院胡隆基,83,4 )离散状况的统计值描述:样本方差(Sample variance),s2=为什么用离差平方和除以 ,而不是除以样本个数。 样本标准差(Standard Deviation)的定义是 S=,2006-2007学年第二学期,华中科技大学公管学院胡隆基,84,注意
41、: 1)对于单峰对称分布的变量,有经验法则: A)大约有68的数据在均值的正负1个标准差的范围之内; B)大约有95的数据在均值的正负2个标准差的范围之内。(至少75) C) 大约有99的数据在均值的正负3个标准差的范围之内。(至少89)(正负4,至少94) 所以观察值的极差大致上等于4个标准差。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,85,5) 变异系数 (CV, Coefficient of variation),方差的缺点:受度量单位的影响。 所以定义样本变异系数定义为:样本标准差与样本均值之比:,CV经常作为金融研究中的投资风险度量指标。另外,CV还可以用于比较不
42、同事物之间的离散程度比较。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,86,例:两种投资组合:甲、乙,表中是9笔过去半年期投资报酬率,请问哪种投资组合的风险大?,注意,两者的标准差相同:0.05696。但是 CV甲58.25% CV乙91.45% 所以乙的风险较大。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,87,6)标准得分 (Standardized Score),37,29,68,30,26,28,25,65,28,33,32,45,42,17,42,32,36,21,24,28,32,24,24,45,24,49,28,22,32,28,36,21,
43、30,23,37,24,30,30,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30, 33,30,31,26,29,25,24,31,46,23,26,24, 25,60,23,19, 34,25,27,25,2006-2007学年第二学期,华中科技大学公管学院胡隆基,88,定义:一个原始值的标准得分,表示原始得分与均值的距离的新得分,这个得分用标准差为单位来衡量。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,89,假设男性结婚年龄的均值为32.4,标准差为11.2;同样可以求得,17岁的新郎的标准分为1.39。 所以,新郎的结婚
44、年龄更反常。思考题:如果变量的观测值是单峰对称分布,那么标准得分的值大部分(95)在那个区间范围内?,2006-2007学年第二学期,华中科技大学公管学院胡隆基,90,45 综合表述:箱形图(Box Plots),箱形图法是综合表达数据的中心特征和离散特征的图形方法。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,91,5 双变量数据整理 列联表(Contingency table)散点图(Scatter plot),2006-2007学年第二学期,华中科技大学公管学院胡隆基,92,5-1 定性双变量 (Qualitative bivariate data),常用列联表 例如抽烟
45、习惯与心脏状况。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,93,5-2 定量双变量 (Quantitative bivariate data),常用散点图。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,94,课外作业,1)找一张中文报纸和英文报纸,并从中随机挑选出150个句子(中文以“,”为标志),记录每个句子包含的字数(或叫长度)。 2)记录下这150个句子中每个汉字和英文字母出现的频次。 所有数据都要输入SPSS中,2006-2007学年第二学期,华中科技大学公管学院胡隆基,95,第三讲 概率论基础知识回顾,2006-2007学年第二学期,华中科技大学公
46、管学院胡隆基,96,本讲内容,1 概率论发展简史 2 概率论专有名词 3 概率的含义 4 获得概率的基本方法 5 概率的加法法则,6 联合概率、条件概率和独立事件 7 贝叶斯公式 8 相关的概念优势 9 离散变量的概率分布 10 连续变量的随机分布,2006-2007学年第二学期,华中科技大学公管学院胡隆基,97,1 概率论发展简史,11 概率论的起源,Pascal(16231662),Fermat, (16011665),1654年,赌金分配问题,2006-2007学年第二学期,华中科技大学公管学院胡隆基,98,赌金分配问题梅雷说:有一次他与某赌友(代称为A先生)掷骰子时,各押32个金币为赌
47、注,双方约定如果谁先赢得3局,就可以把赌金全部拿走,但因为梅雷临时有事,所以赌局不得不中途中断。此时梅雷已经赢得2局,而A先生只赢1局,如何公平分配赌金?,2006-2007学年第二学期,华中科技大学公管学院胡隆基,99,起点,费马:,帕斯卡尔:,2006-2007学年第二学期,华中科技大学公管学院胡隆基,100,1655年,荷兰数学家惠更斯 (Christopher Huygens) 访问巴黎时,了解到帕斯卡尔与费马的通信研究,对这类问题产生兴趣,后来,他撰写骰子游戏(Dice Game, 1657) 来探讨机率问题的原理,其中包含许多习题,被许多人认为是机率史上第一本教科书。提出了期望的概
48、念。 1713年,瑞士数学家伯努利(Jacob Bernoulli,1654 1705)出版了猜度术一书,提出了大数定理 。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,101,1765年,法国数学家棣莫弗(A.DeMoivre,16671754)的机会的学说一书出版,1733年就发现了正态曲线,以及论述了不存在运气。 蒲丰(G.L.LBuffon, 17071788)于1777年提出了投针问题的几何概率:h/n=(2r/). - 1933年,俄罗斯数学家科尔莫戈罗夫(19031987)以德文出版的经典性著作概率论基础,标志着概率论的公理化完成,这就是我们现在看到的概率论的情形。,2006-2007学年第二学期,华中科技大学公管学院胡隆基,102,2 概率论专有名词,随机实验:满足如下三个条件就可以称之为随机实验:(1)在同一条件下可无限次重复;(2)实验结果有多个,且不确定;(3)事前不知实验结果(outcome)。抛硬币 基本事件:一次随机实验的可能结果,称为基本事件或者基本随机事件。若随机实验E是“抛两次硬币”,其基本事件就是“+、”,“+、+”,“,”,“,+”。 样本空间:所有基本事件所组成的集合,称为样本空间或基本空间。接上例,其样本空间就是集合“+、”,“+、+”,“,”,“,+”。,