1、第1章 概率统计简介,东华大学理学院,本章主要内容,什么是统计学几个概率统计的例子统计学发展历史简介,课程主要内容,描述统计学(Descriptive statistics, 第2章)概率论(Probability , 第3-5章)概率公理化定义随机变量分布随机变量数字特征推断统计学(Inferential statistics , 第6-9章)统计分布参数估计假设检验回归分析(介绍),统计学,Statistics is the study of the collection, organization, analysis, interpretation and presentation of
2、 data. When analyzing data, it is possible to use one of two statistics methodologies: descriptive statistics or inferential statistics.-维基百科(http:/www.wikipedia.org),一个例子,为了研究东华大学毕业生身体情况, 体育部随机抽查了90名男同学身高、体重数据, 记录在Excel文件中. 考虑下列问题:这90名男同学的身高、体重具有怎样的特征?是否可以据此估计:东华大学毕业男生平均身高、体重?需要作怎样的假设?身高与体重之间是否有依赖关
3、联?是否可利用身高来估计体重?,概念,总体(Population):当年东华大学毕业男生(约1800名);样本(Sample):90名学生;变量(Variable): 学号、学院、身高、体重等;观察值(数据)(Data):变量的值统计推断(Inference):根据样本(Sample)推断总体(Population) 。,数据类型,数值型(Numerical):身高Height(cm), 体重Weight(kg);名称型(Named):序数型(Ordinal): 学号Code,名义型(Nominal): 学院College.,第1步:数据清理,去除、修补坏数据(Outlier)和缺失数据(Mi
4、ssing Data)(行数据: 删5行, 修改3行) ;去除与问题无关的变量(列数据), 可保留部分标识列(删College,保留Code作标识);得到体检数据.xls-trim,第2步:数据描述,这90名男同学的身高、体重具有怎样的特征?图形描述数字特征描述,Histograms 直方图,首次使用安装: Excel2003-工具-加载宏-分析工具库Excel2010-文件-选项-加载项-分析工具库统计工具使用: Excel2003-工具-数据分析-直方图Excel2010-数据-数据分析-直方图,直方图(Histograms),正态分布Normal Distribution,中间多, 两头
5、小; 对称,用Excel计算,方法1: Excel2003-工具-数据分析-描述统计Excel2010-数据-数据分析-描述统计方法2:Excel2003-插入-函数-统计-(选所需函数)Excel2010-公式-插入函数-统计-(选所需函数),Excel描述统计,第3步:统计推断,是否可以据此估计:东华大学毕业男生平均身高、体重?需要作怎样的假设?前提假设:90个样本数据是从总体( 约1800个东华大学毕业男生)中随机抽取的,使得每个个体被抽到的可能性是一样的。统计推断由样本推断总体:平均身高173cm,平均体重60kg。,前提假设非常重要,随机电话调查(习题2):1936年的总统竞选中罗斯
6、福以压倒性的优势击败了兰登,而文学文摘却预测兰登获胜,该杂志的预测基于一个机动车主的电话簿的样本进行的。你是如何看待文学文摘的预测错误?,相关性,身高与体重之间是否有依赖关联?是否可利用身高来估计体重?Excel计算Excel2003-工具-数据分析-相关系数Excel2010-数据-数据分析-相关系数体重-身高相关系数Correlation 0.7556,相关性,回归模型Regression,体重与身高是相关的,相关系数0.7556;探索:体重与身高的函数关系?Weight = b0 + b1*Height + error,用Excel做回归分析,Excel2003-工具-数据分析-回归Ex
7、cel2010-数据-数据分析-回归,几个概率统计的例子,降水概率美国1996年首先使用降水概率70%:具有相同气象条件的情况下,历史上降水的可能性为70%彩票中的概率大乐透“35选5加12选2”相关问题:每个奖项的获奖概率、如何选择彩票、彩票的定价股票市场股票走势分析(影响股票价格的因素)股票走势预测如何投资,统计学的历史,起源:统计学的英语词statistics是源于意大利语statista(国民或政治家),代表对国家的数据进行分析的学问,也就是“研究国家的科学”。先驱者:Graunt, Halley (用死亡率估计城市人口) 。奠基者:Bernoulli, Gauss, Laplace(发展了概率理论)构造者: Galton, Pearson, Gosset, Fisher, Neyman(由数据推断结论),习题,ex5, ex6,