1、第一章 概率及概率分布,第一节 事件及其相互关系(随机现象及概率定义、古典概型) 第二节 概率运算法则(加法法则、乘法法则) 第三节 贝努利概型(间断性变量的概率分布类型) 第四节 数据整理(误差的概念、次数分布及特征数) 第五节 正态分布(连续性变量的概率分布类型),第一章要点提示,本章择要讲授概率论的基本常识和随机变量最典型的三种概率分布。学习时应了解随机事件相互关系并熟悉概率运算的基本法则;掌握两种间断性变量的概率分布类型,即古典概型和贝努利概型;牢固树立研究误差的思想,重点掌握误差作为连续性变量的概率分布规律正态分布,熟练地运用在某些取值区间如左尾、右尾、双侧或中间概率的计算方法。为下
2、一章学习一类特殊的连续性变量抽样误差的概率分布作准备。涉及教材内容:第一章第二、三节,第四章第一四节。作业布置:教材第二、三章内容(P12 P33)自习。,第一节 事件及其相互关系,一、随机现象在一定条件下,有多种可能的结果发生,但事先并不能100%地肯定发生哪一种结果的现象。 随机事件:泛指随机现象的任一种可能发生的结果,简称“事件”。 用大写字母 A、B、C或A1、A2、A3表示。随机现象有多少种可能发生的结果,就有多少个随机事件。 基本事件:指不能再分割的随机事件,否则就是复合事件。 概率论:研究随机现象统计规律性的学科。属于应用数学范围。,第一节 事件及其相互关系,二、概率的三种定义
3、随机试验:对某随机现象进行的一次观察同时具备三条: 事先可以明确几种可能出现的结果; 不能断言将出现哪一种结果; 在相同条件下可以重复进行。 统计定义:假定在相同或相似条件下,重复进行同一个 试验(或观察),某一事件A发生的次数a与总 观察 次 数n之比值 a/n 当n时稳定接近的值 p 就叫A的统计概率。记为P(A)= p或简述为“频率的极限值”、 “频率的稳定值”。此外还有概率的古典定义和几何定义。,第一节 事件及其相互关系,三、古典概型即古典概率分布类型,是针对有以下两个特征的试验而言:只有有限个不同的基本事件;各基本事件发生的概率均等。 例1.1、从随机数字表中任一位点抽得一位数字是0
4、、 1、2、或9的概率是均等的,都为0.1。即 n =10个基本事件发生的可能性相等,若事件A由其中的 m 个基本事件组成,则 P(A)= m/n,这就是概率的古典定义。如定义A为2y8,则P(A)= 7/10 = 0.7。弄清楚古典概率能帮助我们正确使用随机数字表。如将4个编号进行随机排序时,按照取除以4以后的余数规则,遇到9、0就不要读;再如将12个编号进行随机排序时,按照取除以12以后的余数规则,遇到97、98、99、00也不要读。,第一节 事件及其相互关系,四、统计概型实际应用中,仅研究基本事件是不够的,还要了解复合事件及其相互关系。事件间的相互关系有包含关系、和与积的关系、互斥及对立
5、关系等。这些关系可以用一个最简单的随机试验模型予以说明。如右边文本所示。,观察甲、乙两粒种子发芽情况, 发芽记为“1”,没有发芽记为“0”甲 乙1 1 1 A = A1A2 2 1 0 B A1A23 0 1 B A1A24 0 0 C = A1A2 注: 甲发芽记为“A1”、不发芽记“A1”; 乙发芽记为“A2”、不发芽记“A2”。,第二节 概率计算法则,一、加法定理 P(A+B)=P(A)+P(B)P(AB)例1.2 考察甲乙两人分别使用手 枪和步枪朝同一靶标射击的结果。定 义A为“甲击中”,B为“乙击中”。假 定统计次数 n = 100 得P(A)= 0.6, P(B)= 0.8,P(A
6、B)= 0.48,求: P(A+B)。 解 “A+B”意为“靶标至少被一人击中”P(A+B)= 0.6 + 0.8 0.48 = 0.92结果表明:100次观察中只有8次 没有被击中,进一步分析如右。,靶标被击中92次又分三种情况: 两人同时击中:nP(AB)= 48 甲击中且乙未击中: nP(A) nP(AB)= 12 乙击中且甲未击中:nP(B) nP(AB)= 32将、 的三个等式左右两 边分别累加,得到公式: nP(A)+ nP(B)nP(AB)=92 将该公式两边除以 n 就是加法法则。,第二节 概率计算法则,二、乘法定理P(AB)= P(A) P(B/A)= P(B) P(A/B)
7、例1.3 将0.5 kg 辛夷花籽经水 选分级,上浮部分1000 粒,播种 后发芽率仍有10%,下沉部分2500 粒,播种后的发芽率也只有80%, 两 向分组小计如右。 解 定义从3500粒种籽中随机抽取 的一粒是“下沉籽”为事件A发生, 是“发芽籽”为事件B发生,则有: P(AB)= 5/70.8 = 0.620/21,P(A)= 25003500 = 5/7 P(B)= 21003500 = 0.6 P(AB)= 20003500 = 4/7 P(B/A)= 20002500 = 0.8 P(A/B)= 20002100 = 20/21,第二节 概率计算法则,三、加法定理推论 互斥事件的加
8、法法则:P(A+B+C+N)= P(A)+P(B)+P(C)+P(N) 对立事件的减法法则:P(A)= P() P(A)= 1 P(A) 四、乘法定理推论 事件独立的充分必要条件是:P(A1A2A3An)= P(A1)P(A2)P(A3)P(An)在试验统计中用得多的往往 不是加法定理或乘法定理本身, 而是其推论。,第二节 概率的计算法则,例1.4 已知一批饲用小麦种出 苗率为0.8,现随机观察其中的两粒, 问:两粒出苗(A)、仅一粒出苗 (B)和两粒都不出苗(C)的概 率各为多少? 解 设籽甲出苗为A1,不出苗为A1籽乙出苗为A2,不出苗为A2依题意,A1、A2相互独立,即:P(A1)= 0
9、.8 , P(A1)= 0.2P(A2)= 0.8 , P(A2)= 0.2,P(A)= P(A1A2)= 0.64= P(A1)P(A2) P(B)= P(A1A2 + A1A2) = P(A1A2 )+ P( A1A2)= P(A1)P(A2 )+ P( A1)P(A2)= 0.80.2 + 0.20.8 = 0.32 P(C)= P(A1A2)= 0.04= P(A1)P(A2) “至少一粒出苗的概率”有两种算法: P(A + B)= 1 P(C)= 0.96,第三节 贝努利概型,一、随机变量及其性质将随机事件数量化,建立起一一 对应的实数值Yi,则称之为随机变量, 简称“变量”。用符号
10、 y 表示。再将随机变量 y 的任意一个取值 Yi 称为“观察值”。如例1.4中的012将随机变量 y 取任意一个实数值 Yi的概率称为概率函数。记号f( )。再将随机变量 y 取值小于或等于 某一个实数值Yi的概率称为累积概率 函数。记号 F( )。,如表述例1.4中“A”指“两粒籽发芽” 的概率时就有三种方式: P(A)= p 或 P(A) = 0.64 P(y=Yi)= p,P(y=2)= 0.64 f(Yi)= p 或 f( 2 )= 0.64再表述例1.4中“少于一粒籽发芽” 的概率时也可有两种方式: P(yYi)= P(y1)= 10.64 F(Yi)=F(1)= f(0)+f(1
11、)=0.36按所取观察值变化特点的不同, 变量分间断性变量和连续性变量,第三节 贝努利概型,二、贝努利概型贝努利试验(序 列)是独立试验序列 中最简单的类型。观 察一次贝努利试验时 (仅有两种可能的结 果),事件A发生的 概率与其对立事件发 生的概率所表现出来 的两点分布类型,叫 做贝努利分布。其概 率值的分割比例实际 由概率的(统计)定 义给出。多次贝努利试验 中事件A在其中若干 次发生的概率所表现 出来的多点分布类型,叫做二项分布。其概率函数f(y)由牛顿二项式定理给出。,第四节 数据整理,一、误差的概念总体指研究对象全体,即具有相同 性质和特征的个体(可供抽样观察的基 本单位)所组成的集
12、团。总体拥有的个体数目叫总体容量 (N),统计学中的个体与生物个体不是 一个概念。有时候总体 “由一切可能的观测结果 组成”,此时的总体与个体只存在于特定 的时空,可以想象,但既“看不见,又摸 不着”,如多次称量同一物体的质量。样本:随机从总体中抽出来用于研究 总体的那一部分个体(抽样单位)。样本拥有的个体数叫样本容量(n)。,误差的本义是指随机变量的任意 一个观察值与其真值的差异,即Yi -。但统计学不是把误差当作常量来 研究(因为实际工作中真值往往是未 知数或无法计算其具体数值),而是 把它放在一定条件下作为随机变量来 对待,即利用概率分布理论来描述误 差在任一范围取值的可能性大小,所 以
13、误差实际被表述为 “ y ”。由于误差的取值已不再局限于间 断性数据,其概率分布研究必须从连 续性变量的实例作为出发点。,第四节 数据整理,例1.5 研究广西“霞烟鸡”品种的母 鸡所生鸡蛋的个头大小,将所得N=623 个鸡蛋一个个地称重,再将得到的数据 进行分组归类并统计各组次数如右。利用次数分布表计算出反映果实 平均大小和彼此悬殊程度(变异度) 的指标,即总体平均数= 43.5g和总 体标准差= 4.65g,它们也是“单个鸡 蛋重”这一连续性变量的两个最重要的 参数,实际决定其概率分布的特征。,第四节 数据整理,讨论:如果说用公式(=Yi/N)计算总体真 值 来反映鸡蛋大小的平均水平很自然的
14、话, 用2 = (y )2 / N计算就显得非常特 别,因为反映类似鸡蛋悬殊程度(简称变异 度,反过来讲就是整齐度)时也有人用所谓 的“平均误差”来表示过,其算式( | y | / N)虽然比计算标准差的公式还简单,但实 际研究中已不再有人用它,原因是总体标准 差不仅能从数值上显示“变异度”的大小,更 重要的它还是用作描述误差概率分布的尺度。,例1.5: =43.5g =4.65g,第四节 数据整理,二、次数分布及特征数对样本(或总体)的全部观察值进行分组(归类)并统计各类次数的 过程叫做数据整理,其结果通常都以次数分布表(或图)的形式体现出来。当样本(或总体)的观察值较多时,进行数据整理一方
15、面可以更直观 地描述变量取值的分布规律,另一方面便于用加权法计算数据的特征数。数据的特征数包括(总体或样本)平均数和(总体或样本)标准差, 还可以是标准误,标准差和标准误(平均数的标准差)都是反映数据变异 性的数量指标,各自蕴藏着误差和抽样误差(如样本平均数和真值的差异) 变异幅度的信息,但它们决非(抽样)误差本身。间断性数据(含质量性状的指标)大多可依据其性状自然归组。连续性数据则需要人为地进行分组,方法是先根据观察值(也称原始 数据)的个数确定大致的组数,然后按数据的极差范围计算组距、调整组 数,最后依最大的观察值和最小的观察值确定组限。,第四节 数据整理,继续按贝努利概型分析 五粒以上种
16、子发芽的统计 概率分布,绘成条形图。可以看出,服从二项分 布的间断性变量不论 p 是 否等于 q,只要 n 足够大, 则所得到的概率分布条形 图显示的概率函数值总是 以其中间的某一、两项为 最大,而后往两边依次递 减,当 n 越来越大时,概 率分布图也是愈趋对称, 和上一节连续性变量表现 出来的频率(或次数)分 布规律殊途同归,呈现出 两头低、中间高的变化模 式。这正说明间断性变量和 连续性变量存在着某种必 然的联系,正态分布本身 及其发现和重新发现的过 程就是这种联系的最好证 明。,第四节 数据整理,第五节 正态分布,fN (y),N(,2),-3 -2 - + +2 +3,-3 -2 -1
17、 0 1 2 3,y,y -,第五节 正态分布,= 0,= 1,= 2,标准差(=1) 相同而平均数各不相 同的三种情形,fN(y),y,第五节 正态分布, = 1, = 1.5, = 2,平均数(= 0) 相同而标准差各不相 同的三种情形,fN(y),y,第五节 正态分布,一、正态分布的概率函数二、正态分布概率函数曲线的特性对称性:绝对值相等的正负误差出现的机会(概率)均等。讨论:这里提到误差取某个“值”的概率问题,也就是连续性变量取某个 观察值的概率究竟有没有意义?高等数学论及连续性变量取某一个实数的概率时,都认定是在概率函数 图中用某个点上的垂线求面积,无疑应该等于“0”。但应用中获得的
18、观察值不能简单地理解为 “一个”实数,而应当视为在 精度有限的条件下,由最后一位有效数字按四舍五入规则决定的虽然小却 确实存在的区间。,第五节 正态分布,钟形:简称“两头低,中间高”,即从+和-两个远端朝接近的方 向递增(并在“拐点”处曲线由“凹”转“凸”), 表明绝对值小的误差出现的 概率大,绝对 值大的误差出现的 概率小。非负性: 0,即曲线总在 横坐标轴上方,两尾以横轴为渐进线,和 横轴围成的总面积就是P()= 1。特异性:随机变量的两个参数和 分别决定 曲线的位置和形状,表 明正态分布是一组曲线系统。,N(,2),fN ( y -),-3 -2 0 2 3,y -,第五节 正态分布,0
19、.5000,0.1586,-2 - + +2 y,-2 - 0 2 y-,(u) fN (y-) fN (y),-2 -1 0 1 2 u,第五节 正态分布,0.6827,0.1359,0.0227,0.1586,fN (y) (= 0 = 1),N(0,1),(u),u,第五节 正态分布,三、标准分布的累积函数例1.6 假定 y N(,2), = 30.26, 2 = 5.1 2 ,试计算: P(y21.64)、 P(y32.98)、 P(21.64y32.98)和 P(y32.98)。 解:根据附表1查得的(u)即标准分布曲线的左尾面积(概率) P(y21.64)= (21.64 )=(2
20、1.64 30.26)5.1=(-1.69)= 0.04551 P(y32.98)= (32.98 ) =(32.98 30.26 )5.1=(0.53)= 0. 7019P( 21.64 y 32.98 )= (32.98 ) (21.64)= 0. 6564P(y 32.98 )= 1 (32.98)= 1 0.7019 = 0. 2981由此例可得到正确使用附表1的口诀:小于某数直接查,大于 某数 1 减它;区间概率大减小,两边临界一反查。例1.7 给定中间概率为0.90或0.95时,u 值应等于多少?,第五节 正态分布,0.04551,0. 6564,0. 2981,y,fN(y),2
21、1.64,32.98,第五节 正态分布,0.90,0.025,0.025,0.05,fN (y) (= 0 = 1),N(0,1),(u),u,第五节 正态分布,到此为止,本章内容的讲授已顺着变量连续性变量误差的路径完成 了知识结构由概率论(正概率) 统计学(逆概率)的转变,其内容也 由“描述变量的概率分布” “推断误差变量(任一区间)取值的概率”。在学习下一章内容之前,请一定先记牢三个要点:将前三节树立的研究随机变量的思路深化到研究连续性变量的层次,且不论用 y(教材) 还是用 x (电算器)表示单个变量,都不可看成未知常数;描述连续性变量的概率分布的侧重点与间断性变量的方式不一样,后者可用
22、贝努利概型按牛顿二项展开式的第 y+1 项计算其任一取值的概率,而前者实际需要了解的是其取值在某些连续的实数区间的概率;参数和已分别用作总体平均数和总体标准差的通用符号,也可以称之为变量的平均数和变量的标准差,还可称之为分布的平均数和分布的标准差。用正态分布描述误差的概率分布时可以不知道的数值,但必 须知道的准确值,因为 S 本身不能用作描述误差概率分布的尺度。,第一章内容小结,由研究随机现象引出随机事件、随机试验及概率的三种定义,其中以概率的统计定义最为重要; 借助于完全事件系中各互斥事件分割概率“1”的非数学语言引出概率分布,包括古典概型和介绍事件关系时列举的“统计概型”; 通过概率运算的
23、加法法则和乘法法则的讲授,同时借助独立性假定引出间断性变量最重要的概率分布类型贝努利概型; 一组数据就相当与研究某一随机变量时从总体中抽得的部分个体组成的样本观察值,叫试验数据,也叫原始数据; 连续性数据的整理结果反映了连续性变量取值的概率分布特征,即“两头 低,中间高”,进一步的研究发现,这是一个带有普遍性的规律,叫正态分布。其中的参数和完整地描述了这类变量的数字特征; 连续性变量的正态分布规律可以通过两个途径获得,即二项分布求极限和误差的概率分布研究。,摘要幻灯片,第一章 概率及概率分布概率 概率分布 概率分布图 随机现象 随机事件 随机试验 基本事件 复合事件 完全事件系 必然事件互斥事件 独立事件 和事件 积事件 不可能事件 小概率事件 古典概型 贝努利概型 条件概率 独立试验序列 二项分布 随机变量 观察值(原始数据) 间断性变量 概率函数 累积概率函数 连续性变量 作为本课程与高等数学相联系的过渡单元,本章内容可归纳为:三种概率定义、三种概率分布类型、两种随机变量,