1、预防基础综合: 卫生统计学 44 1、试述正态分布、标准正态分布以及对数正态分布的联系和区别? 正态分布 标准正态分布 对数正态分布 原始值 X 无需转换 作 u=(X- )/ 转换 作 Y lgX 转换 分布类型 对称 对称 正偏态 集中趋势指标 =0 G 均数与中位数的关系 M M M 2、说明频数分布表的用途? 描述频数分布的特征、描述频数分布的类型、 便于发现一些特大或特小的可疑值、便于进一步做统计分析和处理 3、变异系数的用途? 常用于观察 指标单位不同时,如身高与体重的变异 程度的比较;或均数相差较大时,如儿童与成人身高变异程度的比较。 4、试举例说明均数的标准差与 标准误的区别与
2、联系? 例如某医生从某地 2000 年的正常成年男性中,随机抽取 25 人,算得其血红蛋白的均数 X 为138.5g/l, 标准差 S 为 5.20g/L,标准误 xS 为 1.04g/L, 。在 本例 中标准差就是描述 25 名正常成年男性血红蛋白变异程度 的指标,它反映了这 25 个数据对其 均 数的离散情况。因此标准差是描述个体值变异程度的指标,为 方差 的 算述平方根 ,该变异不能通过统计方法来控制。而标准误 则是指 样本统计量的标准差, 均 数的标准误实质要 均 数的标准差,它反映了样本 均数 的离散程度,也反映了样本均数与总体均数的 差异,说明了 均数的 抽样误差。本例 均 数的标
3、准误 XS sn 5.2025=1.04,此式将标准差和标准误从数学上有 机地联系起来了,同是可以看出通过增加样本含量方法可以减少标准误。 5、标准正态分布与 t 分布有何不同? T 分布为抽样分布,标准正态分布为理论分布。 T 分布比 标 准正态分布的峰值低,且尾部翘起得要高。随着自由度的增大, t 分布逐渐趋近于标准正态分布, 即当 v时, t 分布标准正态分布。 6、假设检验时,一般当 P,则不拒绝 0H ,无统计 学 意义,还不能论为不同或不等。 9、怎样正确选用单侧检验和双侧检验? 单双侧检验首先应根据专业知识来确定,同时应考虑所要解决问题的目的。 若从专业知识判断一种方法的结果可能
4、低于或高于另一种方法的结果,则用单侧检验;在尚不能从专业知识判断两种结果谁高谁低时,用双侧检验。若研究者对低于或高于两种结果都关心,则用双侧检验;若仅关心其中一种可能,则取单侧检验。一般认为双侧检验较保守和稳妥,单侧检验由于充分利 用了另一侧的不可能性,故更易得出有差别的结论,但应慎用。 10、 T 检验的应用条件是什么? 对于单样本 T 检验要求资料服从正态分布; 对配对 T 检验要求差值服从正态分布; 对两样本 T检验则要求两组数据均服从正态分布,且两样本对应的两总体方差相等即要求方差齐性。 11、型错误与型错误有何区别与联系?了解这两类错误有何实际意义? 预防基础综合: 卫生统计学 46
5、 型错误是指拒绝了实际上成立的 0H 所犯的“弃真”错误,其概率大小用表示; 型错误是则是“接受了”实际上不成立的 0H 所犯的“存伪”错误,其概率大小用表示; 当样本含量 n 确定时,愈小,愈大;反之愈大,愈小;了解这两类错误的实际意义在于,若在应用中要重点减少,则取 0.5;若在应用中重点减少,则取 0.10 或 0.20 甚至便高。 12、假设检验和区间估计有何联系? 假设检验用于推断质的不同即判断两个(或多个)总体参数是否不同,而可信区间用于说明量的大小即推断总体参数的范围。 可信区间可以回答假设检验的问题,若算得的可信区间包含了 0H ,则按水准,不拒绝 0H ;若不包含 0H ,则
6、按水准,拒绝 0H ,接受 1H . 置信区间可提供假设检验没有提供的信息,它在回答差别有无统计学意义的同时,还可以提示差别是否具有实际意义。 在统计推断结论为拒绝 0H 时,假设检验可以报告确切的 P 值,从而较精确地说明 检验结论的概率保证。置信区间只能在预先确定的置信度 100( 1) %水平上进行推断。 在不能拒绝 0H 的场合,假设检验可能对检验功效做出估计,从而可以评价是否在识别差异能力较强的情形下不不拒绝 0H 。而置信区间并不提供这方面的信息。 13、为什么假设检验的结论不能绝对化? 因为通过假设检验推断作出的结论具有概率性,其结论不可能完全正确,有可能发生两类错误。拒绝 0H
7、 时,可能犯型错误;接受 1H 时可能犯型错误。无论哪类错误,假设检验都 不可能将其分险降为 0,因些在结论中使用绝对化的字词如“肯定”就不恰当了。 14、方差分析的基本思想和应用条件是什么? 根据试验设计的类型,将全部测量值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用(或某几个因素的交互作有)加以解释,如组间变异 SS 组间可同处理的作用加以解释。通过比较不同变异来源的均方,借助 F 分布做出统计推断,从而推论 各种研究因素对试验结果有无影响。 方差分析应用的条件:各样本是相互独立的随机样本,均服从正态分布;相互比较的各样本的总体方差相等
8、,即具有方差齐性。 15、在完全随机设计方差分析中 SS 组间、 SS 组内各表示什么含义? SS 组间表示组间变异,指各处理组样本均数大小不等,是由处理因素作用和随机误差造成的; SS 组内表示组内变异,指各处理组内变量值 大小不等,是由随机误差造成的。 16、为什么在方差分析的结果为拒绝 0H 、接受 1H 之后,对多个样本均数的两两比较要用多重比较的方法? 预防基础综合: 卫生统计学 47 方差分析的备择假设 1H 是 G 个总体均数不全相等,拒绝 0H ,接受 1H ,只说明 G 个总体均数总的来说有差别,并不说明两两总体均数都有差别。若想进一步了解哪两两总体均数不等,则需进行多个样本
9、均数间的多重比较。 17、 随机区组设计的方差分析与完全随机设计方差分析在设计和变异分解上有什么不同? 区别点 完 全随机设计 随机区组设计 设计 采用完全随机化的分组方法,将全部试验对象分配到 g 个处理组(水平组),各组分别接受不同的处理 随机分配的次数要重复多次,每次随机分配都对同一个区组内的受试对象进行,且各个处理组受试对象数量相同,区组内均衡 变异分解 三种变异: SS 总 SS 组间 +SS 组内 四种变异: SS总 SS处理 +SS区组 +SS误差 18、常用相对数有哪几种?各种相对数指标的含义、计算方法及特点? 有强度相对数 (率) 、结构相对数 (构成比) 、相对比三 种 。
10、 率的含义:某现象实际发生的 例 数与可能 发生 的 总 例 数,说明某现象发生的频率或强度。其特点为:说明某现象发生的强弱。 计算 公式:率某时期内 发生某 现象的观察单位数 /同期可能发生某现象的观察单位总数比例基数 构成 比的 含义:事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明 各 总体 构成部分在总体中 所占的比 重 或分布,通常以 100 为比例基数, 又称 为百分比。其特点为:一 组 构成比的总和应等于 100%,即各个分子的总和等于分母:各构成部分之间是相互影响的,某一部分比重的变化受到两方面因素的影响 ,其 一是这个部分自身数值的变化 ,其二是受其它部分数值
11、变化的影响。 计算 公式:构成 比某 一组成部分观察 单位 数 /同一事物各组成 部分 的观察 单位 数 100% 相对比的含义:是两个有关指标之比,说明两指标间的比例关系。其特点为:两 个指标可以是性质相同,也可以是性质不同;两个指标可以是 绝对数、相对数或平均数。 计算公式:相对比甲指标 /乙指标( 100%) 19、以实例说明为什么不能以构成比代替率? 例如某医生研究已婚育龄妇女在不同情况下放 置避孕环 与失败率的关系。总失败人数为 126 人,人工流产后失败人数为 78,月经后失败人数为 39,哺乳期失败人数为 9.由此计算得到人工流 产后失败人数的百分数为 61.9%, 月经后为 3
12、1.0%, 哺乳期为 7.1%,三者比较得出人工流产后最容易发生避孕失败,这个结论是不对的。 因为作者只 考虑了失败人数,计算得到的指标是构成比, 只能 说明放置 避孕环失败者各占的比例。若要了解失败率一定要用失败人数 除以放环人数。如人工流产后放环 255 例失败 78 例,失败率是 52.9%,正确结论应该是哺乳期内放环 最容易发生避孕失败。 20、何为标准化法?直接标准化与间接标准化法的区别? 采用某影响因素(如年龄、性别)的统一标准构成,然后计算标准化率的方法 称 为标准化法,其目的 是消除原样本内部某因素构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。 直接标准化法和
13、间接标准化法的主要区别:如对死亡率的年龄构成标准化,若已知年龄别死亡率,可采用直接法,选择一个标准年龄人口构成直接计算标准化率;若只有总的死亡数和年龄别人口数而缺乏年龄别死亡率,选择一个标准 年龄别死亡率,先计算标准化死亡比( SMR),再用 SMR 乘以标准总死亡率得标准化死亡率。 预防基础综合: 卫生统计学 48 21、应用标准化率进行比较时要注意什么问题? 标准化只适用于因两组内总构成不同,并有可能影响两组总率比较的情况。对于因其它条件 不同而产生的可比性问题,标准化法不能解决。 由于选择的标准人口不同,算出的标准化率也不同。因此,当比较几个标准化率时,应采用同一标准人口。 标准组应选择
14、有代表性的、较稳定的、数量较大的人群。 标准化后的标准率,已经不再反映当时当地的实际水平,它只是表示相互比较的资料间的相对水平。 两样本标准化率是样本值,存在抽样误差。比较两样本的标准化率,还应作假设检验。 22、相对数的动态指标有哪几种?各有何用处? 相对数的动态指标即其动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度和平均增长速 度。 绝对增长量说明某相对数在一定时期增长的绝对值;发展速度与增长速度均为相对比,说明某相对数在一定时期的速度变化;平均发展速度是各环比发展速度的几何均数,说明某相对数在一个较长时期中逐期(如逐年)平均发展 变化 的程度。 23、简述二项分布的应用
15、条件? 每次试验只会发生两种互斥的可能结果之一,即两种互斥结果的概率之和恒等于 1; 每次试验产生某种结果(如阳性)的概率固定不变 重复试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率 24、简述 POSSION 分布的性质特征? 总体均 数与总体方差 2 相等 当 N 很大,而 很小,且 n =为常数时, Poisson可看作是二项分布的极限分布; 当增大时, Poisson 分布渐近正态分布。一般而言, 20 时, Poisson 分布资料可作为分布处理 Poisson 分布具备可加性。即对于服从 Poisson 分布的 m 个互相独立的随机变量 X1,X2, Xm
16、,它们之和也服从 Poisson 分布,且 其均数为这 M个随机变量的均数之和。 25、简述二项分布与 POSSION 分布的区别? 所谓随机变量 X 服从二项分布,是指在 N 重 Bernoulli 试验中,发生某种结果(如“阳性”)的次数X 0,1,2,, n的一种概率分布,其恰好发生 X个阳性的概率为 !( ) (1 )! X n XnPX X n X ,且总有0 ( ) 1NX PX 。而所谓随机变量服从 Poisson 分布,是指 X 满足:取值范围为 0, 1, 2相应的概率为 () !xePX X ,且 总有0 ( ) 1X PX 。在总体率 很小,而样本含量(试验次数)N 趋向
17、于无究大时,二项分布近似与 Poisson 分布。因此, Poisson 分布可看做是二项分布的一种极限情况,可用来描述小概率事件发生的规律性。 26、简述二项分布、 POSSION 分布和正态分布间联系? 当 N 很大,而 很小,且 n =为常数时, Poisson分布是二项分布的极限分布 预防基础综合: 卫生统计学 49 在 N 很大, 不接近 0 也不接近 1 时,二项分布 B( N, )近似正态分布 N(n , 2( (1 )n ),而相应的样本率 P 的分布也近似正态分布 N( , 2pS ) 当增大时, Poisson 分布渐近正态分布。一般而言, 20 时, Poisson 分布
18、资料 可作为正态分 布处理 27、说明卡方检验的用途? 推断两个总体率或构成比之间有无差别; 推断多个总体率或构成比之间有无差别; 多个样本率比较的卡方分割; 两个分类变量之间有无关联性; 频数分布拟合优度的卡方检验。 28、两样本率比较的 U 检验与卡方检验有何异同? 两样本率比较时,若对同一资料同时进行 U 检验与卡方检验,在不校正的 情 况下 2 = 2u ; 但 U 检验通常用于大样本,而卡方检验可用于大样本或小样本 。 29、 对于四格表资料,如何正确选用检验方法? 首先应分清是两样本率比较的四格表资料还是配对设计的四格表资料。 对于两样本率比较的四格表资料,应根据各格的理论值 T和
19、总例数 n 的大小选择不同的 2 计算公式: A、当 n 40 且所有的 T 5 时,用 2 检验的基本公式 22 ()ATT 或四格表资料 2 检验的专用公式 22 ()( ) ( ) ( ) ( )a d b c na b c d a c b d B、 当 n 40 但有 1 T 5 时,用四格表资料 2 检验的校正公式 22 (| | 0 .5 )c ATT 或22 ( | | )2( ) ( ) ( ) ( )cna d b c na b c d a c b d ,或改用四格表资料的 Fisher 确切概率法; C、当 n40,或 T 1 时,用四格表资料的 Fisher确切概率法 。
20、 对于配对设计的四格表资料,若检验两种方法的检测结果有无差别时: A、( b+c) 40,22 ()bcbc ; B、( b+c) 40, 22 (| | 1)c bcbc 30、说明行 *列表资料卡方检验应注意的事项? R*C 表中的理论频数不应小于 1,或 1 T5 的格子数不宜超过格子总数的 1/5. 多个样本率比较,若所得统计推断为拒绝 0H ,接受 1H 时,只能认为各总率之间总的来说有差别,预防基础综合: 卫生统计学 50 但不能说明任两个总体率之间皆有差别。要进一步推断两个总体率之间有差别,需进一步做多个样本率的卡方分割或多重比 较 对于有序 R*C 表资料不宜用卡方检验。对于
21、R*C 表的资料要根据其分类类型和研究目的选用恰当的检验方法。 31、说明 R*C 表的分类及其检验方法的选择? R*C 分类 :双向无序,单向有序,双向有序属性同和双向有序属性不同 4 类 检验方法的选择 : 双向无序 R*C 表 :若研究目的为多个样本率(或构成比)的比较,可用 R*C 表的卡方检验;若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用 R*C 表资料的卡方检验以及 Pearson 列联系数进行分析 单向有序 R*C 表 :若 R*C 表中的分组变量是有序的,而指标 变量是无序的,此种单向有序 R*C 表资料可用 R*C 表资料的卡方检验分析其构成 情 况;
22、若 R*C 表中的分组变量为无序的,而指标变量是有序的,此种单向有序 R*C 表资料宜用秩和检验分析。 双向有序属性相同的 R*C 表 :宜用一致性检验分析两种检测方法的一致性 双向有序属性不同的 R*C 表 :若研究目的如为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序 R*C 表资料,选用秩和检验;若研究目的为分析两有序分类变量间是否存在相关关系,宜用等级相关分析或 Pearson 积矩相关分析;若研究目的为分析两有序分类变量间是否存在线 性变化趋势,宜用有序分组资料的线性趋势检验。 32、什么叫做非参数检验?它和参数检验有什么区别? 非参数检验是对总体分布不作严格假定,不受总体
23、分布的限制,又称任意分布检验,它直接对总体分布(或分布位置)作假设检验。如果总体分布为已知的数学形式,对其总体参数作假设检验则为参数检验。 33、什么叫秩转换的非参数检验?它适用于哪些情况? 秩转换非参数检验是先将数值变量从小到大,或等级从弱到强转换成秩后,再计算检验统计量,其特点是假设检验的结果对总体分布的形状差别不敏感,只对总体分布的位置差别敏感。它适用于: 不满足正态或(和)方差齐性的小样本计量资料;分布不知是否正态的小样本资料;一端或两端是不确切数值的资料;等级资料。 34、两组或多组等级资料的比较,为什么不能用卡方检验,而用秩转换的非参数检验? 若选 R*C 表资料的卡方检验,只能推
24、断两个或多个总体的等级构成比差别,这一般不是推断的目的;而选秩转换的非参数检验,可推断两个或多个总体的等级强度差别,这是推断目的。 35、试总结从样本数据判断总体回归关系是否成立的统计方法有哪些? 用 bt 、 rt 作 t 检验;用 F 对 b 和 2R 作方差分析;直接查 r 界值表 36、现有根据 10 对数据算出的直线回归方程: Y 2.1+0.8X,只有 X 和 Y 的均数、标准差,而原始数据丢失时如何判定回归方程是否成立? 可以利用: r=b xS / yS ,求得相关系数,然后查相关系数界值表对回归方程作假设检验。 37、请计算直线回归中残差和自变量之间的积差相关系数? 可以证明
25、,残差 E=Y-Y 与自变量 X 之间的相关系数为 0. 证:只需证明二者的离均差积和 ( )( )EXl E E X X 0. 预防基础综合: 卫生统计学 51 因为 Y a bX 的均数为 a bX ,所以 0E Y a bX 故有: ( )( )EXl E E X X ( 0 )( )Y Y X X ( )( )Y a bX X X ( ) ( )Y Y b X b X X X ) ( ) ( )Y Y b X X X X 2( ) ( ) ( )Y Y X X b X X xy xxl bl 0 38、直线回归分析中应注意哪些问题? 两个变量的选择一定要结合专业背景,不能把毫无关联的两
26、种现象 勉强 作回归分析,其中哪一个作为应变量 是根据专业上的要求而定,同时 直线回归 要求至少对于每个 X 相应 的 Y 要服从正态分布,X 可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量。 进行直线回归分析前应绘制散点图,以检查数据是否满足模型基本假设,发现异常点并进行进一步 处理。 对结果应有正确解释。反应两变量间数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的 P 值。 P 值越小只能说 明 越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。直线回归用于预测时应 尽量避免 不合理的外延。结果中的决定系数可表示两变量关系的实际效果。 3
27、9、简述直线回归与直线相关的区别与联系? 二者的 联系:对于既可作相关又可作回归分析的同一组数据,计算出的 b 与 r正负号一致 相关系数与回归系数的假设检验等价,即对于同一样本, brtt ; 同一组数据的相关系数和回归系数可以相互换算: r= .yxb /xySS 用回归解释相关:由于决定系数 2r =SS 回 /SS 总,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,则 2r 越接近 1,说明相关的效果越好 二者的区别: 资料要求上:相关要求 X、 Y 服从双变量正态分布,这种资料进行回归分析称为型回归;回归要求 Y 在给定的某个 X 值时服从正态分布
28、, X 是可以精确测量和严格控制的变量,称为型回归 应用上:说明两变量间相互关系用相关,此时两变量的关系是平等的;而说明两变量依存变化的数量关系用回归,用以说明 Y 如何依赖 于 X 而变化 意义上: R 说明具有直线关系的两变量间相互关系的方向与密切程度; b 表示 X 每变化一个单位所导致 Y 的平均变化量。 计算上: xyxx yylr ll , 121( )( )()niiiniiX X Y YbXX取值范围: 1 r 1, b。 单位: r 没有单位, b 有单位。 40、简述直线回归与秩相关的区别与联系? 二者的联系:两者所解决的应用问题相同,都可用来表示两个数值变量之间关系的方向
29、和密切程度 两个相关系数都没有单位,取值范围都在( 1, 1)之间 预防基础综合: 卫生统计学 52 二都的 区别 资料要求不同。 积差相关要求 X、 Y 服从双变量正态分布,秩相关可以是任意分布 由于对资料要求不同,二都分属于参数统计与非参数统计方法,所以符合分布条件时,积差相关的效率高于秩相关 二者假设检验方法不同 41、简述曲线拟合时的注意事项? 首先应绘制散点图,根据图形选用恰当的回归模型形式 求解回归方程时注意,模型中对 Y 进行非线性变换后,应采用非线性最小二乘估计,如果仅对 X进行变换,普通最小二乘与非线性最小二乘估计结果相同 并非 2r 越大所选择的模型 就越好 2r 的计算上
30、等于 Y 与 Y 的相关系数平方,而不是总等于 Y 与 X 的相关系数平方。 42、在统计描述中,统计表和统计图分别起着什么作用? 在统计描述过程中,统计表展示统计数据的结构、分布和方要特征,便于在进一步分析中选择和计算统计量。在学术报告和论文中常用统计表代替冗长的文字叙述,表达主要的研究结果、数据、指标 和统计量,方便读者作比较和掌握主要研究结果。统计图将统计数据形象化, 让读者更易于领会统计资料的 核心内容,易于做分析比较,并且可以给读者留下深刻的印象。 43、统计表的制作原则和要求有哪些? 列表的原则 :重点突出、简单明了、主谓分明、层次清楚 标题 :概括地指明表的内容,包括研究的时间、
31、地点和研究内容。位于统计表的最上部。 标目 :分为纵标目与横标目。纵标目标示相应一列(或数列)的内容;横标目标示相应的行的内容。反映主要研究事物的标目宜安排在表的左则,使得从左到右可以形成一句完整的叙述语句。 表线 :至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将两重纵标目分割开。不宜太多 ,不允许使用竖线与斜线。 表值 :表中的数字一律用阿拉伯数字,同列数据应取相同的小数位,表内不应空格。不详的数据可用“”填充。不存在的数据应以“ ”号标明。零值应用“ 0”表示。 注释 :一律列在表的下方,可用“ *”号等符号标示。 44、统计图的制作原则和要求有哪些 ? 根据
32、资料性质和分析目的正确选用适当的统计图。例如分析比较独立的、不连续的、无数量关系的多个组或多个类别的统计量宜选用直条图。 统计图必须有标题,概括统计图资料的时间、地点和主要内容。统计图标题放在图的下方。 统计图一般有横轴和纵轴,并分 别用横标目和纵标目说明横轴和纵轴代表的指标和单位,一般将两轴的相交点即原点处定为 0.纵横轴的比例一般以 5: 7 或 7: 5 为宜 统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。 45、统计图与统计表有何联系和区别? 统计表和统计图都是清晰地、有条理地展示数据,让读者易于领会统计资料的核心内容,
33、易于做分析比较。统计图将统计数据形象化,可以给读者留下深刻的印象。但统计图只能提供概略的情况,而不能获得确切数值,因此不能完全代替统计表,常需要同时列出统计表 作为统计图的依据。 46、常用的统计图有哪几种,各适用于什么类型资料? 常用的统计图有直条图、直方图、圆图或构成比直条图、线图和统计地图。直条图适用于比较独立分类组的统计指标,直方图适用于描述频数分布,圆图和构成比直条图适用于描述构成比,线图适用于描述某统计量随时间或另一统计量变化而变化的趋势,统计地图用于描述统计指标的地理分布。 47、线性回归模型的前提条件? 线性:反应变量 Y 的总体平均值与自变量 X呈线性关系。 预防基础综合:
34、卫生统计学 53 独立:任意两个观察值互相独立。 正态性假定是指线性模型的误差 i 服从正态分布。 等方差性是指 在 自变量 X 取值范围内,不论 X 取什么值, Y 都具有相同的方差。 48、 t 分布的图形特征? 单峰分布,以 0 为中心,左右对称,类似于标准正态分布。 自由度 越小,则 xS 越大, t 值越分散,曲线的峰部越矮,尾部越粗。 随着自由度 逐渐增大, t 分布逐渐逼近标准正态分布;当 趋于时, t分布就完全成为标准正态分布,故标准正态分布是 t 分布的特例。 49、正态概率密度曲线的位置与形状具有如下特点 : 关于 x 对称 在 x 处取得该概率密度函数的最大值,在 x 处
35、有拐点,表现为钟形曲线。 曲线下面积为 1. 决定曲线在横轴上的位置, 增大,曲线沿横轴向右移;反之, 减小,曲线沿横轴向左移。 决定曲线的形状,当 恒定时, 越大,数据越分散,曲线越“矮胖”; 越小数据越集中,曲线越“瘦高”。 50、简述常见的将偏离正态的资料转换为正态的方法? 对数变 换: lnXX 或 ln( )X X k适用于对数正态分布资料或标准差与均数成比例,或变异系数接近甚至等于某一常数的资料。 平方根变换: XX 或 ()X X k适用于方差与均数成比例的资料如服从 Poisson 分布的资料 平方根反正弦变换: 1sinPp 适用于百分比的数据资料。若变换为角度,则其方差为
36、820.7/n;若变换为弧度,则其方差为 1(4)n 。 51、 2 分布的特征? 2 分布为一簇单峰正偏态曲线, 2 取值范围为 0, 1 时分布最为偏斜。 自由度为 的 2 分布,均数为 ,方差为 2 。 1 时, 2 分布实际上是标准正态分布变量的平方,自由度为 的 2 分布实际上是 个标准正态分布变量的平方方程: 2 2 2 212u u u 第一个自由度的 2 分布曲线都有其自身分布规律。 52、 F 分布的特征? F 分布为一簇单峰正偏态分布曲线,与两个自由度有关。 若 F 服从自由度为( 1 , 2 )的 F 分布,则其倒数 1/F 服从自由度为( 2 , 1 )的 F 分布。
37、自由度为( 1 , 2 )的 F分布, 其均数为 2 /(2 -2),与第一自由度无关。 预防基础综合: 卫生统计学 54 2 时, F分布为 2 分布 , 1 1 时, F分布为 t 分布平方。 52: SNK q 检验和 Dunnett-t 检验都可用于均数的多重比较,它们有何不同? SNK q 用于探索性研究,是对多个均数每两个均数间的比较。 Dunnett t常用于事先有明确假设的证实性研究,用于在设计阶段就根据研究目的或专业知识而计划好的某些均数的两两比较。 统计量 :样本 12, , , nx x x 的不含任何未知参数的函数 ( 12, , , nx x x )。 P 值 :在
38、0H 成立的条件下从总体中抽样,抽到现有样本以及更加极端情况出现的概率值。 53、死亡率与死亡概率的区别? 区别 联系 死亡率 xm 反映某地( x,x+n)年龄组死亡发生的强度,根据实际人口和死亡数据计算得到 两者存在密切的数量关系,可以 用死亡率来计算死亡概率。 分组细时: 22 xx xnmq nm 分组粗 时: 1 xnmxqe 死亡概率 xq 反映活到 x岁者死于 x+n 岁前的可能性,根据死亡率推算推导。 54、生存分析中产生删失的原因? 随访对象失访或中途退出 随访结束时对象仍存活 治疗措施改变等 55、线性回归、 logistic 回归和 Cox 回归的区别(假设只有一个自变量
39、 X) 线性回归 logistic 回归 Cox 回归 结果变量 连续型数值变量 离散型分类变量 分类结局变量及数值时间变量 模型类型 参数模型 参数模型 半参数模型 删失值处理 不能利用 不能利用 能利用 参数估计方法 最小二乘估计 极大似然估计 极大部分似然估计 回归系数含义 X 每变化一个单位 Y的平均变化 X 每变化一个单位 OR的自然对数 X 每变化一个单位 RR 的自然对数 模型形式 Y= X P= 11 exp( )Xh(t,X)= 0h (t)exp( X) 56、实验设计的三个基本原则: 对照、随机化、重复 三个基本要素 : 受试对象、处理因素、实验效应 57、样本均数的抽样分布特点 ? 各样本均数未 必等于总体均数 样本均数之间存在差异 样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布 样本均数的变异较之原变量的变异大小缩小