1、叮叮小文库SPSS 学习 第一章 数据文件的建立数据编码Type : Numeric : 数值型string : 字符串型Missing :Measure : scale 定量变量nominal 定性变量根据已有的变量建立新变量1 、 对于数据进行重新编码Tran sform recode into differe nt variables 选择 in put variable output variable - 定义新变量的名称一 change 开始定义新旧变量一 continue2 、 通过 SPSS 函数建立新变量Transform compute variable -从 functio
2、n group 中选择公式范围 下面选择具体的公式 if 中设置要改变一continue OK ( 可以对变量进行各种计算)第二章 清除数据与基本统计分析1 、 对不合理的数据检查并清理检查: analysis-description statistic-frequencies 选入要检查的数据 OK结果:频数统计表看是否有错误 missing system清理:1. 对系统缺失值的清理Data select case if condition is satisfied if function group (missing ) -下面选( missing )-continue output (
3、delete unselected cases ) -OK 对num 为哪一位的进行修改2. 对 sex=3 的清理 ( 直接就清除了 )Data select case if condition is satisfied if sex 调入再输入=3 continue- output ( deleteunselected cases ) -OK 对num 为哪一位的进行修改2 . 对相关变量间逻辑性检查和清理Data select case if condition is satisfied if 输入表达式 ( 前后逻辑不相符合的表达式) -continue- output (delete
4、 unselected cases ) -OK对 num 为哪一位的进行修3 .统计描述正态分布统计描述1、 正态性检验:Analysis nonparametric tests legacy dialogs - 1-sample K-S - one-sampleKolomogorov Smirnov test -normal ok/2、 统计描述:Analysis - descriptives-time 选入一 options - ok3、 按照男女统计 苗述:data split file -compare group -sex 调入okAnalysis-descriptive stati
5、stic -descriptive time 调入一options 选择一OK非正态分布资料统计描述1、正态性检验 non parametric2、 Analysis descriptive statistics frequencies 选入-statistics 选择OK第三章T检验1、单样本t检验正态性检验 analyzecompare means one-sample t test test value 选择要对比的数值 OK2、配对样本t检验建立数据文档 一两歹U (前和后)-正态性检验 一 analysis- compare means paired sample t test -调
6、入一 ok3、两独立样本t检验(正态性检验的时候采用分开组,其他都要合并在一起)建立数据库一第一列(group )第二列(数值)-datasplit file -compare group 一调入 group ok-正态性检验一 OK- data split file 一选择 analysis all analyze compare means independent sample ttest 一选入,分组一 OK结果分方差齐与否第四章方差分析(前提正态)1、单因素方差分析(就是平常的三个组比较)建立数据库 第歹!J (group)第二歹U (数值)-data split file -comp
7、are group 调入 group ok- means one-way-anova 数据调入 dependent list 一分组调入 factor正态性检验一 OK-data split file 一选择an alysis all-a nalyze compareoptions descriptive 基本统计描述一 homogeneity of varianee 做方差齐性分析一 OK2、方差分析两两比较analyze compare means one-way-anova- 数据调入 dependent list 一分组调入 factor一点 post hoc 一选择 SNK LSD3
8、、随机区组设计方差分析建立数据库一第一列(group)第二列(block)第三列(数值)-按照group split开,进行正态性检验一OKgeneral liner model - univairate 数值调入 dependent variable - group 禾口 block 调入 fixed factor model custom build terms (main effects ) 再把 group 禾口 block 调入 model 下的矩形框-continue -OK如果区组间无差别,组间进行两两比较。首先进行方差齐性检验:Option 一调入 一 homogentity
9、test - continue ok分析:uni variate - post hoc uni variate -调入 group SNK LSD-c ontinue -ok4、多因素分析以time为观察值分析pt、da、sex间的差别Gen eral liner model - uni variate time (depe ndent varia nee) , pt、 da、 sex (fix第五章卡方检验factor) model mian factors 一调入 一 continue OK-将无关的逐一排除 一选择出最终有差异 的 一求得 R square1、行x列卡方检验(也就是几组数
10、据差异性比较)输入数据一第一列(列123)第二列(行1234)第三列(频数)定义频数变量:Data weight case 一调入频数分析:analyze descriptive statistics -crosstabs 第一行调入 row -第二歹!J调入 column-statistics一选择 chi-square continue -cells 选项一选择 row ok结果中,最后一行英文,理论值小于5的各数和最小理论值如果有统计学意义,可以进行两两比较:在数据设置那里,找到missing value discrete missing value 下的格子中填入 3 (表示把3取掉了
11、,只是1和2进行比较)-后续操作同上2、四格表卡方检验输入数据一第一列(处理因素)一第二列(疗效)一第三列(频数)定义频数变量: Data weight case 一调入频数分析:analyze descriptive statistics crosstabs 第一行调入 row -第二歹!J调入 column-statistics 一选择 chi-square continue -cells 选项一选择 row、expected -ok结果中,最后一行英文,理论值小于 5的各数和最小理论值。确切概论法,continuity correction 表示校正卡方的结果Ps诸如第一个例题中,如果分
12、析性别与感染率的显著性差异,步骤同四个表卡方检验,由于分开写了,不用转换为频数资料而已3、配对卡方检验输入数据一第一列(a)第二列(b)第三列(频数)定义频数变量: Data weight case 一调入频数分析方法一:an alyze non parametric legacy dialogy-2-related sample testeda 禾口 b 分另 U选入配对一激活下列的选项McNemar分析方 法二:analyze descriptive statistics crosstabs ab 填入statistics 一点 击右下 McNema r- ok第六章秩和检验1、配对秩和检
13、验(定量)输入数据一第一列(前)一第二列(后)分析:analyze nonparametric - legacy dialogy-2-related sample tested a 禾口 b 分另 U 选入配对结果:第一个表格是比较大小的数量,第二个表格是统计分析结果两独立样本比较秩和检验(定量)输入数据一第一列(group )第二列(数值)分析:analyze nonparametric legacy dialogy -2 independent samples输入分析的数据和分组情况一 OK2、有序变量两独立样本比较秩和检验(定性)输入数据一第一列(group )第二列(有序变量)-第三列
14、(频率)定义频数变量: Data -weight case 一调入频数分析:analyze nonparametric - legacy dialogy -2 independent samples一有序变量调入 testvariables list -group调入分组并定义一ok多个独立样本的比较(定量)16比如:甲乙丙三个样本进行比较输入数据一第一列(group )第二列(数值)nalyze- nonparametric legacy dialogy -K independent samples- 数 值调入 test variable test group调入分组矩形框给出分组范围1-
15、3 Ok如果差别有统计学意义,那么进行两两比较,方法参考卡方的两两表,用missing来定义第七章相关与回归第一节一元线性回归1、例题:有12组发硒值和血硒值的含量表输入数据一第一列(发硒)一第二列(血硒)分析:正态性检验,相关和回归的前提是正态性正态性检验: An alysis non parametric tests legacy dialogs - 1-sample K-S - on e-sampleKolomogorov Smirnov test -normal ok相关分析:correlate -Bivariate -Bivariate correlatio n 一服从正态分布的选择
16、pears on ,不服从的选择 spearman回归分析:regression regression linear 一将 y 变量调入dependent , x 变量调入independent-statistics - linear regression 一选择 descriptive -OK结果分析:p值v 0.05差别有统计学意义,可以建立回归方程2、频数资料的相关与回归建立数据库一第一列(x)第二列(y)第三列(f)分析:先将频数通过weight case进行操作An alyze regressi on li near 一选入自变量因变量 一OKPs这样的回归模型有常数项,也可以去掉,
17、options include constant in equation 前面的”去掉 一 statistic R square cha nge OK这样去去掉了常数项,但是要强调的是,有无常数项是两个完全不同的数学模型,R square也不能作为直接的比较,选择哪个回归方程最为合适,必须要把他们放在医学的实际环节中去检验才可以。3、多元相关回归好多个X的回归分析,分析x之间的相关关系Analyze correlate - bivariate 一将所数字调入 一 options means and standard deviations-ok结果显示了 6个X之间两两的相关系数。第二节多元线性
18、回归研究一个Y和多个X的关系输入数据,x和y回归分析:an alyse regressio n li near 一 输入自变量,因变量 一 OK结果:B表示偏回归系数,pv 0.05有统计学意义,否则排除掉,不纳入回归方程中第三节多元逐步回归回归分析:analyse regression linear 一输入自变量,因变量 一 method 中输入 stepwise -OK结果:将所有有意义的分布引入,都有相关系数和回归方程第八章Logistic回归研究因变量(二值变量)与自变量(二值或等级或计量资料)的关系例如:例子中因变量为infect,自变量为一堆(9个),笔者认为,由于自变量较多,lo
19、gistic回归可分为两步,先用单因素分析对自变量进行筛选,然后对经单因素分析有统计学意义的自变量再做多因素logistic回归。1、将数据分类计数资料等级资料计量资料1、单因素分析对于计数资料采用卡方检验的方法:Descriptive statistic crosstabs - infect调入至U rows,计数资 料调入colu mns statistic chi-square -ok结果显示:每项计数资料是否有统计学意义,经有统计学意义的资料记下来Ps 外 卜加一个分层资料合并步骤:tran sform recode recode in to differe nt variables
20、old tonew,就跟数据合并一样,分组合并一样对于等级资料采用秩和检验的方法:an alyze - non parametric - legacy dialogy -2 in depe ndent samples一输入分析的数据和分组情况(按照Y变量分为0-1两组)一 OK对于计量资料采用显著性检验的方法:Analyze compare means independent sample t test 碉入计量资料 一并分组(0/1) -OK结果看p值是否有统计学意义2、logistic 回归通过单因素分析,找出了有统计学意义的观察项,然后进行logistic回归。分析: Analyzere
21、gression binary logistic 一调入因变量 一调入自变量 (covariates) -method (默认 enter) options 一激活 hosmer- lemeshow goodness of fit 、 CI for exp (B) 、at last step -ok(也 可以根据需要在其中选择)查看结果,p小于0.05,变量差别具有统计学意义,可以纳入回归方程。结果解释注意事项:logistic回归是非线性回归,自变量作用的大小视为exp (B)值,此处输血次数的回归系数为正表示输血次数多则感染的可能性大,手术部位(结肠和直肠),结肠发生感染的可能性大于直肠部
22、位。第十一章诊断试验评价和roc曲线分析1、诊断试验建立数据库一第一列(金标准)一第二列(待评价方法)一第三列(f)row,表格上面的调现将频数通过weight case定义为频数变量分析:analyze descriptive statistic crosstabs现实中表格左边的调入入 column-cells 中选择计算 row、column、total 的百分比 一 OK结果分为四行:四小行分表表示,观察值,行百分比,列百分比,总百分比新方法金标准阳性阴性阳性行百分数阳性预测值列百分数灵敏度误诊率阴性P行百分数阴性预测值:列百分数漏诊率特异度2、诊断试验一致性检验 一 Kappa值Ka
23、ppa w 0.2差,后每增加0.2分别为一般、中等、好、很好分析:其他过程同上,在 cells之后,点击statistic 一选择右下Kappa OK结果:value即为Kappa值,要注意Kappa值也要注意对卡帕检验的p值和样本量3、roc曲线分析即为:受试者操作特征曲线,通过曲线下面积反应诊断试验的诊断价值。曲线下面积等于0.5表示完全无诊断价值,后每增加0.2表示低中高。例子中将医生诊断水平与病例诊断水平做比较建立文档一定义频数变量一 analyze-ROC curve 一待评价的调入test variable 一标准选入state variable 并在下面的对话框中选择 1 表示
24、恶性-在 display with diagonal referenee line and sta ndard error and confide nee in terval - ok例子2是血清钠对普通感冒和rmsf发热是否有诊断作用建立文档一定量资料 一 analyze- ROC curve 一待评价的调入test variable 一分组选入statevariable并在下面的对话框中选择1 -在display全选一 options中修改默认选项为smallertest result indicate more positive test(因为血清钠越低越表示阳性,而系统默认越高越为阳性
25、)-OK结果分析:看曲线下面积第十二章生存分析1、基本概念:事件:研究规定的生存时间的重点删失:失访或截尾生存时间:从某一起点开始到所关心时间发生经历的时间中位生存时间:半数生存期,表示恰好有50%的而个体存活的时间生存曲线:以观察时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线。生存曲线是一条下降的曲线,表示随着时间的推移,生存率逐渐降低。平缓的生存曲线表示高生存率或较长的生存期,陡峭的生存曲线表示低生存率或较短生存期。2、寿命表法定期随访的大样本资料建立数据一第一列(time)第二列(结局state 1/0 )第三列(f)分析: 定义频数 一 analyze-surv
26、ival life tables -ime 调入 time (display time interval 中从 0 到几每 隔几)-结局输入 status ( single value 输入 1表示死亡,因为看上述文字:value indicating event hasoccurred表示目标事件发生的值,所以输入死亡所表示的数字)-options 一选择life tables和survivalplot - OK3、Kaplan-Meier 法小样本量有两个分组,两种不同方法生存分析并比较生存率建立数据-一第一列(time)第二列(结局state 0死亡/1失访12存活)一第三列(组别)分析
27、:analyze survival- Kaplan-Meier- time 调入 time , group 调入 factor,结果调入 status(定义结果选择 0, 表示死亡)-options 选择 survival table、mean and median survival -compare factor 中选择 log-rank 法一 ok结果给出两组的平均生存时间和中位生存时间,标准误和可信区间,overall comparisons 表示对两者的生存率进行比较。Ps :在寿命表中也可以对生存率进行比较,options选项中compare level of first facto
28、r 中选择overall第十四章量表信度效度分析1、量表信度分类:外在信度表示量表在不同时间测定时测量结果一致程度,重测信度、分半信度内在信度表示量表各项目之间的一致性程度,cron bach a信度An alyze scalereliability an alysis 一总体选入或根据不同的因子分别选入2、量表效度量表能够测量出研究中所欲测量特性的程度。效度越高表示该测量的结果与测验行为的真实度越符合,越能够达到测验的目的。内容效度:专家法评价,对量表的题目,内容,范围是否符合调查目的进行分析评价标准效度:必须要有比较标准,指的是测量值与标准值之前的接近程度结构效度:根据实际测量的数据,考察
29、所用的量表是否能反映事先假设的理论结构。KMO法。具体操作,先不用掌握了,不会考的。第十五章统计图形第一节条形图Bar chart先要看懂几个翻译,非常重要!!Simple简单条形图Clustered分组条形图Stacked分段条形图(堆积图)Data in chart areSummaries for group of casesSummaries for separate variablesValue of in dividual cases1.简单条形图一 category axis 中选按照观察量分组汇总按单独变量汇总按某观察量的数值 做条形图(绘制各种手术方式的人数)选 Simple
30、 简单条形图-Summaries for group of cases按照观察量分组汇总一 bars represent(图形代表什么?)选择 n of case ,表示直条的长短观察量分组的数值定要绘制的观察量。可以点击title进行标题命名,双击图形可以对其作出设置(绘制手术中失血量和输血量的均值)两个变量则选用:Summaries for separate variable按单独变量汇总,将两个变量选入barsrepresent ,其他同上,也可以双击设置图形。(绘制每个病例的输血次数)每个变量单独绘制则选用:Value of in dividual cases 按某观察量的数值做条形图
31、。Barsrepresent输入变量一 0K2.分组条形图(就是有两个两个紧挨着一起,一对一对比较的图)(绘制不同手术方式下,感染者与非感染组的,平均手术时间)读题后,理所应当的想到,图形横坐标是不同的手术方式,一对别是感染与否,bars represent手术时间!Clustered- Summaries for group of cases按照观察量分组 ?匚总-bars represent(图形代表什 么?)选择other,调入time category axis就是横轴的变量手术方式 一 de万ne cluster by定 义分组通过感染与 否一 OKPs :可以通过option添加误
32、差线 一 display error bars有,置信区间,标准误,标准差,笔者 选择了置信 区间。3.图表达一起意思的图分段条形图(堆积图),百分条图 竖起来的一段一段的,跟圆但是可以直观的对两组进行比较。(不同手术下,输血次数,分为 04次,每次有不同的次数)Stacked- Summaries for group of cases按照观察量分组 汇总-category axis就是横轴的变量手术方式-define cluster by 定义分组通过手术次数 一 0KPs :可以通过options定义scale to 100% 转换为百分条图第二节饼图Graph legacy dialog
33、s pie -pie chart -summaries for group of cases pt 调入 define slice by-OK双击可以编辑第三节线图简单线图/复合线图Graph legacy dialogs line -ine chart -summaries for group of cases横轴调入 category axis中,将对直线的定义调入define lines by的对话框一 OK点线图上述改为drop-line就可以。第四节直方图Graph legacy dialogs histogram 一要绘制的变量选入 variable , 选择 display normal row 表示 绘制正态曲线第五节散点图Graph legacy dialogs scatter/dot