1、利用SPSS分析调查问卷数据,马青华,问卷数据的预处理,SPSS分析调查问卷数据的方法,当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我们以spss为处理软件,来简要说明一下问卷的处理过程,它的过程大致可分为四个过程: 定义变量数据录入统计分析和结果保存.下面将从这四个方面来对问卷的处理做详细的介绍.,定义变量,大多数情况下我们需要从头定义变量,在打开SPSS后,我们可以看到和excel相似的界面,在界面的左下方可以看到Data View, Variable View两个标签,只需单击左下方的Variable View标签就可以切换到变量定义界面开始定
2、义新变量。 在表格上方可以看到一个变量要设置如下几项:name(变量名)、type(变量类型)、width(变量值的宽度)、decimals(小数位) 、label(变量标签) 、Values(定义具体变量值的标签)、Missing(定义变量缺失值)、Colomns(定义显示列宽)、Align(定义显示对齐方式)、Measure(定义变量类型是连续、有序分类还是无序分类).,调查问卷中的数据编码和录入,调查问卷中的数据编码和录入,调查问卷中的数据编码和录入,调查问卷中的数据编码和录入,把一份问卷上面的每一个问题设为一个变量,这样一份问卷有多少个问题就要有多少个变量与之对应,每一个问题的答案即为
3、变量的取值.现在我们以问卷第一个问题为例来说明变量的设置.为了便于说明,可假设此题为: 1.请问你的年龄属于下面哪一个年龄段( )? A:2029 B:3039 C:4049 D:50-59,变量设置可如下: name即变量名为1,type即类型可根据答案的类型设置,答案我们可以用1、2、3、4来代替A、B、C、D,所以我们选择数字型的,即选择Numeric, width宽度为4,decimals即小数位数位为0(因为答案没有小数点),label即变量标签为“年龄段查询”。Values用于定义具体变量值的标签,单击Value框右半部的省略号,会弹出变量值标签对话框,在第一个文本框里输入1,第二
4、个输入2029,然后单击添加即可.同样道理我们可做如下设置,即1=2029、2=3039、3=4049、4=50-59;Missing,用于定义变量缺失值, 单击missing框右侧的省略号,会弹出缺失值对话框, 界面上有一列三个单选钮,默认值为最上方的“无缺失值”;第二项为“不连续缺失值”,最多可以定义3个值;最后一项为“缺失值范围加可选的一个缺失值”,在此我们不设置缺省值,所以选中第一项如图;Colomns,定义显示列宽,可自己根据实际情况设置;Align,定义显示对齐方式,有居左、居右、居中三种方式;Measure,定义变量类型是连续、有序分类还是无序分类。,开放式题型的设置:诸如你所在
5、的省份是_这样的填空题即为开放题,设置这些变量的时候只需要将Value 、Missing两项不设置即可.,数据录入:Spss数据录入方式,在spss的数据录入窗口中直接输入就可以了, 几点注意事项: a. 在数据录入窗口,可看到有一个表格,这个表格中的每一行代表一份问卷,也称为一个个案. b. 在数据录入窗口中,可看到表格上方出现了1、2、3、4、5.的标签名,这其实是我们在第一步定义变量中,我们为问卷的每一个问题取的变量名,即1代表第一题,2代表第二题.以次类推.只需要在变量名下面输入对应问题的答案即可完成问卷的数据录入.比如上述年龄段查询的例题,如果问卷上勾选了A答案,在1下面输入1就行了
6、(不要忘记我们通常是用1、2、3、4来代替A、B、C、D的). c.一行代表一份问卷,所以有几分问卷,就要有几行的数据. 在数据录入完成后, 要做的关键部分就是 问卷的统计分析了.,1.读取SPSS格式的数据 2.读取Excel等格式的数据 3.读取文本数据(Fixed和Delimiter) 4.读取数据库格式数据(分如下两步) (1)配置ODBC (2)在SPSS中通过ODBC和数据库进行,Rich.sav,数据Rich.xls,数据录入,(rich.sav):福布斯世界富豪排行榜 Rank:排名 Name:姓名 Citizenship:国籍 Region:地区 Age:年龄 NetWort
7、h:净财富(10亿美元) Residence :居住地,问卷调查数据常用的统计分析方法,频数分析、描述统计分析和列联表分析 这是问卷调查最基本、最常用的分析方法。频数分析是描述统计的初步,分门别类的统计有效样本量,计算其比重。频数分析可以计算的统计量有:分位数、中位数、众数等,并可以绘制柱状图、直方图、饼图。,描述统计分析主要是计算一些 基本的统计量,其中比较重要的统计量有均值、方差和标准差、峰度、偏度。,数据的描述,在对数据进行深入加工之前,总应该对数据有所印象。 可以借助于图形和简单的运算,来了解数据的一些特征。 由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体
8、的一个近似的描述。,1 如何用图来表示数据?,定量变量的图表示:1.直方图,对于一个定量变量,比如某个地区(地区1)测量了163个高三男生的身高(S3height1.txt)。 用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。 图1就是利用这个数据由SPSS软件所画的直方图。,该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子宽度因不同的数据性质或要求而定,这里的格子宽度为5cm),而纵坐标为各种身高区间的身高的频数。,直方图,定量变量的图表示:2.盒型图,简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。 图
9、2的左边一个是根据地区1高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区2)的高三学生的身高(height.txt,height.sav,第三章例.xls)。,盒型图,盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线(边)为上下四分位数(点);按照SPSS的默认选项,如果所有样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为最大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出,定量变量的图表示:3.茎叶图,在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图(stem-and-leaf plots)可以恢
10、复数据 以地区1高三男生身高为例(图3),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。,茎叶图,其中茎叶图中茎的单位为10cm,而叶子单位为1cm。比如,由于第一行茎为150cm,因此叶子中的九个数字001223344代表九个数目150、150、151、152、152、153、153、154、154cm等。每行左边有一个频数(比如第一行有9个数目,第二行有17个等等);可以看出最长的一行为从165cm到169cm的一段(有35个数)。,定量变量的图表示:4.散点图,数据会有两个变量,如美国男士和女士初婚年限数据(marriage.txt)。
11、 该数据描述了自1900年到1998年男女第一次婚姻延续的时间。 这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人的婚姻年限都给出来,所以每年就取了一个中间的值(中位数)作为代表。,散点图,定性变量的图表示:饼图,定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。 下面用SPSS绘的图5(饼图,pie chart)表示了说世界各种主要语言人数的比例(language.txt).,饼图,定性变量的图表示:条形图,而用同样数据画的图6称为条形图(bar chart)。 从每一条可以看出讲各种语言的实际人数,而且分别给出了每个语种中母语和日常
12、使用的人数(在图中并排放置)。条形图显示比例不如饼图直观。,条形图,如何用少量数字来概括数据?,大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化 我们可以用 “平均”,“差距”或百分比等来概括大量数字。 由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。,37,小结,例(rich.sav):福布斯世界富豪排行榜 Rank:排名 Name:姓名 Citizenship:国籍 Region:地区 Age:年龄 NetWorth:净财富(10亿美元) Residence :居住地,38,定量变量的图表示 直方图 Age, NetWort
13、h SPSS: GraphsInteractiveHistogram,39,横坐标 要研究的变量的取值范围 格子的宽度因数据性质而定 纵坐标 频数 百分比 数据分布的简单描述 单峰/双峰 对称/非对称 数据的疏密,40,盒型图 不同区域年龄分布 SPSS: GraphsInteractive Boxplot,41,中间横线 中位数封闭盒子的上下两边 上下四分位点线段的端点 最大值,最小值(线长小于1.5倍盒长)离群点(outlier),极端值(extreme),42,茎叶图 欧洲区域富人的年龄 SPSS: AnalyzeDescriptive Statistics Explore,Freque
14、ncy Stem & Leaf1.00 Extremes (=22)2.00 3 . 449.00 3 . 78999999918.00 4 . 00000111233334444414.00 4 . 5555567778999927.00 5 . 00001111111222333333334444422.00 5 . 555566666677788888999927.00 6 . 00011111111222222233344444423.00 6 . 5555556667888888889999916.00 7 . 000000011112333318.00 7 . 5556666778
15、8899999912.00 8 . 0002222333447.00 8 . 55668992.00 9 . 221.00 9 . 5Stem width: 10.00Each leaf: 1 case(s),43,茎的单位:10岁 叶的单位:1岁 优点 还原原始数据 类似直方图显示数据分布 缺点 无法描述大量数据 不常用,44,散点图 两个定量变量之间的关系:年龄和财富 SPSS: GraphsInteractive Scatterplot,45,定性变量的图表示 饼图 Region SPSS: GraphsInteractive Pie 类别不宜过多,46,条形图 Region SPSS:
16、 GraphsInteractive Bar 不同于直方图,2 如何用少量数字来概括数据?,可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。 这些数字是从样本数据得来的,因而也是样本的函数, 任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。 样本的随机性决定统计量的随机性(统计量也是随机变量),2 如何用少量数字来概括数据?,概括统计量经常对应于总体的无法观测到的某些参数。 这时,统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。,2 如何用少量数字来概括数据?,注:一些统计量前面有时加上“
17、样本”二字,以区别于总体的同名参数。如“样本均值”和“样本标准差”,以区别于总体均值和总体标准差;但在不会混淆时可以只说“均值”和“标准差”。,数据的“位置”,数据有位置吗?,这里三个数据的位置一样吗?,数据的“位置”,“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center或center tendency)。 和这种“位置”有关的统计量就称为位置统计量(location statistic)。 位置统计量当然不一定都是描述“中心”了,比如后面要讲的k百分位数(或k分位数)。,数据的“位置”,最常用的位置统计量就是小学时所学到的算术平均数,它在统计中叫做均值(mean
18、);严格地说叫做样本均值(sample mean),以区别于总体均值。 如果记样本中的观测值为x1,xn,则样本均值定义为,(样本)中位数(median) 是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。 由于中位数不易被极端值影响,所以中位数比均值稳健(robust)。,数据的“位置”,上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile, third quantile)则分别位于(按大小排列的)数据的上下四分之一的地方。,数据的“位置”,数据的“位置”,一般地还称上四分位数为75百分位数(75 pecent
19、ile,有75的观测值小于它),下四分位数为25百分位数(有25的观测值小于它)。 一般地,k百分位数(k-pecentile)意味着有k的观测值小于它。 如果令a=k%,则k百分位数也称为a分位数(a-quantile)。 样本中出现最多的数目,称为众数(mode),数据的“尺度”,这两个数据“胖瘦”一样吗?,数据的“尺度”,数据中数目的分散程度由尺度统计量(scale statistic)来描述。 尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或variability)的度量。,数据的“尺度”,从前面两个高三男生身高数据的盒形图。左边的数据平均要高些,但右边的数据散布范
20、围要小得多。,统计中有许多尺度统计量。一般来说,数据越分散,尺度统计量的值越大。,数据的“尺度”,极差(range);就是极大值和极小值之间的差。 前面两个高三男生身高数据的极差分别为50cm和32cm。 盒形图盒子的长度为两个四分位数之差,称为四分位数极差或四分位间距(interquantile range);它描述了中间半数观测值的散布情况。极差和四分位极差实际上各自只依赖于两个值,信息量太少。,数据的“尺度”,另一个常用的尺度统计量为(样本)标准差(standard deviation)。度量样本中各数值到均值距离的一种平均。 标准差实际上是方差(variance)的平方根。如果记样本中
21、的观测值为x1,xn,则样本方差为,数据的“尺度”,两个均值一样,但右边的要“胖”些,方差为左边的一倍,数据的标准得分,假定两个水平类似的班级(一班和二班)上同一门课, 但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样(数据:grade.txt)。,数据的标准得分,一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。 那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢?怎么比较才能合理呢?,数据的标准得分,虽然这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,再比较标准化后的数据。 一个标准
22、化的方法是把某样本原始观测值(亦称得分,score)和该样本均值之差除以该样本的标准差;得到的度量称为标准得分(standard score,又称为z-score)。,数据的标准得分,即,某观测值xi的标准得分定义为,数据的标准得分,在我们的例子中,张颖的标准得分为(90-78.53)/9.431.22,而刘疏的标准得分为(82-70.19)/71.69。 显然如果两个班级平均水平差不多,刘疏的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。,可以看出,原始数据是在各自的均值附近,而散布也不一样。但它们的标准得分则在0周围散布,而且散布也差不多。实际上,任何样本经过这样的标准化后,
23、就都变换成均值为0、方差为1的样本。标准化后不同样本观测值的比较只有相对意义,没有绝对意义。,68,小结,统计量:(statistic) 样本的函数,不包括总体的未知参数 随机变量(样本的随机性) 作为总体参数的估计,69,数据的位置(location) 样本均值(sample mean) 中位数(median):稳健 k百分位数(k-percentile) 众数(mode):定性变量,70,SPSS: AnalyzeDescriptive Statistics Explore/Frequencies/Descriptives例(rich.sav) : Age,71,数据的尺度(scale)
24、极差(range) 四分位数极差(interquantile range) 方差(variance) 标准差(standard deviation)标准误差(standard error),72,SPSS: AnalyzeDescriptive Statistics Explore/Frequencies/Descriptives例(rich.sav) : Age,73,数据的标准得分 样本原始观测值与样本均值之差除以样本标准差 新样本:均值0,方差:1 (grade.sav)数据的变换 指数 对数,74,75,基本背景调查,样本量:65 (out of 81) SPSS: AnalyzeDe
25、scriptive Statistics Frequencies,76,77,78,79,80,81,82,建议 统计眼光,统计思想 分析方法,实际应用 软件使用,1频数分析:Frequencies过程可以做单变量的频数分布表;显示数据文件中由用户指定的变量的特定值发生的频数;获得某些描述统计量和描述数值范围的统计量。 适用范围:单选题,排序题,多选题的方法二 实现: Descriptive statisticsFrequencies 2 描述分析:Descriptives:过程可以计算单变量的描述统计量。这些述统计量有平均值、算术和、标准差,最大值、最小值、方差、范围和平均数标准误等。 适用
26、范围:选择并排序题、开放性数值题。 实现: Descriptive statisticsDescriptives,需要的统计量点击按钮Statistics中选择,总结,3 多重反应下的频次分析: 适用范围:多选题的二分法 实现:第一步在Multiple ResponseDefine Sets把一道多选问题中定义了的所有变量集合在一起,给新的集合变量取名,在Dichotomies Counted value中输入1。第二步在Multiple ResponseFrequencies中做频数分析。 4 交叉频数分析: 解决对多变量的各水平组合的频数分析的问题 适用范围:,适用于由两个或两个以上变量进行交叉分类形成的列联表,对变量之间的关联性进行分析。比如要知道不同工作性质的人上班使用交通工具的情况,可以通过交叉分析得到一个二维频数表则一目了然。 实现:第一步根据分析的目的来确定交叉分析的选项,确定控制变量和解释变量(如上例中不同工作性质的人是控制变量,使用交通工具是解释变量)。第二步选择Descriptive statisticsCrosstabs,