1、1SPSS暑期特训邹艳辉Tel:(010)82515131 -8081.了解一些统计思想和思维方式2.掌握如何通过SPSS进行数据获取和管理3.了解描述性统计的作用,并掌握其SPSS实现(频数表、均值、标准差、中位数、众数、极差等)4.了解一些基本推断性统计分析方法的应用,并掌握其SPSS实现(均值比较、方差分析、卡方检验、相关分析和回归分析等)5.掌握如何应用SPSS生成漂亮的表格和图形,以及表格和图形含义解读6.了解一些高级推断性统计分析方法的应用,并掌握其SPSS实现(聚类分析、因子分析、主成分分析、对应分析、信度分析、尺度分析和生存分析等)课程目标课程安排第一讲数据分析概述与SPSS第
2、二讲SPSS之数据录入与获取第三讲SPSS之数据整理第四讲SPSS之数据描述第五讲简单推断性分析第六讲方差分析模型第七讲相关、回归分析模型第八讲Logistic模型、非线性回归第九讲聚类分析第十讲因子分析、主成份分析第十一讲对应分析、信度分析、尺度分析第十二讲生存分析背景:拥有一定量的数据产生需求:从数据中提取信息数据分析统计学数据分析的依据统计学:随机性与规律性统计工具利用统计学原理服务于数据分析第一讲数据分析概述与SPSS2SPSS软件基本介绍 SPSS的基本构成:11个模块 SPSS五个窗口的基本功能应用SPSS执行统计分析的几种方法 SPSS的四种结果 SPSS无处不在的Help SP
3、SS五种结果保存方式SPSS Client/Server SPSS Base-基础模块 SPSS Advanced-多元方差分析、生存分析 SPSS Regression-回归 SPSS Trends-时间序列 SPSS Categories-分类数据分析 SPSS Conjoint-正交设计和分析 SPSS Tables-表格展示数据 SPSS Maps-地图展示数据 SPSS Missing Value Analysis-缺失值分析 SPSS Exact Test Analysis-精确检验 SPSS Complex Samples-复杂抽样SPSS 操作界面-五个窗口1. Data Ed
4、itor-数据编辑窗口Data View Variable View2. Syntax Editor-程序编辑窗口3. Viewer-结果管理窗口4. Draft Viewer-草稿结果窗口5. Script-脚本编辑窗口SPSS分析数据的四种方法菜单操作简单易用,操作方便编程运行灵活丰富,最大程度的发挥SPSS效能Include命令保证程序的可重复使用和嵌入Production Facility程序运行的批处理、自动化,后台执行3SPSS的结果及保存方式四种结果文本格式的结果、表格结果、标准图结果、交互图结果五种结果保存方式 SPSS结果文件格式、Html格式、 Word格式、Text格式、
5、Excel格式SPSS的帮助系统帮助菜单对话框帮助无处不在的Whats this?理念统计模型的严格数学表达很复杂、繁琐,但是其背后的思想往往很简单做为统计学的使用者,重要的是掌握统计学的思想、解决问题的步骤和结果的解读,至于那些研究方法本身的事情,交给统计学家去做吧复杂的方法未必是可行的方法,越是简单的方法,越容易得到广泛采用,也往往给使用者带来更多的价值统计学只是一个工具,SPSS更是工具的工具,不要指望它能够“自动”的解决你面临的商业问题要注意统计学方法的适用条件,滥用统计学会造成“严重”的负效果一个例子罗斯文商贸公司背景介绍:罗斯文商贸公司是Microsoft数据库产品(Access,
6、 SQL Server等)中的一个示例数据库;它虚拟了一家经销日用品的商贸公司的情况;目前该公司保存的历史数据资料,见下页;如何对客户价值进行评估。商业问题:微软公司提供的案例数据库罗斯文商贸公司,我们需要对客户的价值进行评估,以便采取有效的市场销售策略。4罗斯文商贸公司数据罗斯文商贸公司案例商业问题:微软公司提供的例子数据库罗斯文商贸公司,如何对客户价值进行评估,以便采取有效的市场销售策略?统计问题:(1)如何描述客户价值?购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的线性组合?(2)需要什么样的数据挖掘方法?描述汇总?分类?预测?概念描述?细分?相关分析?商业问题解决方案:从
7、所有客户中找出最有价值的10个客户,将名单发给市场部门,让其对这些客户进行更多的关注小结1、没有哪个模型是绝对正确的,但有些模型是有用的2、统计可以在企业中得到广泛的应用3、统计方法未必越“高深”越”好”,往往简单的方法可以解决“大问题”第二讲SPSS之数据录入与获取邹艳辉Tel:(010)82515131 -8085课程内容统计分析要求的数据格式不同类型问题的数据录入数据录入与数据获取数据类型原始资料数据录入:文本格式电子表格用SPSS进行数据录入大样本-数据库二手资料数据读取:用SPSS读取各种格式的数据统计分析要求的数据格式记录3记录2记录1变量3变量2变量1变量:记录:问卷示例1、序号
8、2、姓名3、性别1 男2 女4、出生年月日(mm/dd/yyyy)5、是否喜欢足球1非常喜欢2喜欢3无所谓4不喜欢5非常不喜欢6、请问您通常获取新闻的方式有哪些1报纸2杂志3电视4收音机5网络7、每天上网的小时数:小时问题的类型:单选题-3,5 数值型开放题-1,7 文字型开放题-2日期型开放题-4多选题-66数据录入三步曲确定变量,定义各变量属性录入数据检查录入错误开放题的录入1序号2姓名4出生年月日(mm/dd/yyyy)单选题的录入单选题1-选项没有顺序之分:不含其它:字符字符型录入字符加值标签数值型录入:数值加值标签含其它:两个变量来录入单选题2-选项有顺序之分数值型录入:数值加值标签
9、性别1 男2 女是否喜欢足球1非常喜欢2喜欢3无所谓4不喜欢5非常不喜欢多选题的录入多重二分法(multiple dichotomy method)多重分类法(multiple category method)适用于选项较多情况可用于需要排序的回答常出现数据缺失的现象请问您通常获取新闻的方式有哪些1报纸2杂志3电视4收音机5网络7数据示例之数据字典练习1 数据录入(1)数据字典3字符型学号ID3.0数值型数学成绩Math3.0数值型语文成绩Chinese1:男2:女1.0数值型性别Gender无8字符型姓名Name值标签变量长度变量格式变量标签变量名(2)数据内容8487男K0118282女J
10、0109161男I0097868男H0086186男G0076860女F0069871女E0058999男D0046568男A0016288男M0139582女L0126080女C0036670男B002MathChineseGenderNameID练习2 多选题录入在一项关于汽车品牌的研究中,我们希望了解人们在购买汽车的时候关注的是哪些因素,问题如下:您在购买汽车的时候,关注以下哪些因素:品牌、车型、价位、油耗、其他我们希望了解目标人群对手机的哪些品牌的信任度较高,在问卷中列出了10个品牌,让被访者从中选择他认为最可信的几个。问题如下:请在下面10个品牌中选出您认为最信得过的几个(最多选三个
11、),品牌包括:诺基亚、摩托罗拉、三星、波导、西门子、康佳、东信、中兴、熊猫、海尔10个。数据获取:用SPSS读取数据读取SPSS格式的数据读取Excel等格式的数据读取文本数据(Fixed和Delimiter)读取数据库格式数据(1)配置ODBC(2)在SPSS中通过ODBC和数据库进行连接,并读取数据8应用举例:如何读取Excel数据将数据文件score.xls,读入SPSS中,并保存,以备进一步数据整理和分析。从哪张表中读取数据读取数据的范围第一行是否是变量名变量名过长变量类型的转换应用举例:Gss91Sm.dat如何读取固定宽度的文本格式数据在此例中,我们只想读入六个变量(原数据文件包括
12、了更多的信息):教育年数,婚否,首次结婚年龄,性别,年龄,快乐。数据字典如下:变量 位置 变量标签 值标签 教育年数 1-2受教育年数 1=1年,。98=不知道,99=无答案 婚姻状态 3 婚姻状态 1=已婚,2=丧偶,3=离异,4=分居,5=未婚,9=无答案 初次结婚年龄 4-5 初次结婚年龄 18=18岁,ETC,0=拒答,98=不知道 99=无答案 性别 6 F=女性,M=男性 年龄 7-8 21=21岁,ETC,98=不知道,99=无答案 快乐 14 总的来讲,你是否快乐 1=很快乐,2=快乐,3=不太快乐,8=不知道,9=无答案 应用举例:如何从数据库中读取数据请通过SPSS读取Ac
13、cess 2000数据库中数据northwind.mdb,把Access数据库中的8个数据表分别转化为SPSS文件如下:产品.sav; 订单.sav;订单明细.sav;供应商.sav;雇员.sav;客户.sav;类别.sav;运货商.sav其中要求雇员表中把照片这一字段(变量)去掉。第三讲SPSS之数据整理邹艳辉9数据整理内容变量级数据整理文件级数据整理变量级数据整理新变量的生成 Compute Rank Cases Recode Automatic Recode Visual Bander新变量的生成-Compute利用算术符号和函数生成新变量(Compute):举例:销售总额=单价*数量*
14、(1-折扣)平均成绩=(语文成绩+数学成绩+英语成绩)/3平均成绩=means(各门成绩)年龄-生日TRUNC(CTIME.DAYS(DATE.MDY(7,28,04)-bdate) / 365.25)姓名-姓+名CONCAT(RTRIM(姓),名)新变量的生成-rank新变量代表名次(Rank Cases)举例:对按平均成绩排名,分数最高的为第一名。相同分数的名次处理:同小、同中、同大 Sort Cases:升降序多个变量排序10新变量的生成-连续变量离散化按分数规定等级-Recode规则:不重& 不漏例:90以上为A,75-89为B,60-74为C,60以下为D各等级人数相等-Catego
15、rize Variables例:A级人数占总人数的25%,B25%,C25%,D25%按比例分配等级-Descriptive+Recode例:A级10% B50%,C30%,D10% 举例:分数转换为等级:A/B/C/D连续变量离散化Visual Bander采用图形辅助的方式,帮助用户使用百分位数、标准差范围或者等间距方式将连续性变量划分为若干组段新变量的生成-Recode的其它功能将数值型变量转换为字符型 0-6:小学及以下;7-9:初中;10-12:高中;13-20:大学及以上;97、98、99:未回答将字符型变量转换为数值型小学及以下:1;初中:2;高中:3;大学及以上:4;97、98
16、、99:0将字符型数值转换为数值型对变量sex、marital进行变换将几个小类别合为一个类别例:“小学”、“初中”合并为“义务教育”,其他合并为“非义务教育”练习读取northwind.mdb中的雇员表,合并姓氏和名字为新字段姓名读取norhwind.mdb中订单明细表,根据单价和数量和折扣计算每种产品的购买金额读取northwind.mdb中产品表,对每种商品的价格加上等级,从高到低 Visual Bander练习:对数据Employee data.sav中“salary”变量进行分段对数据sample.sav中“age”变量进行分段,产生新变量“agecat”11文件管理合并文件-增加变
17、量合并文件-增加记录数据汇总数据转置自动发现重复记录合并文件合并不同个体的相同信息(a.sav、b.sav)合并相同个体的不同信息-先排序(c.sav、d.sav)用菜单可以一次合并两个文件,一个是SPSS格式,另一个可以用SPSS直接打开用Syntax可以合并多个文件从数据库中直接合并文件数据汇总按一个分类变量汇总,例性别按多个分类变量汇总,例性别、年龄段对一个变量进行多个统计量的汇总例销售总额、平均每笔销售额生成次数变量:成交次数汇总生成新文件或直接显示在数据窗口数据结构的转置anxiety.sav第一种:一条记录变成多条记录第二种:多条记录变成一条记录第三种:3行*200列变成200行*
18、3列12自动发现重复记录在大型数据管理工作,或者复杂的数据变换工作中,重复记录的发现是经常需要完成的任务各大统计软件中这一功能基本上都是通过编程完成,但操作较麻烦,不利于普通用户使用 SPSS 为之专门提供了简单的操作界面,可以迅速发现个别变量值重复,或者所有数值完全重复的记录数据整理-其它数据记录选择(Select cases )产生计数变量(Count)拆分数据(Split)数据权重(Weight cases)练习 1、设计变量属性,录入数据,保存为Trans.sav 2、进行以下数据结构的转换83语286英192英268数290数180语1成绩科目学号8380语成绩9268286901英
19、成绩数成绩学号练习针对Score.xls做以下练习: 1,将score.xls读入SPSS中; 2,将成绩转化为数值型,用0表示“缺考”; 3,数据转换,每个学生占一行; 4,按性别分别汇总英语成绩; 5,按班级分别汇总语文成绩。13第四讲SPSS之数据描述邹艳辉数据描述性统计分析概述统计图分类变量:饼图和条形图连续变量:点图和直方图根据数据作地图 SPSS中的图形生成、编辑与输出到报告中统计报表表格的元素构成、类型 SPSS中的表格展示、编辑与输出到报告中描述性统计量SPSS图形Graphs菜单SPSS图形功能概述两种图形方法(1)常规方法(Graphs-Bar)(2)交互图(Graphs-
20、Interactive-Bar)图形的种类14如何生成SPSS图形步骤建立数据文件,选用适当类型的图形;定义图形的元素,生成图形;对图形结果进行编辑、修饰。如何用图来表示数据单变量表示原始数据的分布情况Employee data.sav直方图:直观显示连续变量频数组的分布简单条图:展示分类变量各类别的频数箱线图:可帮助进行对称性、极值判定表示各部分占总体的构成比例饼图:百分比构成情况 Pareto图:原始数据及百分比构成情况SPSS图形以直条长短来表示各指标数值的大小(cover.sav)一个分类变量:简单条图(各城市的日销售额)两个分类变量:复式条图(销售额先按城市,再按包装类细分)分组条图
21、:便于个亚组内部比较(不同包装亚组)堆积条图:便于大分类整体比较(不同城市间)因变量连续变量自变量分类变量条图SPSS图形用线段的升降来表示事物随时间的发展变化(cars.sav)实质上和条图没有区别,只是使用习惯不同而已一个分类变量:简单线图(不同年代的功率)两个分类变量:多线图(按不同产地细分的不同年代的功率)因变量连续变量自变量有序分类变量线图15SPSS图形以点的密集程度和趋势表示两变量间的数量依存关系(广告投放额度与月销售额间的关系adv.sav)两变量间关系:简单散点图快速发现多个变量间主要相关性:散点图矩阵在同一张图中比较各组变量的相关性:重叠散点图三个连续变量间的关系:三维散点
22、图因变量连续变量自变量连续变量散点图图形专题练习一 Employee data.sav做current salary的直方图,并解释结果。在同一个图上做不同教育水平的beginning salary和current salary的线图,并解释。做beginning salary和current salary的散点图,并对结果作出合适的解释。以条图为例欲比较SPSS自带数据集anxiety.sav中不同对象(subject)的4次测量的得分(变量score)之和,试绘制适当的条图。图形专题练习二针对罗斯文公司数据客户表,对客户的城市分布分别做饼图和条形图来显示客户在各个城市的数量,并比较两者结果
23、的区别。用Interactive Graph重复做以上所述两图。对你所做图形进行编辑(背景、颜色、标签格式)SPSS表格表格的元素构成层(Layer)行(Rows)列(Columns)单元格(Cells)16表格中的要素RS HIGHEST DEGREE HIGH SCHOOL508 3 0 20 660 3 0 2084 4 0 21 148 3 0 1142 3 0 7 58 3 0 10634 3 0 21 866 3 0 20WHITEBLACKOTHERTotalRACE OFRESPONDENTTotal N Mean Minimum MaximumHOURS PER DAY WA
24、TCHING TVMALETotal N Mean Minimum MaximumHOURS PER DAY WATCHING TVFEMALERESPONDENTS SEX统计量行变量层变量列变量汇总行SPSS表格的类型堆积表Stacking 交叉表Crosstabulation嵌套表Nesting分层表Layers 堆积表交叉表17嵌套表分层表把层去掉以后的效果枢轴表技术(Pivot Tables)行、列、层可自由互换,达到从各个角度观察数据的目的层行列18SPSS表格 Reports菜单OLAP(Online Analytical Processing)Case SummariesRep
25、ort Summaries in RowsReport Summaries in ColumnsSPSS表格 Reports子菜单主要针对定量资料产生记录报表,同时可计算一些简单的统计量。 OLAP Cubes过程:在线统计分析,可以分层变量不同水平的组合进行变量的描述。 Case Summaries过程:对记录进行汇总,并能够给出详细的记录列表。 Report Summaries in Rows/Columns过程:均可对输出表格进行精细定义,适合于生成商用报表。SPSS表格 Reports子菜单对cars.sav制作相应报表 Case Summaries制作记录列表及简单汇总 Report
26、 Summaries输出专业水准的报表分产地和年代同时报告不同变量计算不同的指标格式的精细设置SPSS表格 Tables Custom Table *SPSS 11.5新推出的功能Multiple response sets Basic Tables General Tables Tables of FrequenciesMultiple response tables19SPSS表格 Custom Tables菜单是SPSS专门为生成出版级报表而设计的模块。 Basic Tables过程:对分类/定量资料进行各种复杂格式的描述。 General Tables过程:在同一张表格内同时对分类资料
27、、连续资料和多选题数据进行汇总。功能非常强大,但使用上相对复杂。 Custom Tables过程:含有表格预览窗口,并可在制表过程中控制结果。SPSS表格 Custom Tables菜单 Multiple Response Sets/Tables过程:专门为多选题数据设计的制表过程。 Tables of Frequencies过程:在同一张表格中对多个分类变量同时输出频数表。SPSS表格 Custom Tables菜单tables.sav按照不同性别、文化和肥胖度计算收入的频数分布 Basic Tables过程 General Tables过程同时对年龄、血压控制方法和收入进行汇总 Gener
28、al Tables过程SPSS表格 Custom Tables菜单仅对多选题进行汇总 Multiple Response Tables过程 Multiple Response子菜单分性别输出婚姻状况、职业、收入级别、居住情况的频数,并给出百分比以及合计 Tables of Frequencies过程 Frequencies过程20表格的编辑对输出的结果进行管理(目录区和详细内容区)设定表格外观(提供了53种表格外观)对表格进行编辑如何根据表格生成图形(Create Graph)表格的保存与导出如何把表格导出到其他应用系统(1)Export(HTML,TXT,DOC,XLS)(2)Copy和Co
29、py Object表格专题练习sample.sav显示整个人群的年龄分组与收入分布的关系。各年龄组人群每天看电视小时数如何,标题为“各年龄人群看电视时间表”,请在表下注明生成表的日期。根据“educ”产生新变量“学历”;在同一张表上显示年龄类别、性别、看电视时间、学历,汇总。统计学的分类描述统计学研究如何把数据用易于理解的形式展示出来,结果可能是表格、图形或者数值推断统计学利用部分数据对总体数据的规律性做出预测和检验,为了实现这一功能,统计学家建立了大量的统计模型21课程内容如何用少量的数字概括数据SPSS如何进行基本的描述性分析定类变量的描述统计定序变量的描述统计定距/定比变量的描述统计多选
30、题问题的描述统计描述统计量概述描述统计量(summary statistic),也称汇总统计量或概括统计量用少量数字概括大量数字的技术如何用少量的数字来概括数据?数据的“位置”均值、中位数、K-百分位数、众数数据的“尺度”极差、标准差、标准误*数据的标准得分数据的标准得分一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。试问,一班的90分是不是比二班的82分成绩更好? (90-78.53)/9.431.22 (82-70.19)/71.69 22平均数与标准差的应用切比雪夫定理在任何一个数据集中,至少有 (1-1/z2 )的数据项与平均数的距离在
31、 z个标准差之内,其中 z是任意大于 1的值。切比雪夫定理含义( 1)至少 75%的数据项与平均数的距离在 2个标准差之内;( 2)至少 89%的数据项与平均数的距离在 3个标准差之内;( 3)至少 94%的数据项与平均数的距离在 4个标准差之内。连续变量的经验法则 正态分布是一种最常用的连续型分布 关于正态分布的经验法则( 1)约 68%的数据项与平均数的距离在 1个标准差之内;( 2)约 95%的数据项与平均数的距离在 2个标准差之内;( 3)几乎全部数据项与平均数的距离在 3个标准差之内。经验法则的应用某单位有100个人,他们的平均身高是170cm,标准差为5cm,那么有多少人的身高是落
32、在160cm-180cm这个区间里的呢?1.名称级-定类变量2.顺序级-定序变量3.间隔级-定距变量4.比例级-定比变量低高转换定性定量非数量型数量型离散型随机变量连续型随机变量统计分析方法的应用很多时候按变量的测量等级来划分离散变量和连续变量有不同的描述变量体系变量测量尺度23分类变量统计描述常用指标统计量:频数、频率、累计频数、累计频率、众数比:任意两个变量之比性别比,货物/销售人员比构成比:部分占总体的比例率:事件的发生强度图形:条图、饼图SPSS操作 单个变量的分析AnalyzeDescriptive StatisticsFrequcencies 多个变量的分析AnalyzeDescr
33、iptive StatisticsCrosstabs 条图Graph(interactive)bar 饼图Graph(interactive)pie连续变量的描述指标频数表Frequency直观的方法:分布类型分布特征集中趋势Central tendency均数mean 中位数median 众数mode离散趋势Dispersion tendency全距Range 方差Variance 标准差std.deviationSPSS操作 如何计算各个描述统计量Analyze-Descriptive Statistics-FrequcenciesAnalyze-Descriptive Statistic
34、s-DescriptivesAnalyze-compare means-means 如何用图形描述连续变量GraphInteractiveHistogram 如何应用 Explore对连续变量进行探索性分析Analyze-Descriptive Statistics-Explore24练习 Employee data.sav:了解企业员工的任职时间、起始工资、当前工资等信息;将上述信息转换成标准正态评分值,并以变量的形式存入数据库,以备后续分析使用;用直方图表示以上内容,并绘制拟合正态曲线;将结果导出为html和word格式。Explore过程 Explore是对连续性变量进行探索性分析最有效
35、的工具 Explore提供了丰富的描述统计量和图形( 1)统计量( 2)直方图( 3)茎叶图( 4)箱线图 练习数据Employee data.sav,对current salary做探索性分析,对结果进行解释。多选题变量的描述指标应答次数:某选项被选次数应答人数:有多少人选择了某选项应答人数百分比(Percent of Cases)应答人数/总应答人数,选择该项的人占总人数的比例在四个选项中,200个受访者中共有178人选择了A,则A的应答人数百分比为178/200=89%应答次数百分比(Percent of Responses)应答次数/总应答次数,选择该项的次数占总次数(总反应数)的比例
36、 A、B、C、D分别选择了178、120、134、160次,则总的应答次数为592人次,而A的应答次数百分比应为178/592=30.07%多选题练习对数据sample.sav进行分析:评价被访者的性别“sex”与各种新闻获取方式的情况评价被访者的年龄分组“age category”与各种汽车产地的情况25第五讲简单推断性分析邹艳辉内容均值比较非参数检验卡方检验均数比较 *预分析Means过程单样本T检验独立样本T检验配对样本T检验预分析Means过程概述该过程实际上更倾向于对样本进行描述它可以对需要比较的各组计算描述指标,进行检验前的预分析也可直接比较应用实例对数据集prefer.sav进行
37、预分析26单样本T检验统计理论复习样本数据是通过随机调查若干名观察对象得来,我们只知道它所在总体的均数在该样本均数的附近,但具体是多少并不清楚。为了回答该问题,统计学上采用了小概率反证法的原理。我们有如下两种假设: H0:样本均数与总体均数的差异完全是抽样误差造成。 H1:样本均数与总体均数的差异除了由抽样误差造成外,也反映了两个总体均数确实存在的差异。单样本T检验统计理论复习先假设H0成立,即一切都是抽样误差造成的。在这个前提下,我们的样本是从已知均数的大总体中抽出来的。那么从这个总体中抽出这样一个样本均数(以及更极端情况)的概率为多少呢?这可以通过统计学方法计算出来,即我们所求得的P值。单
38、样本T检验统计理论复习如果该P值太小,成为了我们所定义的小概率事件(小于等于水准),则我们怀疑所做的假设不成立,从而拒绝H0。反之,我们就不能拒绝H0,但一般也不太好说去接受它。单样本T检验应用案例:某汽车厂商声称其发动机排放标准的一个指标平均低于20个单位。在抽查了10台发动机之后,得到下面的排放数据:17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。该样本均值为21.13。究竟能否由此认为该指标均值超过20?(exh.sav)27单样本T检验练习根据以前的大量调查,已知顾客对某产品的满意度评分在72分左右,现该产品进行了重新包装,收集了一批
39、顾客的满意度评分,现在的评价有无改变?score.sav独立样本T检验统计理论复习和上面单样本的t检验的原理相同,我们也采用了小概率反证法,首先假设H0:两样本来自同一总体。当该总体服从正态分布时,我们就可以采用两样本t检验来计算从该总体中抽得这样两个样本(及更加极端情况)的概率为多少,从而做出统计推断。独立样本T检验统计理论复习由于H0假设的是两样本来自同一总体,因此两样本T检验在推导过程中除了要求总体服从正态分布外,还要求两样本各自所在总体方差相同。如这些应用条件不被满足,情况较轻时可以采用校正T检验的结果,否则应使用变量变换使之满足条件,或采用非参数检验过程。独立样本T检验分析实例某商场
40、为某种产品进行了促销活动,请比较前后数日的销售额,以确认促销活动对销量有无作用。promot.sav直方图检查正态性方差齐性检验会在结果中自动给出28配对T检验相关统计理论配对设计的两种情况对同一个受试对象处理前后的比较将受试对象按情况相近者配对(或者自身进行配对),分别给予两种处理,以观察两种处理效果有无差别。配对t检验应用案例对促销人员培训前和培训后销售额的比较,以确认业务培训有无效果。pair.savPaired Samples Correlations12 -.135 .675培训后 & 培训前Pair 1N Correlation Sig.Paired Samples Statist
41、ics560.0000 12 61.93839 17.88007489.1667 12 78.09765 22.54485培训后培训前Pair1Mean N Std. DeviationStd. ErrorMeanPaired Samples Test70.83333 106.04102 30.61140 3.45809 138.20858 2.314 11 .041培训后 - 培训前Pair 1Mean Std. DeviationStd. ErrorMean Lower Upper95% ConfidenceInterval of theDifferencePaired Differenc
42、est df Sig. (2-tailed)练习据调查,外企人员流动速度为,平均任职80个月。现对某外企进行调查,据此推断该公司员工任职时间的均数是否有所不同,数据见employee data.sav。对于数据“名牌与普通商品价格比较”,名牌商品和普通商品是否有价格差异,如果有,价格差异大约是多少,给出区间估计。非参数分析非参数分析概述分布类型检验方法分布位置检验方法29非参数分析概述参数统计方法已知总体分布 t检验方差分析总体分布未知,或分布不符合要求时无法使用结果为有序分类变量时无法使用样本数据两端有不确定值时无法使用非参数分析概述分布类型检验方法亦称拟合优度检验方法检验样本所在总体是否服
43、从已知的理论分布检验二项/多项分类变量分布的Chi-Square过程检验二项分类变量分布的Binomial过程检验样本序列随机性的Runs过程检验样本是否服从各种常用分布的1-Sample K-S过程非参数分析概述分布位置检验方法检验样本所在总体的分布位置/形状是否相同我们平时说的最多的非参数检验方法实际上指的就是这一类方法。用于成组资料分布位置检验的2 Independent Samples与K Independent Samples过程用于配伍资料分布位置检验的2 Related Samples与K Related Samples过程分布类型检验方法 Chi-Square过程检验二/多分类
44、数据样本所在总体分布(各类别所占比例)是否与已知总体分布相同分析实例某公司准备推出一个新品牌的矿泉水,但在新产品的名称意见尚未统一,最终决定进行抽样调查。在受访的200人中,52人更喜欢名称A,61人更喜欢名称B,87人更喜欢名称C,请问ABC三种名称受欢迎的程度有无差异?30分布类型检验方法 Binomial过程检验二项分布数据样本所在总体分布是否与已知总体分布相同分析实例根据以往经验,某广告点击率一般为0.5%,现网站进行了改版,共记录了500名访问者,有6人点击广告,新版面是否对广告点击有帮助?分布类型检验方法 1-Sample K-S过程考察连续性资料是否符合理论分布利用分布理论值和实际值的最大差值分析实例考察数据cars.sav中的变量是否服从正态分布 1-Sample K-S过程绘制直方图绘制PP图计算峰度/偏度系数分布位置检验方法 2 Independent Samples与K Independent Samples过程分析实例考察男性青年工人和男性公务员每月的香烟消费支出有无差异。Npara1.sav分布位置检验方法 2 Related Samples与K Related Samples过程分析实例考察用户对两种产品的评分是否相同。Npara2.sav比较三种包装方式对饮料的销售额是否有影响。Npara3.sav