SPSS中异常值检验的几种方法介绍.doc-道客多多

资源描述

1、SPSS 中异常值检验的几种方法介绍方法具体如下所示：离群值（箱图探索）.值与框的上下边界的距离在 1.5 倍框的长度到 3 倍框的长度之间的个案。框的长度是内距。极端值（箱图）.值距离框的上下边界超过 3 倍框的长度的个案。框的长度是内距在回归模型诊断里面，一般称预测值与实际值的偏差为“残差“,残差有几种表示方法:标准化残差, 学生化残差等等，按照需要取一种残差，再按照某种标准取一个阀值来限定异常点，只要那个点的残差大于阀值，就可以认为它是异常点。SPSS14 之后新功能 SPSS Data Validation 能帮助您轻松地探察多个异常值，以便您可以进一步检验并确定是否把这些观测包括在您

2、的分析中。SPSS Data Validation 异常探察程序能够基于与数据集中相似观测的偏离探察异常值，并给出偏离的原因。它使您可以通过创建新变量来标识异常值。标签：市场研究研究方法经营分析分类：经营分析 2009-11-24 18:59这段时间太忙了，一直没有静下心来。积攒了几个朋友的问题，现在来回答或介绍一些，今天先谈谈时间序列(Time-Series Forecasting)的预测问题！预测：是对尚未发生或目前还不明确的事物进行预先的估计和推测，是在现时对事物将要发生的结果进行探讨和研究，简单地说就是指从已知事件测定未知事件。为什么要预测呢，因为预测可以帮助了解事物发展的未

3、来状况后，人们可以在目前为它的到来做好准备，通过预测可以了解目前的决策所可能带来的后果，并通过对后果的分析来确定目前的决策，力争使目前的决策获得最佳的未来结果。我们进行预测的总的原则是：认识事物的发展变化规律，利用规律的必然性，是进行科学预测所应遵循的总的原则。这个总原则实际上就是事物发展的1-“惯性”原则事物变化发展的延续性；2-“类推”原则事物发展的类似性；3-“相关”原则事物的变化发展是相互联系的；4-“概率”原则事物发展的推断预测结果能以较大概率出现，则结果成立、可用；时间序列预测主要包括三种基本方法：1-内生时间序列预测技术；2-外生时间序列预测技术；3-主观时间序列预测技术；当然今

4、天我们主要讨论内生时间序列预测技术也就是只关注时间序列的下的预测问题！从数据分析的角度来考虑，我们需要研究：1. 序列是否在固定水平上下变动？ 2. 此水平是否也在变动？ 3. 是否有某种上升或下降的趋势呢？ 4. 是否存在有季节性的模式？ 5. 是否季节性的模式也在变更呢？ 6. 是否存在周期性规律和模式？时间序列有一明显的特性就是记忆性(memory)，记忆性系指时间数列中的任一观测值的表现皆受到过去观测值影响。时间序列主要考虑的因素是：长期趋势(Long-term trend) 1. 时间序列可能相当稳定或随时间呈现某种趋势。 2. 时间序列趋势一般为线性的(linear)，二次方程式

5、的 (quadratic)或指数函数(exponential function)。季节性变动(Seasonal variation) 1. 按时间变动，呈现重复性行为的序列。 2. 季节性变动通常和日期或气候有关。 3. 季节性变动通常和年周期有关。周期性变动(Cyclical variation)1. 相对于季节性变动，时间序列可能经历“周期性变动”。 2. 周期性变动通常是因为经济变动。随机影响(Random effects)预测技术主要包括两大类：指数平滑方法（Exponential smoothing models）：描述时间序列数据的变化规律和行为，不去试图解释和理解这种变化

6、的原因。例如：您可能发现在过去的一年里，三月和九月都会出现销售的高峰，您可能希望继续保持这样，尽管您不知道为什么。 ARIMA 模型：描述时间序列数据的变化规律和行为，它允许模型中包含趋势变动、季节变动、循环变动和随机波动等综合因素影响。具有较高的预测精度，可以把握过去数据变动模式，有助于解释预测变动规律，回答为什么这样标签：市场研究研究方法经营分析分类：经营分析 2009-12-02 15:35本想早点完成这个时间序列的主题，但最近一直非常多的事情，又耽搁了这么长时间。朋友们问的问题没有收尾总是不好，抓紧时间完成吧。因为，后天要参加中国电信集团的一个 EDA 论坛，要仔细准备发言稿

7、！在交流的过程中，发现大家都对预测问题非常关注，尤其是数据挖掘领域，有时候分类问题与预测问题在表达上区分不开，有时候分类就是预测，比如通过判别分析、C5.0 规则或 Logistics 回归进行监督类建模，得到的结论说该客户是什么类别等级，似乎也可以说是预测；当然，如果能够预测该消费者什么时候流失，也就是进行了分类；这样说吧，其实有时候并不需要严格区分分类和预测，关键是时间点。从这也可以看出，预测问题内涵和外延是非常宽泛的，但研究者心中要有数，这决定了你得到的结果该如何应用。前面的博文提到，如果我们考虑时间序列预测包含有预测和干扰变量如何解决的问题。从方法角度讲，过去没有统计分析软件要完成预测

8、可以说是困难的，现在有了软件工具就方便多了。从技术角度讲：预测模型如果能够排除因为异常原因造成的时间点事件和时间段时间，就好了。例如某天停电没有开业，或者某一段时间比如发生甲型 H1NI 一周没有营业收入，这些事件必须能够告诉模型未来不会再发生了；当然，我们也要把未来会重复发生的干扰因素纳入模型，例如：我们学校某天要开运动会，小卖部的可乐销量一定提高，或者我们学校 7-8 月份放暑假，销量一定减少，像这样的时间点和时间段事件未来会重复出现，我们如果能够告诉模型，那么预测会更准确。当然如果我们建立的模型能够预测未来，并能够将未来可预见的事件，包括时间点和时间段干扰纳入预测是非常好的事情啦！

9、甚至，我们应该能够把预测模型中的，预测未来周期内的不可预见的时间点和时间段随时干预预测结果，这就需要考虑如何将预测模型导入生产经营分析系统了。下面的数据延续前两篇的案例，只是增加了自变量，（因为手头这个案例没有干预因素变量）在我们增加了 5 个自变量后，采用预测建模方法，选择专家建模器，但限制只在 ARIMA模型中选择。确定后，得到分析结果，我们现在来看一下与原来的模型有什么不同。从预测值看，比前一模型有了改进，至少这时候的模型捕捉了历史数据中的下降峰值，这可以认为是当前比较适合的拟合值了。如果我们观察预测结果，可以发现模型选择了两个预测变量。注意：使用专家建模器时，只有在自变量与因变量之间

10、具有统计显著性关系时才会包括自变量。如果选择ARIMA 模型，“变量”选项卡上指定的所有自变量（预测变量）都包括在该模型中，这点与使用专家建模器相反；当确定了最终选择的预测模型和方法后，我们就可以预测未来了，当然你要指定预测未来的时间点，这里我们时间包括年、季度和月份；假定我们预测未来半年的销售收入。我们分别设定：预测值输出，95%置信度的上下限。注意：SPSS 中文环境有个小 Bug，必须改一下名字！在选项中，选择你的预测时间，预测期将根据你事先定义的数据时间格式填写。（后面的模型为了让大家看清楚，实际上我预测了一年的数据，也就是 2010 年的 4 个季度的12 个月）。自变量的选择问题，

11、在预测未来半年的销售收入中，ARIMA 模型可以把其它预测变量纳入考虑，但如何确定未来这些预测变量的值呢？主要方法可以考虑：1）选择最末期数据；2）选择近三期数据的平均；3）选择近三期的移动平均这里我们选近三期移动平均作为预测自变量数值。上面就是预测结果！于此同时，SPSS 活动数据集中也存储了预测值！最后，我们要解决时间序列预测的检验和统计问题！说实在话，我比较关注偏好商业应用，就是看得见就做得到！从上面的分析，我们基本上就知道了哪种预测模型更好，也就不去较真只有专业统计学者才关心的统计和检验问题，把这些交给统计专家或学术研究吧！（如果你是写学术论文，就必须强调这一点了！）实际上我们可以通过

12、软件得到各种统计检验指标和统计检验图表！最后我们看一眼统计检验指标结果：大家可以把我们前面做的结果进行相互比较，或许你能够看出哪些指标更好，哪些指标该如何评测了！我看出来了，比如：Sig 值越大越好，平稳得 R 方也是越大越好吧！ Sig.列给出了 Ljung-Box 统计量的显著性值，该检验是对模型中残差错误的随机检验；表示指定的模型是否正确。显著性值小于 0.05 表示残差误差不是随机的，则意味着所观测的序列中存在模型无法解释的结构。平稳的 R 方：显示固定的 R 平方值。此统计量是序列中由模型解释的总变异所占比例的估计值。该值越高（最大值为 1.0），则模型拟合会越好。检查模型残差的

13、自相关函数 (ACF) 和偏自相关函数 (PACF) 的值比只查看拟合优度统计量能更多地从量化角度来了解模型。合理指定的时间模型将捕获所有非随机的变异，其中包括季节性、趋势、循环周期以及其他重要的因素。如果是这种情况，则任何误差都不会随着时间的推移与其自身相关联（自关联）。这两个自相关函数中的显著结构都可以表明基础模型不完整。如果你一定要理解 RMSE 或者 MAE 等统计检验量，只好找来教科书好好学习了！我想，等我要写教科书的时候，一定会告诉大家如何检验这些统计量，并给出各种计算公式！但我的学生或读者大部分是文科或企业经营分析人员，讲这些东西他们都会跑了！大家不要忘了，SPSS 时间序列预测

14、模块还包含模型应用，也就是可以把预测模型转存为 XML 模型文件，以后预测的时候就可以不用原始数据了！我记得早期 SPSS 公司推出时间序列预测模型软件 DecisionTime & What-if，非常好用，而且还可以进行更为细致的分析，甚至结果输出都是自动报告！当然，我找机会用 PASW Modeler 13 操作一次上述时间序列预测建模过程，也就是数据挖掘工具中的时间序列预测方法，会更方便、更简单、更好部署！备注：PASW Modeler 13 就是 SPSS 公司的 Clementine 13.0 版本！博易智讯的马博士说：SPSS 公司已经把 SPSS 软件改名叫 PASW Stat

15、istics，Clementine 叫 PASW Modeler。自变量的选择问题，在预测未来半年的销售收入中，ARIMA 模型可以把其它预测变量纳入考虑，但如何确定未来这些预测变量的值呢？主要方法可以考虑：1）选择最末期数据；2）选择近三期数据的平均；3 ）选择近三期的移动平均这里我们选近三期移动平均作为预测自变量数值。请问沈浩老师，以上这一段话怎么操作啊？在哪里选择这 3 种方法来确定未来的自变量的值啊？我试过手工输入未来的自变量值，可以做出预测，但是我想模型应该可以自动生成这些未来自变量的值，我找了很久都没有找着，请赐教！非常感谢！另外，有一个问题我一直没有想得很明白，想请教一下。多元

16、回归分析做的预测和时间序列分析做的预测，使用条件和最大的区别是什么啊？如果数据是按时间走的，是不是就不适合用多元回归分析做预测呢？如果您能回复，我将感到万分荣幸。SPSS 软件里面自变量取值一般是 0-1；真实的干扰需要采用 Clementine 软件就有这个自动添加方式了，抱歉我没有说清楚！2）时间序列数据，自变量是相关的，当然不适合简单的线性回归分析！如何设计 KPI 指标关键绩效指标标签： KPI 商业智能研究方法分类： Dashboard 仪表盘 2010-07-18 23:15KPI：关键绩效指标，今年来企业一直关注这个问题，甚至有些公司，比如电信行业员工整天都围绕着 KPI

17、指标，什么是 KPI 呢？关键绩效指标即以定量的指标衡量经营活动的量化结果，一般由客观计算公式得出，并侧重考察当期绩效，最终成果以及对经营成果有直接控制力的工作；关键绩效指标设定的原则应该依据“平衡计分卡”进行设定，根据企业整体绩效目标及战略，层层分解，平衡考虑制定企业各层级的关键绩效指标。关键绩效指标已经成为商业智能领域的重要体系和方法论，如何从技术上实现 KPI 指标设计，以及如何采用信息化手段能够呈现绩效指标，并实施管理和监控，成为构建商业智能系统和经营分析系统的关键内容；设计关键绩效指标的关键因素主要包括：一致性：保持与战略和目标一致；所属性：应归属个人或各团队拥有，并对其结果

18、负责；预测性： KPI 是衡量企业价值的推动者，期望绩效的领先绩效指标；行动性： KPI 具有及时行动数据，用户可及时采取干预，提供绩效；数量少：让用户集中在几个重要价值的指标任务上；简单性：不要涉及复杂的指数，导致用户难直接施加影响；平衡性： KPI 之间保持平衡并相互支持，不仅仅对局部优化流程；触发变化：能触发一系列变化，尤其是高管进行监控；标准化：基于标准化定义、规则和计算方法，实现数据和仪表盘整合；背景驱动：KPI 将绩效置于一定背景下，通过对象和阶段进行衡量；激励性：薪酬与 KPI 关联，在稳定期可提升影响力；相关性：进行定期评估及时更新；设计关键绩效指

19、标的 SMART 原则是：根据经验，在设计关键业绩指标的时候必须遵循 SMART 原则，这五个字母分别代表一个具体的含义： S:业绩考核指标必须是具体和明确的，指标设计应当细化到具体内容，符合企业和团队主导业绩目标，保证明确的导向性。 M:业绩考核指标应当是容易衡量的，工作业绩成果应体现为可以量化的指标。 A:业绩考核指标应当是可以达到的，在保证一定挑战性的基础上，指标应当是员工在现有资源下经过努力可以实现的目标。 R:指业绩考核指标应当具有相关性，必须和企业的战略目标、部门的职能及岗位职责紧密联系。 T:业绩考核指标应当是有明确的时间要求，关注工作完成的效率。有关样本量代表性问题的解释大部

20、分从事调查研究的朋友，都会碰到“多大样本量”才用代表性问题，其实这个问题不光研究人员会困惑，企业也非常困惑。那到底应该如何选择样本量呢？其实今天沈老师不是要回答这个问题，而是帮助你：如何解释这样一个样本量是恰当或合适的，既满足统计要求，也能考虑费用和可操作性！1. 样本量的确定是费用与精度的函数，取决于研究的精度和费用，特别是实践中费用考虑的更多！ 2. 抽样调查，特别是随机抽样，样本有代表性，往往比普查更有效率，甚至精度更高，这里我们主要计算和讨论抽样误差，非抽样误差是人为因素，考质量控制； 3. 样本量的确定有赖于随机抽样，或者说主要是针对随机抽样，需要统计推断下的计算样本量，如果是非概率

21、抽样，理论上没有计算和控制样本量的问题； 4. 如果研究只要 40-50 个样本，感觉上应该是非概率抽样（依赖被访者选择方式） 5. 即使是非概率抽样，我们很多时候也采用概率和统计分析及推断思想来进行数据分析和下结论！只是这种方法没有完善的理论支持，或者说有可能因为研究者的主观判断失误造成偏差； 6. 无论是概率抽样还是非概率抽样，样本量越大当然效果越好，结论越稳定（理论上说） 7. 40-50 个样本在统计上属于小样本，t-检验，如果样本大于 60 或理想 120 以上，t 分布就是正态分布了，所以 40 个样本在统计上是最小推断总体的样本，换句话说 40-50 个样本是介于小样本和正态分布

22、大样本的临界样本量；如果不严格的话40 个样本就可以比较总体之间的统计差异了； 8. 所以，一般来讲，针对一个研究对象和人群，要进行比较最少 40 个样本，比如男女差异，应该各拥有 40 人（80 人），或者说你们进行配额样本的时候要保证统计比较的类别至少有 40 个样本； 9. 那么 40 个样本有代表性吗？当然越多越好，越有代表性 10.但如果调查对象非常一致，没有差异，只要问一个人就行了，所以要考虑研究对象的差异性，如果差异大，当然样本量要大，如果没有差异，同质性较高样本量就少；11.总体的大小对样本量的选择没有影响，调查研究一般必须在研究前明确总体是谁，大总体没有影响（上万人），中等

23、总体有点影响（5000 人），小总体有很大影响（千百个人）；总体是你要推断的人群； 12.再者要考虑研究对象在总体中拥有的比例（比如要找艾滋病人），如果比例非常低的话，需要大样本才能找到；但往往商业研究就采用非概率抽样了，比如滚雪球抽样，专家判断抽样，配额抽样等； 13.另外，选择 40 个人，如果是经过我们主观判断的，有一种说法：叫条件概率，也就是我们越了解研究目的和对象，我们就越能够做出正确判断；比如 P（A|B），也就是说我们越了解 B 事件发生的概率，那么 A 发生的概率就越确定；就像我们在 Google 中搜东西，你的关键词=B 越准确，得到的结果 A 就越是你想要的东西；14.当然

24、，如果你的主观判断错了，就会犯更大的错误 15.还有就是希望得到的精度；如果得到的结果是 70%加减 10%误差我们可以接受，但如果是总体本身就不到 8%，那 8%加减 10%，尾巴比头都大显然不行，当然到底如何确定精度，是研究前你们与客户要明确的，事先研究设计确定的，不能事后来说； 16.记住：有时候我们研究本身不需要那么高的精度 17.整个研究设计过程的质量控制可以更有效提升研究品质 18.研究测试的技术（接近自然科学仪器测量）可获得更好研究品质 19.根据精确的抽样，需要采用精确的统计分析，否则也达不到效果 20.任何研究都不会完美，都是权衡和保守的过程，总的来讲保守不犯错 21.如果研

25、究有实验设计和研究设计，所以实验设计，包括所谓双盲实验、正交设计、拉丁方格等，确定样本分组是非常精细的，有助于研究品质；但设计缺陷会造成降低品质； 22.处置组和对照组的设计，主要应用在传播效果、广告效果研究上，需要有设计原则 23.实验设计也强调对其它影响因素的控制，也就是 X 对 Y 的影响，要控制住 Z 的干扰，更能提高研究品质 24.被访者的参与度（你的激励方式）也重要，一分钱一分货；我们是花钱买信息 25.任何理由都是可解释的，但这里主要是要用术语，越专业越说行话，别人更相信，所以解释样本量的科学性，有时候要用科学，也就是理论； 26.因为有理论，显得有水平，因为有水平就有话语权，就

26、有执行力！所以权威部门的设计或出面，客户就相信了！ 27.研究过程，不断修正，比如追加样本也是解决问题的办法 28.连续性研究，也会解决或减少对样本量的需求 29.广告效果研究经常采用 rolling data 的方式，因为广告效果有延迟效应，每周 50个样本，4 周一个分析，就是 200 样本，第五周分析前 4 周，第六周分析 2-5 周数据，进行比较和检验，这是常有方法；如何在 Excel 里实现一张图显示多系列直方图我们在分析的时候，经常需要设计模拟器，特别是在结合分析和离散选择模型中，通过模拟分析市场份额进行测算！当然，有时候我们特别希望根据不同的选择显示不同的数据结果，特别是图表结

27、果！例如：下面是在模拟某个汽车品牌市场竞争环境的效用值分析用到的方法，通过选择不同的属性，可以在统一视图下看到各个属性的水平效用值！首先我们假设有这样一个结合分析需求（Conjoint Analysis）：通过市场调查和结合分析得到某个类别的特定效用值：现在我们需要采用直方图（条形图）方式给出效用值图，但是如果能够整合在一起，用一张图表述就非常方便啦！有没有解决方法呢？其实，只要我们把这组数据进行重新排列和组合，让后利用 Vlookup 函数，就可以方便实现！首先，我们把数据重新组合排列：注意：因为不同属性的水平不同，也就意味着不同直方图系列长度不一，我们需要恰当分配和布局然后，在蓝色单元格里

28、分别写 Vlookup 函数语句红色单元格，主要目的是把 0 值转换成空格，=IF(单元格=0,“,该单元格)接下来，针对红色单元格，画直方图，Lable 用前半部分，数值取后半部分，图标用最后一列！（这要求大家在画图的时候，能够细致调整具体内部和格式）最后，大家设计一个单选按钮选择，从视图窗体工具栏（单选按钮），将单选按钮的链接单元格设定为 A1，上图左上角黑色的位置！这样就可以得到统一视图下的选择图了！数据可视化的艺术用图表吸引目光（四）Excel 金字塔图数据可视化的艺术用图表吸引目光（四）Excel 金字塔图标签：数据可视化 Excel 单元格格式金字塔图表 2010-05-

29、22 19:59这次介绍一个 Excel 的小技巧，关于单元格格式中【数字】这一项的设定。请看上图所示的金字塔图，有没有发现问题？比如下图按照常规的作图方式，图中突出的两个地方的数字应该是“-9508”和“-15000”。但是在表示人口数量的时候使用负数显然是不合适的。因此我们可以想个办法将 Excel 中的图标转换成 y 轴左右都是正数的形式。调查数据的加权处理技术很多人在进行统计分析和市场研究的时候，都涉及到对数据进行加权的问题，这是一个搞数据分析和从事市场研究的人都会碰到的问题，需要大家正确理解并解释，并采用合理的操作技术和处理方法。什么是加权呢？简单地说，就是要 “让一些人变得比另一

30、些人更重要！”要能够比较好的理解加权，首先你要了解抽样设计，特别是设计权数：每个样本单位所代表的被调查总体的单位数。设计权数由抽样设计决定,用 Wd 表示。设计权数 Wd=1/入样概率；入样概率：在抽样设计中，如果一个样本的入样概率=1/50，那么该样本的设计权数=50。也就是说，这个样本代表了总体中的 50 个单位。关于自加权抽样设计：如果所用样本的设计权数是相等的，那么这样的抽样设计是自加权的。也就是说，总体中的每个单元被抽中的可能性相等，具有等可能性、具有相等的入样概率。如果是自加权的，在总体均值、比例估计时不用考虑设计权数，对总量的估计只要扩大样本。满足自加权的抽样设计：等概率抽样、

31、简单随机抽样、系统抽样、分层抽样各层大小成比例，每层内简单随机抽样、多阶段抽样最后阶段等概率，其它阶段与单位大小成比例概率抽样。不等概率抽样往往不满足自加权，对于不等概率抽样，正确使用设计权数就尤为重要了！下面我们看看如何进行加权处理！加权：通过对总体中的各个样本设置不同的数值系数(即加权因子-权重) ，使样本呈现希望的相对重要性程度；基本加权等于：设计加权=某个变量或指标的期望比例/ 该变量或指标的实际比例；什么情况下要进行加权？情景 1：我们在抽样调查得到的样本结构与总体人口统计结构状况不相符，我们可以通过加权来消除/还原这种结构差异，达到纠偏的目的；例如，在城市和农村各调查 300 样

32、本，城市与农村人口比例“城市:农村=1:2”( 假设)，在分析时我们希望将城市和农场看作一个整体，这时候我们就可以赋予农村样本一个 2 倍于城市样本的权重；情景 2：除了人口统计结构，有时候我们在调查样本的某些变量或指标上样本的代表性可能也会相对总体的实际状况过高/过低，此时，需要加权进行调整；这类不匹配大多是我们“故意”而为(通过“追加”样本实现)，比如在配额抽样的时候，设置配额要求某类被访者对某产品的使用者必须达到 50%，但实际情况是总体市场中实际使用者仅有 10%；有时，则是“非情愿”的出现，比如设置了能反映总体的配额比例，但实际操作却出现了比例偏高/偏低；情景 3：在样本组配额实验

33、设计中，进行不同子总体对比检验，也会通过加权来调整不同组间的样本属性不相匹配的情形(通常设有相同的配额，但执行有可能会出现差异)；通常，加权对结果产生的差异很小，更多的是对结果从准确度上进行修饰；情景 4：所测试样本出现了较多的缺失值，需要加权来纠正结果；对于面向特定客户的专项研究，在调查前基本都协议有要完成的样本量，故这种情形较少；加权方法：采用因子加权：对满足特定变量或指标的所有样本赋予一个权重，通常用于提高样本中具有某种特性的被访者的重要性；例如，研究一种香烟的口味是否需要改变，那么不同程度吸食者的观点也应该有不同的重要性对待：例如：重度吸食者=3，经常吸食者=2，偶尔/ 不抽烟 =1

34、，记住：实际应用时候，如果 “经常/偶尔”的基数足够大，往往单独分析，不进行加权处理；采用目标加权：对某一特定样本组赋权，以达到们预期的特定目标；例如：我们想要：品牌 A 的 20%使用者 = 品牌 B 的 50%使用者；或者品牌 A 的 20%使用者 = 使用品牌 A 的 80%非使用者；采用轮廓加权：多因素加权，因子/目标加权不同( 一维的) ，轮廓加权应用于对调查样本相互关系不明确的多个属性加权；面对多个需要赋权的属性，轮廓加权过程应该同时进行，以尽可能少的对变量产生扭曲；我们应该知道，无论加权的动机是什么，但操作过程是一样的：1. 依不同属性变量/指标将样本分为多个组( 加权组)，

35、然后根据所希望各个组代表的个体规模赋予不同的权重；即明确分析子集/样本组，通常，经常以人口结构变量、地域变量作为分类指标；明确各个分析子集/样本组中个体的代表性强弱(权重) ； 2. 加权是在数据收集结束后采取的数据“纠偏”行为，但一定要清醒的知道：配额设置不合适、FW 执行差或其他错误而造成的 “不好”的原始数据收集，即使加权也一定是“无效的”； 3. “提前避免错误/失误发生，总好过事后的任何补救！”事后加权案例：例如：我们为了研究，得到某小公司职员吸烟习惯的信息，进行了一项调查。从 N=78 个人的目录中抽出了一个 n=25 人的简单随机样本。在调查的设计阶段，并没有可用于分层的辅助信息。在收集关于吸烟习惯的信息的同时，还收集了每个回答者的年龄和性别情况。总共有 nr=15 个人作出了回答。由此得到样本数据的下列分布：假设我们估计知道某公司约有 16 个男性职员和 62 个女性职员，而且男女的吸烟比例不同。经过加权后我们得到该公司吸烟的比例估计在 53%；我们总是希望调查所得的估计值与已知的男性和女性数量比例相一致，当我们认为一个人是否吸烟与他的性别之间可能存在相关性，因此他们认为，使用事后分层能够提高估计的精度。然而实际上，如果在调查的设计阶段就已经获得这些信息的话，就可以用性别来进行分层。经过事后加权处理后，我们得到的该公司吸烟者比例为 45%。也就是经过权重修订后的

展开阅读全文