1、DATA收集计划,方法论,Analyze 概要 DATA收集计划 Graph分析 假设检定概要 平均的检定,分散的检定 比率的检定 相关及回归分析,DATA收集计划,学习目标理解DATA收集计划的概念 理解DATA收集方法及步骤理解抽样(Sample)方法,DATA收集计划, 目的 为了确认CTQ,从VOC收集计划开始、 MSA 、一次作成工程能力分析,在A阶段里为了确认输出变量Y和输入变量X的关系而作成. 适用可能的工具 DATA收集计划 抽样方法,DATA收集计划,对情报的需求,分析,DATA,提问,结果导出,DATA收集计划,回答的提问是什么? 怎么找出对提问的答案以及怎么表现? 使用什
2、么样的DATA分析工具?使用这些工具来回答,需要什么种类的DATA? 这个DATA在什么样的Process中可以得到?能给这个DATA的人是谁? 以最小的努力减少好几个可能性,如何收集资料?,DATA收集方法,1. 构成好的提问 2. 选定确切的DATA分析技法 3. 决定测定方法 4. 定义DATA收集Point 5. 选定没有偏向的DATA收集员,确认他们的兴趣 后教育 6. 利用DATA收集样式计划和检定 7. 检讨DATA收集过程,并确认其结果, 第一阶段 : 构成好的提问 构成正确的提问是核心,成功数据收集的第一阶段。 - 为得到好情报的提问应该是焦点明确而具体. - 明确显示我们找
3、的情报,给予用那情报和结果执行什么 的信赖,让别人帮助我们就很容易.,DATA收集Process, 第二阶段: 选定确切的DATA分析记法 - 很不幸在很多情况因DATA不适合,只能重新收集DATA. - 更糟的时候,面对根据不充分的DATA决定意见的困难. - 收集DATA前,一但深思熟虑几分种就可以避免这种困难.,样品抽出是如下的Process. 收集可用DATA的一部分. 使用样品DATA导出结论.,对母集团信用卡帐户的 书面调查件数(N=5,000),平均解决时间 (m)?,样品n=100 任意选择的调查件数,平均解决时间 (X) = 1.2 日,统计性推论, 第三阶段: 决定测定方法
4、 - 母集团或样品,DATA收集Process,要收集所有的DATA因时间太长而会发生DATA收集上的失误. 抽出母集团中一部分样品,以少的费用得出更好的结果.,抽样, 好的样品应具备的条件,- 抽样是使用少量的DATA也能得到好的答案. - 样品对得出母集团及 Process的情报有帮助. - 能代表研究对象的母集团或Process选择样品. - 现实性问题重要. (费用, 资源等), 抽样简要,有偏向(Bias)的抽样, 偏向的种类:, 排除: 调查中的Process范围的一部分被排除. 认知: DATA收集要员的态度和信念会影响他们所看的看法和记录. 交互作用: DATA收集过程本身会影
5、响研究对象Process. 运用上: 不按标准步骤的情况就是最常见的运用上的偏向. 无应答: 缺测DATA会产生偏向的结果,DATA漏掉的事实是暗示 与其它DATA以任何方式都不同的线索. 推定: 统计处理收集的DATA时使用的公式及方法, 可能与特定种类的偏向有关联.,抽样信赖区间,通过测定对全部5,000件不满事项的解决时间,算出“真正的”平均解决时间.,母集团信用卡关联 顾客的不满事项接收 (N=5,000),样品n=100 任意选择的不满事项,例: 对顾客不满事项的平均解决时间?,取代表样品,可以推定平均解决时间.,或者,实际母集团的平均和从样品推定的平均值之间有差吗?,信赖区间意味着
6、, 知母数真值的区间推定区间.,母集团“真” 平均N=5,000,从母集团抽出的样品 (样品的大小 n=100)样品 1的平均样品 2的平均 样品 K的平均, 母集团的“真”平均值和从样品推定的平均值之间有差异.,抽样信赖区间,单纯任意抽样: 构成母集团的各个因子被选样品的概率是一样. 2. 层别任意抽样: 把母集团区分几个同质的层后,在各层按单纯 任意抽样抽出样品.3. 群别任意抽样: 把母集团分为多数集团后, 对按抽样单位选择的群体进行全数调查. 4. 系统任意抽样: 时间上或空间上隔一定间隔抽出样品.,抽样方法,母集团,XXXXXOXXXXXXOXXXXOXXXXOXXXXXXXXXXX
7、XXOXXX,OOOOO,样品,说明,各单位(“O”)被包括样品的概率相同.,单纯任意抽样,层别任意抽样,L,MMMM,SS,层,单位,大,中,小,LLLLL,MMM,MMM,MMM,MMM,SSSS,SSSS,SS,层别的范畴或Group 内的任意样品. 各Group的样品大小 一般和其Group的相对 大小成比例.,母集团,样品,说明,其它抽样方法, 不符合统计学的原则,但经常使用的惯例 固定百分率抽样 : 与“经常取10%样品”同样的 “大概判断法” 。 结果为小的母集团总是选择太小的样品,大的母集团 总是选择太大的样品。 判断抽样 : 让DATA收集要员凭自己的判断选定X 个 “代表性
8、” 样品,就能拿到不偏向的样品。 块抽样 仅凭项目便利集合的理由来选定样品,其结果会产生样品的 偏向和非代表性。 举个例子如下: “从v文件抽出D姓人们的订购记录。”,DATA收集Process, 第4阶段 : 定义DATA收集Point 理想的想法,我们要在尽可能不防碍Process作业工序的范围内 收集所有的DATA。可这比预想不容易。, 第5阶段: 选定没有偏向的DATA收集员, 确认他们的兴趣,并教育. 谁来收集DATA,这个问题很重要. DATA收集员应该是最容易,最快地接近相关事实的人. 例) 1920年代和1930年代: “Hawthorne 实验” - 劳动生产性和工厂内照明的
9、关系分析, 第6阶段 : 设计DATA的收集样式和指南后进行Test. DATA的记录应容易做. KISS 原则 (Keep It Simple, Stupid) 样式是从DATA的记录或解释中不会有失误的可能性而设计. 样式应包括未来的分析、参照及为了再确认的追加情报. 样式应最大限度明确. Check Sheet或Data Sheet应显示有专业性. 用手制作,线不规则,字写的乱, 还有如果给人不认真作成的感觉, 那么容易让收集Data的人不注意.,DATA收集Process, 第6阶段 : 设计DATA的收集样式和指南, 必须进行Test 计划很认真,但是在DATA收集过程中仍有可能发生
10、预想不到的问题. 最常出现的问题如下.对如何作成 DATA收集样式的错误理解而引起的失误.设计样式的人没理解与Process相关的所有变量, 发现收集 追加情报的必要性.问题发生的状况下,很难输入DATA,所以收集不完全的DATA.把DATA记录在样式的人,怕收录情报对他们有坏的影响而犹豫, 因此产生的不完全或有偏向的DATA.,DATA收集Process, 第7阶段: 检讨DATA收集过程, 确认其结果. 检讨完成的样式,观察收集过程等,有必要对于DATA收集Process全面的显示.DATA收集员中有一部分理解错误时,应立即进行再教育. * 有必要使用已收集的Raw Data,或利用新收集的Data时, 必须明确地表示Data收集位置、作成者、期间、 Data数 等Source *,DATA收集Process,