1、大数据技术及数据分析,主讲人:师伟,2,课程收益,学习数理统计的理念 熟悉常见的处理套路 掌握常用软件的使用 解决学员的具体问题,3,目录,数理统计常识 数理统计技术,4,目录,数理统计常识 量化的重要性 统计基础知识 数据挖掘简介 数理统计技术,5,案例,6,案例,记者 在短时间内发生这么多起跳楼的事件,如果站在理论 角度上,发生率算不算高? 樊富珉 按卫生部统计,目前中国自杀率大概是十万分之十六 左右。而富士康40多万人,约十万分之二三左右,大 学生我们也做过统计,大概十万分之二到三左右。如 果从全国的自杀率来比的话,应该还是低的,7,案例,世界银行发展委员会25日通过了发达国家向发展中国
2、家转移投票权的改革方案,这一改革从一个侧面反映了世界经济版图的变化 本次改革中,发达国家向发展中国家共转移了3.13个百分点的投票权。中国在世行的投票权从目前的2.77%提高到4.42%,成为世界银行第三大股东国,仅次于美国和日本 世界银行规则:任何重要的决议必须由85%以上的表决权决定,8,案例,在一次海难中,统计数据为 头等舱乘客319人,200人幸存 二等舱乘客269人,117人幸存 三等舱乘客699人,172人幸存 从以上数据你可以发现什么?,9,目录,数理统计常识 量化的重要性 统计基础知识 数据挖掘简介 数理统计技术,10,误差(波动),偶然误差 可减小但不可消除 系统误差 可消除
3、,11,抽样,12,连续数据和离散数据,连续数据 定量 信息含量大 离散数据 定性 信息含量小,13,判断数据属性,销售订单准确度 数据输入准确度 销售地区 用通规测量得到的孔径 用卡尺测量得到的孔径 客户热线对话时间 空调制冷剂的重量 一批顾客中不满意的人数 一批顾客中不满意的比例,14,数据的居中程度和离散程度,主要的居中指标 平均值 数据集的平均值 中位数 数据排序后得到的中间数 众数 数据集中最频繁出现的值 主要的离散指标 极差 数据集中最大值与最小值的差值 方差 与平均值间距的平方和的平均值 标准偏差 方差的平方根,15,正态曲线,大多数(但不是所有)数据符合正态分布,16,目录,数
4、理统计常识 量化的重要性 统计基础知识 数据挖掘简介 数理统计技术,17,数据挖掘简介,数据挖掘(Data Mining)的概念 从数据库数据中揭示出隐含的、未知的并有潜在价值的信息 决策支持,基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助做出正确的决策,18,数据挖掘主要动作,分类 估值 预测 关联 聚集 可视化描述,19,案例,第一次战役 1950年10月26日 1950年11月02日 第二次战役 1950年11月25日 1950年12月02日 第三次战役 1950年12月31日 1951年01月08
5、日,20,案例,丰田大规模召回事件引起全球强烈反响,引发丰田信誉危机,21,目录,数理统计常识 数理统计技术 基础动作 图表操作 典型工具和应用,22,基础动作,搜集 整理 分析 评估 展示,23,目录,数理统计常识 数理统计技术 基础动作 图表操作 典型工具和应用,24,图表类型,数字型 逻辑型,25,图表的注意事项,选取适当的图表类型 数量图表应写清单位 引用资料应说明出处 不要妄图表达过多的信息 图例一般控制在五个以下 尽量简单明了、利于理解,26,动态图表,27,报告制作原则,提案型报告 说明型报告,28,文档制作原则,逻辑清晰 方案多选 文字精炼 内容可视 恰当修饰 体积小巧 制作迅
6、速,29,报告的需求管理,报告的客户 谁在看报告? 希望看什么? 希望的频率? 希望的详略?,相关的技巧 买点和卖点 金字塔原理,30,报告的素材准则,中肯 可比 准确 时效 可靠 清晰,31,素材组织的FAB技巧,Feature 特点 Advantage 优点 Benefit 利益,Benefit,Advantage,Feature,32,目录,数理统计常识 数理统计技术 基础动作 图表操作 典型工具和应用,33,规范处理数据和数据有效性,数据处理的良好习惯 Excel数据有效性,34,层别法、聚类和表格维度,层别法、聚类 一维表和二维表,35,数据透视表,36,将数据按顺序等距分组,体现各
7、组内频数的柱状图 轮廓符合正态分布曲线说明处于稳定状态 通过异常轮廓形状分析可定位异常的原因,直方图,37,案例,174 185 189 196 208 190 178 184 190 205 184 185 194 191,205 205 207 207 207 206 210 209 217 214 214 206 209 210,38,表现各项目频度降序排列及累积比例 二八原则 大问题优先,柏拉图,39,ABC分析法,A类 070%,主要影响因素 B类 7090%,次要影响因素 C类 90100%,一般影响因素,ABC的划分不是绝对的,40,练习,张女士结婚五年以来与丈夫发生纠纷如下 不
8、做家务 28次 深夜不归 5次 不良嗜好 5次 没送礼物 1次 胡乱花钱 3次 婆媳关系 50次 异性交往 8次 请制作柏拉图并用ABC法分析,41,散布图、关联规则和预测,研究两个特性之的内在关系 坐标轴分别表示结果特性和原因特性 使得解决问题时找出强相关的原因,42,常见类型,散布图,正相关强 X的增加导致Y的明显增加,正相关弱 X的增加导致Y的略微增加,43,常见类型,负相关强 X的增加导致Y的明显减少,负相关弱 X的增加导致Y的略微减少,散布图,44,常见类型,散布图,无相关 Y的变化与X的变化毫无关系,曲线关系 X与Y之间无线性关系但符合某种曲线变化规律,45,预测,Forecast法 趋势线法,46,单变量求解,47,规划求解,48,矩阵数据分析法,矩阵数据分析法(Matrix Data Analysis Chart) 用于排定优先级、做多目标决策 量化表示各元素的关系,更准确地整理和分析结果,49,案例,50,练习,51,中兴通讯管理体系总监 中兴通讯最佳兼职讲师 中兴通讯学院资深讲师 中兴通讯学院质量课程经理 深圳质量协会十大金牌讲师 中国质量协会第六届学术教育委员会委员,JOLIES,AISA TOUR,PPT制作:by小鱼,扫 一 扫 师 伟 老 师 公 众 号,