收藏 分享(赏)

探索性数据分析2.ppt

上传人:精品资料 文档编号:10425581 上传时间:2019-11-10 格式:PPT 页数:32 大小:329.50KB
下载 相关 举报
探索性数据分析2.ppt_第1页
第1页 / 共32页
探索性数据分析2.ppt_第2页
第2页 / 共32页
探索性数据分析2.ppt_第3页
第3页 / 共32页
探索性数据分析2.ppt_第4页
第4页 / 共32页
探索性数据分析2.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、探索性数据分析2,SPLUS培训 2006.7 主讲人:杨晋浩,探索性数据分析,描述性统计量及其应用 借助图形的数据探索 分类变量的描述及应用 异常点和缺失数据 统计检验及应用,分类变量的描述及应用,规范化问题 数据概化 交叉表 信息提升,分类变量的描述及应用,上海股市03年5月14日部分交易数据。包括:证券代码,价格,省份,股本类别和涨幅。其中股本类别划分:以1亿、10亿为界,分为大盘2,中盘1,小盘0。 两个分类数据SF,gblb,分类变量的概述(部分),* Summary Statistics for data in: s030514 *$“Factor Summaries“:SF gb

2、lb 260262273325312241: 5 0: 70 261261276251: 1 1:112 261261276251312320:21 2: 8 270243275250: 1 270243275250312241: 7 270312313340312241: 2 271343266253312241: 5 271363326335312241: 2 272243304317: 1 272243304317312241: 1 272323261261312241: 5 272323304317312241: 7 272332301372275255: 2 272332301372

3、275255312241: 7,数值变量概述,$“Numeric Summaries“:zxj syl Min: 3.270000 -0.028000001st Qu.: 6.692500 0.01100000Mean: 9.090158 0.02343684Median: 8.170000 0.021000003rd Qu.: 10.677500 0.03200000Max: 25.000000 0.09500000Total N: 190.000000 190.00000000NAs : 0.000000 0.00000000 Std Dev.: 3.572815 0.02055535 S

4、kewness: 1.477810 0.92983780 Kurtosis: 2.930287 1.98474038,分类数据规范化,比较人工分类和自然分类 人工:规范,一致 自然:“上海”和“上海市”应该有相同的值。类似情况还有很多。 数据规范化问题:数据集成,数据仓库,分类数据规范化处理, s514 s514,3-substring(s030514,3,1,4),数据概化:生成人工分类,把股票按价格分为高、中、低三类: 即15元高, s514c s514c,2s514c,2 s514c,2s514c,25 & s514c,2 s514c,2s514c,25 & s514c,215-1 然后

5、将zxj数据类型变为factor 注意:执行顺序的影响。,数据概化:生成人工分类,交叉表, crosstabs( zxj + gblb, data = s514c, subset = syl 0.02) 接分类因素表,如果大于3项,则输出分页交叉表。 Data指定数据对象 Subset指定筛选条件,交叉表,Call: crosstabs(formula = zxj + gblb, data = s514c, subset = syl 0.02) 96 cases in table +-+ |N | |N/RowTotal| |N/ColTotal| |N/Total | +-+,交叉表,zxj

6、 |gblb|0 |1 |2 |RowTotl| -+-+-+-+-+ -1 | 0 | 5 | 2 |7 |0 |0.71 |0.29 |0.073|0 |0.086 |0.5 | |0 |0.052 |0.021 | | -+-+-+-+-+ 0 |34 |53 | 1 |88 |0.39 |0.6 |0.011 |0.92 |1 |0.91 |0.25 | |0.35 |0.55 |0.01 | | -+-+-+-+-+ 1 | 0 | 0 | 1 |1 |0 |0 |1 |0.01 |0 |0 |0.25 | |0 |0 |0.01 | | -+-+-+-+-+ ColTotl|34

7、|58 |4 |96 |0.35 |0.6 |0.042 | | -+-+-+-+-+,信息提升,例中总样本数190,涨幅0.02样本数90,占总数比例9/19(随机购买盈利概率)。 选择低价股,成功概率可提高到0.71. 选择中盘股,可提高到0.91 注1:上面的概化分界点的选取有点随意,一般要考虑划分后各子集的实用和均衡。 注2:方法的适用范围极广,如税务、银行卡欺诈等等。,多维分类数据分析简介,决策树技术信息量优先:信息熵,gini系数 多维数据集(CUBE)技术层次化维度结构,可加性,预处理,联机分析处理,探索性数据分析,描述性统计量及其应用 借助图形的数据探索 分类变量的描述及应用

8、异常点和缺失数据 统计检验及应用,异常点和缺失数据,异常点分析实例 异常点定位 缺失数据定位 缺失数据处理,异常点分析实例1,某咨询机构提供的04年上证上市公司股本数据。 有明显的缺失数据,异常点分析实例1, plot(sgb04,2) 散点图中有明显的异常大的值 m m 1 1.4e+012 rec=sgb04sgb04,2=m, 注意1:式中的“”,不能“” 注意2:数据中有缺失值,需排除,用“na.rm=T”选项,两个语句的差异, t 1 1 2 3 4 5 2 t3 t3 1 2 t 1 1 2 3 4 5 2 t2 t2 1 2 2, m m 1 NA m m 1 1.4e+012,

9、异常点分析实例1, recGPDM ZGB RMBPTG NA NA NA NANA1 NA NA NAX13 600463 1.4e+012 4e+011NA2 NA NA NANA3 NA NA NANA4 NA NA NANA5 NA NA NANA6 NA NA NANA7 NA NA NANA8 NA NA NANA9 NA NA NA NA10 NA NA NA NA11 NA NA NA NA12 NA NA NA NA13 NA NA NA,将异常点定位在代码为600463的股票上,经查证,是操作员把单位搞错了:本该以万股为单位,本记录中成了以股为单位。,异常点分析实例2,股市

10、异常行情的描述之一:连续放量大涨(大跌) 需要建模 关键是处理好几个关键词的数学描述:连续,放量,大。,缺失数据定位实例,前面数据中的缺失数据常常会影响分析结果。下面语句提供了定位缺失数据的方法: recn=sgb04is.na(sgb04,2), 我们已经多次用到了这样的条件查找语句,和C等程序设计语言比较,大家会发现避免了不少循环! 下面是返回的部分结果, recnGPDM ZGB RMBPTG 7 600026 NA 35000000011 600015 NA 120000000066 600350 NA 50500000080 600900 NA NA 110 600000 NA 90

11、0000000 134 600000 NA 900000000 163 600548 NA 165000000 167 600104 NA 982799727 191 600019 NA 1877000000 226 600688 NA 720000000 264 600016 NA 1563055024 295 600871 NA 200000000 303 600030 NA 400000000 337 600377 NA 150000000 406 600188 NA 180000000 434 600005 NA 1896000000 497 600808 NA 600000000 5

12、36 600027 NA 0,缺失数据的处理,简单填补:上例 忽略:无能为力,基本不影响结果 一维数据:均值插补,回归模型 多维数据:更多的手段 随机插补,缺失数据的处理:推荐文章,统计与决策2005年第9期,P123125 一种选择性随机缺失数据的检验和插补方法 余 竞 (成都大学计算机科学技术系,成都610106) 摘要:无论是抽样调查还是资料收集得到的数据,其分布往往并非对所有维度都服从正态分布,数据缺失也经常是有选择性地缺失掉具有某种特征的数据。 本文率先提出了首先检验数据缺失是否存在导致分布偏性的选择性随机缺失机制,然后对导致分布系统偏差的缺失数据部分进行“补偏”插补。此后,对分布偏

13、性检验不显著的剩余部分缺失数据,再采用常规方法进行缺失数据的插补,从而完成对所有缺失数据的插补。 针对截面数据和混合数据(Panel Data),分别给出了分布偏性检验和补偏插补的统计算法,并用实际数据进行了验证。 关键词:缺失数据;选择性随机缺失;分布偏性检验;缺失数据插补,探索性数据分析,描述性统计量及其应用 借助图形的数据探索 分类变量的描述及应用 异常点和缺失数据 统计检验及应用,统计检验及应用,0304下学期的评教数据,均值809.41,标准差75.54,T检验结果, t.test(x34,3,mu=809.41,conf.level=0.95)One-sample t-Testdata: x34, 3 t = -0.0001, df = 241, p-value = 0.9999 alternative hypothesis: true mean is not equal to 809.41 95 percent confidence interval:799.8439 818.9750 sample estimates:mean of x 809.4095,练习,将s514中的zxj用上下侧4分位数为界,概化成高、中、低3类,与股本类别gblb一起作交叉表分析。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报