收藏 分享(赏)

R语言方法总结.doc

上传人:scg750829 文档编号:7126200 上传时间:2019-05-06 格式:DOC 页数:14 大小:360KB
下载 相关 举报
R语言方法总结.doc_第1页
第1页 / 共14页
R语言方法总结.doc_第2页
第2页 / 共14页
R语言方法总结.doc_第3页
第3页 / 共14页
R语言方法总结.doc_第4页
第4页 / 共14页
R语言方法总结.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、计算描述性统计量:1、summary():例: summary(mtcarsvars)summary()函数提供了最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计。2、apply()函数或 sapply()函数计算所选择的任意描述性统计量。mean、 sd、 var、 min、 max、 median、 length、 range和 quantile。函数 fivenum()可返回图基五数总括(Tukeys five-number summary,即最小值、下四分位数、中位数、上四分位数和最大值)。sapply()例: mystats 2 就表明存在多重共线性问题

2、vif例:vif(fit)sqrt(vif(fit) 2异常观测值1、outlierTest() :car 包 :求得最大标准化残差绝对值 Bonferroni 调整后的 p 值例:library(car)outlierTest(fit)高杠杆值点1、hat.plot() :观测点的帽子值大于帽子均值的 2 或 3 倍,即可以认定为高杠杆值点例:hat.plot - function(fit)p - length(coefficients(fit)n - length(fitted(fit)plot(hatvalues(fit), main = “Index Plot of Hat Value

3、s“)abline(h = c(2, 3) * p/n, col = “red“, lty = 2)identify(1:n, hatvalues(fit), names(hatvalues(fit)hat.plot(fit)强影响点 :Cooks D 值大于 4/(n-k -1),则表明它是强影响点,其中 n 为样本量大小, k 是预测变量数目。例:cutoff - 4/(nrow(states) - length(fit$coefficients) - 2)plot(fit, which = 4, cook.levels = cutoff)abline(h = cutoff, lty =

4、2, col = “red“)1、influencePlot():car 包: 离群点、杠杆值和强影响点的信息整合到一幅图形中例:influencePlot(fit, id.method = “identify“, main = “Influence Plot“, sub = “Circle size is proportial to Cooks Distance“)纵坐标超过+2 或小于2 的州可被认为是离群点,水平轴超过 0.2 或 0.3 的州有高杠杆值(通常为预测值的组合)。圆圈大小与影响成比例,圆圈很大的点可能是对模型参数的估计造成的不成比例影响的强影响点变量变换1、powerTra

5、nsform():car 包:函数通过 的最大似然估计来正态化变量 。x例:library(car)summary(powerTransform(states$Murder)2、boxTidwell():car 包:通过获得预测变量幂数的最大似然估计来改善线性关系例:library(car)boxTidwell(Murder Population + Illiteracy, data = states)模型比较1、anova():基础包:比较两个嵌套模型的拟合优度例:fit1 - lm(Murder Population + Illiteracy + Income + Frost, data

6、= states)fit2 - lm(Murder Population + Illiteracy, data = states)anova(fit2, fit1)2、AIC() :AIC 值越小的模型(可以不嵌套) 要优先选择,它说明模型用较少的参数获得了足够的拟合度。例:fit1 - lm(Murder Population + Illiteracy + Income + Frost, data = states)fit2 - lm(Murder Population + Illiteracy, data = states)AIC(fit1, fit2)变量选择1、stepAIC():MA

7、SS 包:逐步回归模型例:library(MASS)fit1 - lm(Murder Population + Illiteracy + Income + Frost, data = states)stepAIC(fit, direction = “backward“)2、regsubsets():leaps 包:全子集回归例:library(leaps)leaps - regsubsets(Murder Population + Illiteracy + Income + Frost, data = states, nbest = 4)plot(leaps, scale = “adjr2“)

8、交叉验证1、crossval() 函 数:bootstrap 包 :实 现 k 重 交 叉 验 证例:shrinkage - function(fit, k = 10) require(bootstrap)# define functionstheta.fit - function(x, y) lsfit(x, y)theta.predict - function(fit, x) cbind(1, x) %*% fit$coef# matrix of predictorsx - fit$model, 2:ncol(fit$model)# vector of predicted valuesy

9、- fit$model, 1results - crossval(x, y, theta.fit, theta.predict, ngroup = k)r2 - cor(y, fit$fitted.values)2r2cv - cor(y, results$cv.fit)2cat(“Original R-square =“, r2, “n“)cat(k, “Fold Cross-Validated R-square =“, r2cv, “n“)cat(“Change =“, r2 - r2cv, “n“)2、shrinkage():交叉验证 ;R 平方减少得越少,预测则越精确。例:fit -

10、lm(Murder Population + Income + Illiteracy + Frost, data = states)shrinkage(fit)相对重要性1、scale():将数据标准化为均值为 0、标准差为 1 的数据集,这样用 R 回归即可获得标准化的回归系数。注意, scale()函数返回的是一个矩阵,而 lm()函数要求一个数据框例:zstates - as.data.frame(scale(states)zfit - lm(Murder Population + Income + Illiteracy + Frost, data = zstates)coef(zfit

11、)2、relweights() :相对权重例:relweights - function(fit, .) R - cor(fit$model)nvar - ncol(R)rxx - R2:nvar, 2:nvarrxy - R2:nvar, 1svd - eigen(rxx)evec - svd$vectorsev - svd$valuesdelta - diag(sqrt(ev)# correlations between original predictors and new orthogonal variableslambda - evec %*% delta %*% t(evec)la

12、mbdasq - lambda2# regression coefficients of Y on orthogonal variablesbeta - solve(lambda) %*% rxyrsquare - colSums(beta2)rawwgt - lambdasq %*% beta2import - (rawwgt/rsquare) * 100lbls - names(fit$model2:nvar)rownames(import) - lblscolnames(import) - “Weights“# plot resultsbarplot(t(import), names.a

13、rg = lbls, ylab = “% of R-Square“, xlab = “Predictor Variables“, main = “Relative Importance of Predictor Variables“, sub = paste(“R-Square = “, round(rsquare, digits = 3), .)return(import)# using relweights()fit - lm(Murder Population + Illiteracy + Income + Frost, data = states)relweights(fit, col

14、 = “lightgrey“)方差分析1、aov() =lm()单因素方差分析2、plotmeans(): 绘制带置信区间的图形例:library(multcomp)attach(cholesterol)table(trt)aggregate(response, by = list(trt), FUN = mean)aggregate(response, by = list(trt), FUN = sd)fit - aov(response trt)summary(fit)library(gplots)plotmeans(response trt, xlab = “Treatment“, yl

15、ab = “Response“, main = “Mean Plotnwith 95% CI“)detach(cholesterol)多重比较1、TukeyHSD() :对各组均值差异的成对检验例:TukeyHSD(fit)par(las = 2)par(mar = c(5, 8, 4, 2)plot(TukeyHSD(fit)par(opar)2、glht():multcomp 包:多重均值比较例:library(multcomp)par(mar = c(5, 4, 6, 2)tuk - glht(fit, linfct = mcp(trt = “Tukey“)plot(cld(tuk, l

16、evel = 0.05), col = “lightgrey“)par(opar)评估检验的假设条件1、正态检验:library(car)qqPlot(lm(response trt, data = cholesterol), simulate = TRUE, main = “QQ Plot“, labels = FALSE)2、方差齐性检验:bartlett.test(response trt, data = cholesterol)3、检测离群点:outlierTest() car 包library(car)outlierTest(fit)单因素协方差分析例:data(litter, pa

17、ckage = “multcomp“)attach(litter)table(dose)aggregate(weight, by = list(dose), FUN = mean)fit - aov(weight gesttime + dose)summary(fit)1、effects() :effects 包 :计算调整的均值例: library(effects)effect(“dose“, fit)2、ancova() :HH 包 :绘制因变量、协变量和因子之间的关系图 例:library(HH)ancova(weight gesttime + dose, data = litter)3

18、、interaction.plot() :函数来展示双因素方差分析的交互效应例:interaction.plot(dose, supp, len, type = “b“, col = c(“red“, “blue“), pch = c(16, 18), main = “Interaction between Dose and Supplement Type“)4、plotmeans() :gplots 包 :展示交互效应例:library(gplots)plotmeans(len interaction(supp, dose, sep = “ “), connect = list(c(1, 3

19、, 5), c(2, 4, 6), col = c(“red“, “darkgreen“), main = “Interaction Plot with 95% CIs“, xlab = “Treatment and Dose Combination“)5、interaction2wt():HH 包 :可视化结果例:library(HH)interaction2wt(len supp * dose)6、colMeans(): 计算每列的平均值7、nrow()/ncol : 计算数组额行数和列数8、mahalanobis():用协方差来计算两点之间距离的方法稳健多元方差分析Wilks.test() :稳 健 单 因 素 MANOVA

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报