1、R语言数据可视化介绍,1,H O O,直方图,箱线图, 11s u a i:c,N O O,0 0 0,归且,口 r,口,40,。0 -,Cl -,寸,。N一,o -,50,60,条形图,70 80 90,110,D D 口,a W,Rua l M a l e Rua l f em al e ub ali M ale LI巾alil F ema J仑 旧叫,LL -,w- 已 ,lr.,1,们,仁,订 lr,lr,l 厂,T 3,(l) 一,过 ,_ 0,- L).,卜-1,I,l-7,卜亡二D-1,卜- - -I I -,-1,I,I,10,15,I :20,关联图,I 25,- -,击,笆
2、,iii - -,-,一一,-一,-,-,-,- -,血 ,。巴后,早- - 早 _B,哀,X,。,5,15,一一: i - - 一一早 20,25,w -: . “.了,一,“ “ ,会 产,. .,,,口 i,3 小 ,.,” ,1 ,。令,八V,凸 “,心 几,.,., ,“ “, ,”,心,心 ,,,。,Q, ,. . . ,, ,.,, . 一 - ,一i .,于, ,. , 俨,,,.,一 5 -,一 ,d,一 俨 , , ,. . . .,“.,d “ ,“ - -, ,,,. . .,”5 .,. Q . . - ,, , . , 俨, ,?,, , ,,, ,,j ,, .
3、. . ,于 : 宁 士中 气丿, ,.,.1 . .-,.i.,. . , ,.俨,. . , ,., , “, ,.立二.,.- , ,-俨L l-. ,,,L一. 一-,., ,”,己”,- o - ,, ,- - 俨, ,”, ,一一一一一一 . J ,. ,j ,, 1,,1 ”,.,- 令,. - -,0 ,.,- ,. .,一玉,,V,- .,凡 , ,- ,“ “ -. .,, , ,- , - , . . . ,,- ,俨,俨, 1, .,J.l , ,(I.,入,怂,。. -,了0L,74,5.0L64,Oi-54,日l ac k,巳r叨 们,Re d 巳lond,点图,3
4、,低级绘图函数: hist(x$x1)# 对科目1绘制直方图,横坐标表示分数区间,纵坐标表示频次。,plot(x$x1,x$x2)# 对科目1和科目2绘制散点图,大致看出两门课是否存在相关关 系。 table(x$x2)#列联函数table,对每个数据进行统计。 barplot(table(x$x2)# 柱状图绘制函数barplot对统计结果进行绘制。barplot必须和 table函数结合使用才有意义。 pie(table(x$x2)# 饼图函数pie。 boxplot(x$x1,x$x2,x$x3)# 箱线图boxplot,对三门科目画箱线图。 boxplot(x2:4,col=c(red
5、,green,blue)# 指定箱线图的颜色。 boxplot(x2:4,col=c(red,green,blue),horizontal=T)# 使用horizontal=T将箱线图 水平放置。 stars(x2:4)# 对每个人画雷达图。 stars(x2:4,draw.segments=T)# 对雷达图进行颜色和样式的修改。使用 draw.segments=T画扇形。 stem(x$x1)# 茎叶图 #此外,还有多种高级绘图函数points,lines,abline,title,text,axis,image, box,contour,rect,arrows,par等。 4,5,用plo
6、t绘制散点图的参数设置 plot(x$x1,x$x2,main=科目1与科目2的关系, #设置标题 xlab=科目1,#设置横坐标名称,如果不写则默认为该变量的名称 ylab=科目2,#设置纵坐标名称 xlim=c(50,100),#设置横坐标的范围 ylim=c(50,100),#设置纵坐标的范围 xaxs=r,#xaxs=r, yaxs=i:分别设定 x 和y 轴的形式。 “i“(内部)与 “r“(预设 值) 形式的刻度都会依照资料的范围而自动调整,但是 “r“ 形式的刻度会在刻 度范围两边留一些空隙。 yaxs=r, col=red,#设置点的颜色 pch=20 #设置画图的样式,20表
7、示为圆点 ),6,关于点的样式,上面显示用的是编号为20的样式,那么R其实 提供了很多样式供使用,如下图。参考R语言绘图符号,高级绘图函数,:,.u,g-,区 .,( I)( 叩 _cartestao(Xll m=c.也匀),乌 .,_, NHI J 口 乙 , 心 寸 c oc 心 八 立 “thIIUld a:;:,cict 勹 加 工 :allCll,. n 打f 如,w 七a:ts ra -3nx:-.;ri;r1 f.itout,人 暴 J )1 I I 勹1:尸xi Ca心,可 立, :1 n立 E,-11,勺,图,,,luncu,c(lC, 2切I,ggplot2是一个用来绘制图
8、形的R软件包。与其他大多数的图形软件包不同, ggplot是由其背后的一套图形语法所支持。ggplot2可以绘制出很多美观的图形, 同时能避免诸多繁琐的细节。采用了图层的设计方式,从原始图层开始,首先 绘制原始数据,然后不断添加图形注释和统计汇总结果。ggplot2可以帮助学生 锻炼结构化的分析思维,进而达到专业的水准。在ggplot2中,用于创建新图形 的表达式是由高级的图形元素组成的,例如对原始数据的展现,以及某些统计 变换等。 ggplot2图形的基本组成部分: 1)geom_area()用于绘制面积图,即在普通线图的基础上,依y轴方向填充了下 方面积的图形。 2)geom_bar(st
9、at = “identity”)用于绘制条形图,需要指定stat = “identity”,因为 默认的统计变换将自动对值进行计数。 geom_line()绘制线条图,图形属性group决定了哪些观测是连接在一起的。 geom_point()绘制散点图。 5)geom_polygon()绘制多边形,即填充后的路径。 geom_text()可在指定点处添加标签。 geom_tile()用来绘制色深图或水平图。,lattice,是由Deepayan1 S arkar基干grid包的一套统计图形系统, 它的图形设 计理念来自于Cleveland的Trellis图形, 其主要特征是根据特定变噩(往往,
10、是分类变量)将数据分解为若干子集 ,并 中的条件期望、条件概率一样, lattic-e的图,对每个子集画图 。就像数理统计 形也是一种“条件作图” 。,格包中的高级函数如下:,函数 默认显示 histogram 直方图 densit:yplot 核密度图,qqimath qq stripplot bWplot dotplot barchart,埋论分位数图 双样本分位数图 带形图 盒图 克里夫兰点图 条形图,函数 xyplot spllom1 coritourplot levelplot w1ireframe cloud parallel,默认显示 散点图 散点图阵列 表面等高线图 表面伪色彩
11、图 三维表面透视图 三维散点图 平行坐标图,以latt ice包中的densit ypl ot O函数为例,I,I I Soprano 2,603gg oooo,k 荔U 中G,0420,oo闷oo,0000,50 60 I,I I I,70 80 90 I,Soprano 1,Alto 2,Alto 1,Tenor .2,Teno 1,彗,Bass 2,Bass 1,0 0 0,60402,仆: 几hu仆宁,-,require(st at s) hist ogrnm “h eiight I voice.part, data = siinger, nint = 17, endpoints =
12、c(59.5, 76.,5), lay out = c(2,4), aspect = 1, xllab = 11Height (in ches)1) h ist ogrnm “h eiight I voice. part, data = siinger, xllab = 11Height (in ches) ty pe = 11densiit y panell = fu nct io n(x, .,) pan el.hist ogram(x, .户 pan el.mat hd ensity(dmat h = dnorm, coll = 11blad c11, args = list (mean
13、=mean(,x),sd=sd(x) ) densityplot(“height I voice.part, data = siinger, layout = c(2 4), xlab = 1Height (inches V, bw = ,5),附录1 数据生成 ID = seq(1,100)# 用seq函数产生100个数字,表示不同人的ID。 x1 = round(runif(100,min=50,max=100) #用runif函数产生100个随机数(随机 数是小数),代表科目1的成绩,该结果是均匀分布,用round函数对其取整。 x2 = round(rnorm(100,mean=80,
14、sd=7)#用rnorm函数产生正态分布数字,代表 科目2的成绩,再用round函数取整。 x3 = round(rnorm(100,mean=90,sd=14)#用rnorm函数产生正态分布数字,代 表科目3的成绩,再用round函数取整。 x3which(x3100)=100#将超过100的修改为100。 x = data.frame(ID,x1,x2,x3)# 将上面4个向量放到组合为数据框data.frame。,附录2 ggplotlibrary(ggplot2) p - ggplot(mtcars) summary(p) p - p + aes(wt, hp) summary(p)
15、p - ggplot(mtcars, aes(x = mpg, y = wt) p + geom_point() p + geom_point(aes(colour = factor(cyl) p + geom_point(aes(y = disp) p - ggplot(mtcars, aes(mpg, wt) p + geom_point(colour = “darkblue“) p + geom_point(aes(colour = “darkblue“),library(nlme) #ggplot2用数据集:nlme包里有一个简单的纵向数据集,26名男孩(Subject)在9 个不同时
16、期(Occasion)所测定的身高(height)和中心化后的年龄(age) p - ggplot(Oxboys, aes(age, height, group = Subject) + geom_line() p p + geom_smooth(aes(group = Subject), method=”lm”, se=F) p p + geom_smooth(aes(group = 1), method=”lm”, size=2, se=F) p boysbox - ggplot(Oxboys, aes(Occasion, height) + geom_boxplot() boysbox
17、boysbox+ geom_line(aes(group = Subject), colour=”#3366FF”) boysboxd - ggplot(diamonds, aes(carat) + xlim(0, 3) d + stat_bin(aes(ymax = count), binwidth = 0.1, geom = “area“) d + stat_bin(aes(size = density), binwidth = 0.1, geom = “point“, position=“identity“ ) d + stat_bin2d(aes(y = 1, fill = count), binwidth = 0.1, geom = “tile“, position=“identity“),16,谢谢,