1、 NANCHANG UNIVERSITY学 士 学 位 论 文THESIS OF BACHELOR(2008 年2013 年)题 目 医 学 文 献 中 统 计 图 使 用 比 例 及 其 应 用 错 误 的 抽 样 调 查学 院: 医学院 系 公共卫生学院 专业班级: 预防医学 2008 级 03 班 学生姓名: 学号: 指导教师: 职称: 讲师 起讫日期: 2012 年月 11 日2013 年月 1 日 摘 要 医 学 文 献 中 统 计 图 使 用 比 例 及 其 应 用 错 误 的 抽 样 调 查专 业:预防医学 学 号:6302708137学生姓名: 指导教师: 摘 要目的 通过抽样
2、研究调查中华医学期刊网 1998-2012 年收录的文献中各种统计图的使用及常见错误出现情况,了解医学期刊论文中各种统计图的使用比例及常见错误的出现比例,并对其做分层分析(按期刊类型、发表年份等分层),为有针对性调整医学统计学中统计图的教学方案与规范医学论文中统计图的制作提供科学依据。方法 采用两阶段完全随机抽样从总体中(1998 2012 年中华医学会期刊网中已收录文献共计 408600 篇)抽取已发表的医学文献作为样本。一阶段以页(按文献发表时间排序将总体中的文献分为 40860 页)为抽样单元,二阶段以每页内的文献(每页包含 10 篇文献)为抽样单元;依据医学统计学中统计图的制作和使用规
3、范确定正确使用统计图的判断标准并制定调查表,对每篇文献中的基本信息,统计图使用情况及常见错误出现情况进行调查, 以期刊类型、发表年份、作者性别、作者单位、作者学历、课题资助类型等因素分层对医学期刊文献中各种统计图的使用比例及其常见应用错误的比例进行统计分析。结果 调查结果显示中华医学期刊网 1998-2012 年收录文献中统计图的使用率为 7.4%;直条图,百分条图,圆图,线图,对数线图,直方图,箱式图,统计地图及散点图使用比例分别为:3.3%,0.0%,0.1%,4.4%,0.1%,0.1%,0.1%,0.0%,0.6%,其中以线图使用比例最高(4.4%),统计地图最低(0.0%);统计图使
4、用错误的比例为 14.3%,直条图,圆图,线图,对数线图,直方图,箱式图及散点图使用错误比例分别为 13.2%, 0.0%,0.0%,16.7%,0.0%, 7.5%,其中以直方图使用错误比例为最高 (16.7%);图序编制不规范、标题缺失、标题位置不正确、横纵坐标设置不规范及图例应用不规范的比例分别为2.2%,0.5%,2.0%,9.4%,3.8%,其中以横纵标目设置不规范的出现比例为最高(9.4%),标题缺失出现比例最低(0.5%) 。分层分析结果显示:不同期刊类型、不同作者性别、不同作者单位类别中各种统计图的使用比例及常见错误比例差异均无统计学意义(P0.05);不同文献发表年份中统计图
5、使用错误比例(F=3.441,P=0.032)、直条图使用错误比例(F=7.853,P=0.000)、图序使用不规范比例(F=4.386,P=0.013)、横纵标目使用不规范比例(F=4.116,P=0.016)差异均有统计学意义;不同作者学历水平(F=3.299,P=0.000)和不同课题资助类型(F=8.868,P=0.000) 间统计图的使用比例差异有统计学意义。结论 中华医学会期刊19982012 年收录文献中统计图的使用比例(7.4%)不高,但统计图的使用错误的比例相对较高(14.3% );文献中统计图的使用比例与文献发表年份、作者学历水平、课题资助有关;文献中统计图的使用错误比例与
6、文献发表年份有关;统计图常见错误中图序不规范、横纵标目不规范与文献发表年份有关。摘 要 I关键词:统计图;二阶段完全随机抽样;错误比例;分层分析AbstractIIThe Sampling survey of the use ratio and its application error of statistical figure in Medical literatureProfession:preventive medicine No:6302708137Student: Instructors: AbstractObjectives through sampling survey the
7、 use and common errors of various statistical figure in the literature published from 1998 to 2012 in Chinese medicine journal net, understand the use and common error ratio of various statistical figure in medical journal articles, and make hierarchical analysis to them (according to layered factor
8、s, such as the journal types,published year), which will provide the scientific basis for targeted adjustments teaching plan of medical statistics statistical chart and standard the statistical chart in medical papers. Methods using two stage completely random sampling the published medical literatu
9、re from the population (the Chinese medical association journal net from1998 to 2012 has included a total of 408600 literature) as a sample. The sampling unit is page (literature in general can be divided into 40860 pages when its sorted by published time) in the first stage, The second phase regard
10、s the document in each page(each page contains 10 articles) as the sampling unit; According to the production and specifications of the statistical figure in medical statistics are used to determine the judgment standard of correct use and formulate questionnaire statistical figure. Layered by basic
11、 information of each document, including periodical type, year of publication in journal, author of gender, the author unit, the author qualifications, the types of project financing, and analyzed utilization rate and the common application error ratio of a variety of statistical graphs in medical j
12、ournal articles. Results Results show that the use proportion of statistical figure in the literature collected in the Chinese medical association journal from 1998 to 2012 is 7.4%.The use proportion of Straight figure, percentage of diagram, chart, diagram, logarithmic diagram, histogram, box-type
13、graph, statistical map and a scatter diagram using ratio is 3.3%, 0.0%, 0.1%, 4.4%, 0.1%, 0.1%, 0.1%, 0.0%, 0.6% respectively, of which diagram use proportion is highest (4.4%) and the statistical map is lowest (0.0%).The using error ratio of Statistical figure is 14.3%. The using error ratio of str
14、aight line diagram, chart, diagram, logarithmic diagram, histogram, box-type graph and a scatter diagram is 13.2%, 0.0%, 0.0%, 16.7%, 0.0%, 7.5% respectively , of which the highest using error ratio is the histogram (16.7%). The non-standard Figure order , lack of the title, wrong location of title
15、and non-standard horizontal ordinate and non-standard application of illustration is 2.2%, 0.5%, 2.0%, 9.4%, 3.8% respectively.Stratified analysis results showed that the differences of use proportion of statistic figure and its usual mistakes had no statistical significance between different types
16、of periodicals, the author of sex and authors unit (P 0.05). the different of using error ratio of Statistical figure in literatures (F = 3.441, P = 3.441), using error ratio article straight figure (F = 7.853, P = 0.000), using non-standard ratio of statistic figure(F = 4.386, P =0.013), Horizontal
17、 ordinate using non-standard ratio of horizontal ordinate (F = 4.116, P = 4.116)between different published years have statistical significance.the difference of use ratio of statistical figure between different authors degree level (F = 3.299, P = 0.000) and different types of project funding (F =
18、8.868, P = 8.868) is statistically significant.Keyword:statistical figure;two stage completely random sampling;error rate;layered AbstractIIIanalysis 目 录IV目 录摘 要 .IAbstract .前 言 .11.材料与方法 .21.1 调查对象 .21.2 调查方法 .31.3 调查内容 .31.4 调查表制定 .31.5 质量控制 .41.6 资料统计分析 .42 结果 .52.1 调查医学期刊文献的基本特征 .52.2 中华医学期刊网期刊文
19、献中统计图使用及常见错误出现情况 .52.2.1 中华医学期刊网期刊文献中各种统计图的使用情况 .62.2.2 中华医学期刊网期刊文献中各种统计图错误使用的情况 .72.2.3 中华医学期刊网期刊文献中各种统计图各种常见错误情况 .82.3 中华医学期刊网期刊文献中各统计图使用及常见错误情况的分层分析 .82.3.1 不同期刊文献中各种各种统计图的使用及常见错误情况 .82.3.2 不同发表年份文献中各种统计图的错误使用及常见错误情况 .112.3.3 不同作者性别文献中各种统计图的错误使用及常见错误情况 .142.3.4 不同作者单位文献中各种统计图的使用及常见错误情况 .172.3.5 不
20、同作者学历水平文献中各种统计图的使用及常见错误情况 .192.3.6 不同基金资助文献中各种统计图使用及常见错误情况 .213 讨论 .254 结论 .27参考文献 .28致 谢 .29前 言0前 言统计图是用点的位置、线段的升降、直条的长短或面积的大小等形式表达数据信息 1,是描述统计资料的有效方法,是统计资料象征化、通俗化的最佳形式 2。统计图是医学论文的重要表达形式和医学论文写作的重要组成部分,并得到了广泛应用,它可以反映各类医学现象的演变过程、发展速度、变化规律,比例关系。统计图可简明正确地表达统计数据和分析结果,使数据条理化,系统化,以便能准确地表达统计数据的含义和分析结果 3,是医
21、学研究中经常运用的方法之一,一幅好的统计图,设计恰当和合理,有利于读者进行比较,寻找规律,引出结论 4,有时其作用远胜于文字,可以为科研论文增色不少。美国纽约大学医学教授Warren KS 提出,如果一篇文章既没有图表也没有参考文献,那它算不上是科学论文5 ,足见统计图表在医学科学论文中的重要作用。国内外研究证明,在医学论文中准确、灵活、规范地运用统计图,对资料进行直观概括和综合性描述,其作用和效果有时是文字叙述所难以替代和达到的。由于统计图的这种特殊作用,使大量的统计图出现在已出版和即将出版的医学论文中,从总体上讲收到了比较好的效果。在国外,尤其是发达国家比较早开始了对医学论文中统计图的应用
22、进行严格规范,所以国外对统计图常见错误的研究时间比我们要早,研究范围比我们要广研究的程度要深。在我国,论文中的统计图是近现代的产物,在建国后的前三十年时间里研究进程缓慢,统计学教学改革后随着科研学术的发展,我国对统计图的应用错误研究进入全面阶段,取得了明显的进展。虽然在医学文献的撰写过程中统计图的应用规范越来越受到国内外学者的重视,目前统计图应用的种类和数量也越来越多,但在实际来稿中,不少统计图的设计方面尚存在着不少缺陷,统计图的出错率非常高 6,直接影响着资料的确切表达、论文质量,甚至会使读者得出谬误结论,也影响编辑和审稿者对论文作出正确评价 7。准确规范的统计图应用是医学论文科学性的重要标
23、志,为进一步了解统计教学改革及医学科研快速发展以来专业科研人员对统计图使用的规范程度和医学论文的科学性,本课题对1998-2012年中华医学期刊网收录的文献采用二阶段完全随机抽样调查其统计图的使用情况及在使用方面存在的一些常见问题并进行统计分析。11.材料与方法1.1 调查对象本研究调查对象为中华医学期刊网中1998-2012年收录的期刊文献。1.2 调查方法采用抽样调查了解中华医学期刊网 1998-2012 年收录的文献中各种统计图的使用及常见错误出现情况。1)抽样方法:采用两阶段完全随机抽样,第一阶段在总体 N 个初级单元中,以简单随机抽样抽取 n 个初级单元,第二阶段在被抽中的初级单元包
24、含的 M 个二级单元中,以简单随机抽取 m 个二级单元,即最终接受调查的单元。2)样本量估计:本研究中两阶段完全随机抽样样本含量( n)的估计借助简单随机抽样样本含量估计值( n0)乘以设计效应(Design Effect,简称 deff,是指某个抽样设计的估计量的方差与同等样本量条件下的不放回简单随机抽样对应的估计量的方差的比值; deff 的取值范围约在 1.33.0 之间)来完成,其计算公式为: 。简单随机抽样中当抽样比例defn0时, ;否则 。1-为置信度; 为标准正态05.Nn20dPQZn)1(1220dPQZNn 2Z分布双侧界值;P 为总体比例;Q=1-P:d 为绝对允许误差
25、 8。本次抽样调查研究的总体中共有 408600 篇文献,因课题研究时间的限制,抽样比例无法超过 5 ,所以采用公式 来估计简单随机抽样的样本量。本次研究设定20dPQZn=0.05;P=0.5;d=0.015;deff=1.92。将上述设定的参数值代入估计样本含量公式:,计算得本次抽样研究所需样本含量为 8196 篇文献。defPQZn2将总体中 408600 篇文献按发表时间顺序分 40860 页,每页包含 10 篇文献,采用两阶段完全随机抽样以页为一级抽样单元和以每页中的文献为二级抽样单元从总体中抽取样本。根据预先确定的样本含量(8196 篇文献),综合考虑调查研究的时间限制和统计量精度
26、的控制要求,设置第一阶段首先从 40860 个一级抽样单元(页)中随机抽取 4098 个一级单元(抽样比约1/10),然后在被抽中的一级单元中,分别随机抽取 2 篇文献(抽样比为 1/5)作为样本。此次2两阶段抽样中两级抽样框及抽样方案借助 SPSS 软件 Select Cases 模块完成。1.3 调查内容对最终抽中的医学文献,下载并浏览其内容,调查每篇论文的内容如下:(1)基本信息:发表年份,文献标题,第一作者姓名、性别,作者年龄,作者单位,作者身份、学历,作者研究方向及课题资助;(2)统计图的使用:是否使用统计图,是否使用直条图,百分条图,圆图,线图,对数线图,直方图,箱式图,统计地图及
27、散点图;(3)统计图的常见使用错误:通过查找文献、参考卫生统计学教材第五版和第七版以及指导老师的意见,从图序、标题、横纵坐标及图例等四个方面确定统计图使用过程中常见的错误的调查内容。内容包括:图序编制是否规范,标题是否缺失,标题位置是否正确,横纵坐标设置是否规范,图例应用是否规范等。(4)常见使用错误的判断标准图序编制是否规范:图序是否依据文献图的个数依次正确编制图序;标题是否缺失:每个统计图是否有与之对应的标题;标题位置是否正确:图序和图题应置于图的下方 9;横纵坐标设置是否规范:纵标目居中、底对纵坐标,字由下往上写,计量单位符号写在其后的括号内;横标目居中置于横坐标之下,计量单位符号写在其
28、后的括号内;或写在对应观察项目之下;刻度在纵坐标右和横坐标上 10;纵、横坐标的每一刻度间的距离应根据说明问题的需要,行距合适,美观 11;纵坐标的刻度数写在坐标轴左,横坐标的刻度数写在坐标轴下,并注意数字选择合适;横纵尺度自左向右,从小到大 12,横轴尺度可不从“0”开始,纵轴表示尺度必须从 0 开始 13,同一坐标轴上单位长度代表的数量应该相等(特指普通尺度) 14。图例应用是否规范:图例首先要正确表示不同类别,图例位置要根据习惯和美观而定,最常见的位置是右上角 15。1.4 调查表制定根据确定的调查内容,利用 EXCEL 软件制作电子表格文件作为本次调查研究的调查表记录数据信息。31.5
29、 质量控制 (1)在制定调查问卷阶段:在老师的指导下,熟悉调查程序及调查表的内容,严格按照研究计划制定专业的问卷设计模版之后,根据研究目的和内容调整调查提纲或问卷,与导师修改或共同讨论,并进行多个预调查才最后确认。(2)在资料收集阶段:由两名调查人员收集数据,互相进行问卷填写情况的检查,对调查进行严格把关,严格遵守收集资料规范要求。(3)数据整理分析阶段:在对数据分类编码时,对所有的数据进行审核。采用 Excel 软件统一录入数据,应用 SPSS12.0 软件并选择与抽样方案相对应的复杂抽样分析菜单中的频率和交叉表模块分析调查数据。(4)本次两阶段抽样的第一阶段以页为抽样单位的抽样而言,存在抽
30、样变异( 表现为各页之间的差异);二阶段抽样中存在两种随机变异,即各页之间的随机变异和每页内各文献间的随机变异,因此统计量的抽样误差估计比较复杂,且相对于简单随机抽样的抽样误差可能较大。本次研究拟采用设计效应 deff 来度量相对于简单随机抽样的误差大小,反映本次抽样研究的效率。1.6 资料统计分析采用 Excel 录入数据 ,将问题答案进行赋值编码,并将数据导入 SPSS12.0 软件,分别采用复杂抽样的频数(Complex Samples Plan for Frequencies Analysis)模块分析方法分析统计图使用比例及常见错误出现比例;再以期刊类型、发表年份、作者性别、单位类别、作者学历水平、课题资助级别等因素进行分层分析,采用复杂抽样的交叉表模块(Complex Samples Plan for Crosstabs Analysis)比较分析其层间的差异;所有假设检验均采用双侧,检验水准为 0.05。