收藏 分享(赏)

基于机器学习的不同属性数据的分类选择.pdf

上传人:weiwoduzun 文档编号:1761719 上传时间:2018-08-22 格式:PDF 页数:2 大小:210.11KB
下载 相关 举报
基于机器学习的不同属性数据的分类选择.pdf_第1页
第1页 / 共2页
基于机器学习的不同属性数据的分类选择.pdf_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

1、科学教育研究 基于机器学习的不同属性数据的分类选择 杨秀忠 刘敏 摘要:机器学习的分类算法广泛的应用于解决与数据分类有关的问题。文章基于理论分析详细地描述了常用的几种机器学习分 类算法,并阐述了各种分类算法的优缺点 通过比较各种分类算法在不同属性的数据的误分类率,为在具体数据中的分类选择提供了 一定的理论基础。 关键词:机器学习分类算法属性误分类率分类选择 引言 随着信息技术和数据库技术的迅猛发展,人们可以非常方便 廉洁地获取和存储大量的数据。对这些庞大而又不同属性的数 据,正确的处理和分类就显得尤为的重要。分类是找出数据库中 一组数据对象的共同特点并按照分类模式将其划分为不同的类, 其目的是

2、通过分类模型,将数据库中的数据项映射到某个给定的 类别。 目前机器学习有很多分类算法可以对数据进行分类,但是针 对不同的属性的数据选择一个好的算法在实际应用中具有重要 意义。评价一个分类算法好坏的指标有很多,如误分类率,准确 度,查全率,查准率,计算复杂度,计算速度,可解释性,可伸 缩性,稳定性等等,本文主要根据分类算法的误分类率来进行判 断。 1、相关研究介绍 l_l决策树分类(C45) 决策树是一种典型的分类方法,首先对数据进行处理,利用 归纳算法生成可读的规则和决策树,然后使用决策对新数据进行 分析。本质上决策树是通过一系列规则对数据进行分类的过程。 c45算法的优点: 优点:产生的分类

3、规则易于理解,准确率较高。 缺点:c45只适合能驻留于内存的数据集,当数据很大时程 序无法运行。 12 Adaboost分类 Adaboosting是在整个训练集上维护一个分布权值向量,用 赋予权重的训练集通过弱分类算法产生分类,即分类器,然后计 算它的错误率,用得到的错误率去更新分布权值向量,对错误分 类的样本分配更大的权值,正确分类的样本赋予更小的权值。 Adaboosting的优缺点: 优点:不要求产生的单个分类器有较高的识别率: 缺点:会产生过拟合现象,不够稳定。 13随机森林分类 随机森林分类是由很多决策树模型组成的组合分类模型。在给 定集合下,每个决策树分类模型都有一票投票来选择最

4、优的分类 结果。随机森林的基本过程:首先,利用bootstrap抽样从原始 训练集抽取 个样本,且每个样本的样本容量都与原始训练集一 样;其次,对 个样本分别建立 个决策树模型,得到 种分 问和讨论、布置作业、小论文、实验考核、操作考核等组成部分, 期末考试主要采取开卷考试方式,注重考核学生的实践能力,甚 至可用实验报告、实训报告等作为期末考试成绩评定依据,无 需另外单独组织期末考试;对于理论与实践并重的课程,则可以 综合采用上述各种考评方法。 第三,要针对不同学习阶段的不同课程灵活确定考评内容。 会计专业是一门实践性较强的应用型专业,专业课程既有一定的 理论性,更有较强的操作性,既要求学生掌

5、握一定的专业基础理 论知识,更要求学生具备较强的应用专业知识的实际操作能力。 应针对会计专业的不同学习阶段的不同课程灵活确定考评内容: 基础课程的考核应加强对学生自学能力和综合归纳能力的培养 训练的引导,考评内容侧重于基础理论和基本技能;实践课程的 考核方式与内容应体现发散性思维的培养、综合应用能力和解决 问题的能力的训练,考评内容侧重于操作技能的熟练掌握和综合 运用能力。 第四,要允许任课老师灵活确定平时成绩、考试分数占总评 成绩的比例。总评成绩通常由平时成绩和期末考试成绩两部分组 成,但各部分所占比重不应规定过死。教师可以根据不同课程实 际以及学生学习情况在一定的比例范围内自行决定总评成绩

6、的 各组成部分及其比例,以充分发挥教师的积极性和主动性,保证 课程总评成绩既能客观公正反映学生综合学习情况,又能保证成 绩分布的合理性,便于区分学生专业水平。原则上,考试课程的 期末考试分数占比重要高于考查课程,理论课程的期末考试分数 占比重要高于实践课程。例如,偏重于理论的课程,若是闭卷考 试课程,期末考试成绩占总评成绩的比例可占5070,若是 开卷考试的考查课程,期末考试成绩占总评成绩比例应控制在 40965O;理论与实践并重的课程,若是闭卷考试课程,期末考 试成绩占总评成绩的比例可占4060,若是开卷考试的考查 课程,期末考试成绩占总评成绩比例应控制在30964o。 最后,要建立科学的考

7、核结果分析及反馈制度。课程成绩考 评结束并不意味着教学过程的结束,应加强对考评结果的分析、 反馈和利用。特别是在教学过程中,要加强对教学过程的形成性 考核结果的分析、反馈和利用。通过对形成性考评结果的分析找 出课程教学过程中存在的问题,通过反馈改进任课教师的教学方 法和手段,指导学生正确有效的学习,提高教学质量。 参考文献: 1布鲁姆教育评价M上海:华东师范大学出版社,1987 年 【2】吴雅琴高职财会人才培养模式创新研究J】会计之友, 2005(3) 3胡胜亮,白培康“形成性考核评价”在本科教学中的实 践中国校外教育201 0(12) 4】张瞳光等高职会计专业课程评价体系研究【J鸡西大 学学

8、报201 2(8) 5李雪竹,陈赛形成性考核在应用型本科教学中的实施分 析安徽科技学院学报2012(6) 作者简介: 曾富全 (19675-),男,广西平南人,会计学教授,中国 注册会计师、注册税务师、注册资产评估师;管理学(会计学) 硕士,广西经济管理干部学院会计系教授,广西百色学院商学院 特聘教授。广西“十百千”拔尖会计人才(学术类)十百层次培 养对象。研究方向:中国资本市场会计、审计与财税问题研究 企业会计准则研究。已出版专著、教材9部,发表学术论文40 余篇。 (作者单位:百色学院广西百色市533000) 121 新经济2015年5月(中) 类结果;最后,根据 种分类结果对每个记录进行

9、投票表决决定 最终分类。 随机森林的优缺点: 优点:通过对许多分类器进行组合,它可以产生高准确度的 分类器 缺点:在某些噪声较大的分类问题上会出现过拟合现象; 14神经网络分类 神经网络是一种模仿生物神经网络的结构和功能的数学模 型或计算模型。神经网络结构包括输入层、隐层和输出层。神经 网络的原理是把上层节点的值加权平均到下层节点,最终到输出 层节点,然后误差大小反馈回前面的层,再重新加权平均,如此 反复训练,直到误差在允许范围之内。 神经网络的优缺点: 优点:而且学习规则简单,便于计算机实现;具有很强的鲁 棒性。 缺点:难于精确分析神经网络的各项性能指标;体系结构的 通用性差。 15朴素贝叶

10、斯分类方法 朴素贝叶斯分类方法是贝叶斯分类模型中一种最简单、有效 而且在实际应用中很成功的分类方法。它假定特征向量的各分量 间相对于决策变量是相互独立的,此假定虽然在一定程度上限制 了朴素贝叶斯分类的适用范围,但在实际应用中,却大大降低了 它的复杂性。 朴素贝叶斯分类方法的优缺点: 优点:算法逻辑简单,且易于实现;算法实施的时间和空间 开销小。 缺点:类条件独立性假设在现实世界中经常不能满足。 2、数据收集 本文采用了三个不同属性的数据集,数据来源于UCI Machine Learning Repository网站。这些数据集中有的有缺失 值,也有分为两类,三类甚至四类的。每个数据的具体情况如

11、下: 21 Irish Educational Transitions Data 这个数据来源于Greaney and Kelleghan。该数据有500个 观测值和6个变量,其中Certif为因变量,包含两个分类类别: 1和2,属于类别1的样本有278个,属于类别2的样本有222 个,其余变量是自变量。我们将试图用5个自变量来预测作为因 变量的Certif的类别。 22 Wine Data 这个数据来源于意大利一个地区的三个不同品种的葡萄酒 的化学分析的结果,该数据一共有178个观测值,14个变量。其 中Class为因变量,包含三个分类类别:1、2和3,属于类别1 的样本有59个,属于类别2

12、的样本有71,属于类别3的样本有 48个,其余13个变量为自变量。我们将试图用13个自变量来预 测作为因变量的Class的类别。 23 Breast Cancer data 这个数据来源于DrWill Jam HWolberg。该数据一共有 569个观测值,32个变量,这些变量分别是:ID、Diagnosis和 30个具体的关于乳腺癌的数量变量。其中Diagnosis为因变量, 包含两个分类类别:M和N,属于类别M的样本有212个,属于 类别N的样本有357个。我们将试图用3O个关于乳腺癌的自变 量来预测作为因变量Diagnosis的类别。 3、实验结果及分析 本文是用R软件去实现数据结果,包

13、括数据中缺失值处理和 有些对实验没有直接关系的变量的处理(如数据中的ID),对上 面的数据进行了整个数据的分类判别和五折交叉验证,分析结果 如表1(其中神经网络是通过调节参数得到的最好的情况): 由上面的实验结果可以看出:Adaboost、随机森林和神经网 络方法都有比较好的分类结果,而决策树和朴素贝叶斯方法表现 122 相对较差。在实验结果中,神经网络也表现出了很好的结果,这 样的结果却是在实验过程中把神经网络的隐藏层的节点调节到 一定程度后出现的,这样做其实大大的增加了计算的复杂度,也 使得实验运行的时间变得很长。因此,当对一组新的数据集进行 分类的时候,如果数据集的分类属性较小,且数据集

14、包含的样本 也较小时,我们可以先考虑像Adaboost、随机森林和神经网络等 误分类率较好的算法;如果数据集的分类属性较小但样本较大 时,我们则可以先考虑神经网络、Adaboost等分类算法;如果数 据集的分类属性较大,那么我们可以先考虑像Adaboost、随机森 林等这些比较稳定的算法,当然,在条件允许的情况下,神经网 络也是很好的算法,因为它具有很强的鲁棒性。另外,文中的朴 素贝叶斯方法表现不是太好,这也和数据集本身的特点有关,当 数据集样本之问的相关性很小时,也可以考虑朴素贝叶斯方法, 因为它的性能比较稳定,健壮性也比较好。 表1 整个数据 五折交叉验证测 的误分类率 试集的误分类率 方

15、法 Irish Irish Wine Breast Wine Breast 决策树 02 0242 0062 0040 0062 0040 Adaboost 0054 0252 0033 0035 0 O 随机森林 O114 0244 0O17 0053 O O 神经网络 0048 0324 0062 0040 O O 朴素贝叶斯 0212 0216 0023 0067 0011 0059 4、小结 文中介绍了几种机器学习的分类算法,以及他们的优缺点。 通过误分类率来比较各种分类算法在不同属性数据上的分类效 果。在实际应用中,要根据不同的需要,根据不同算法的不同特 点,结合各项分类算法的指标,

16、采取合适的方法,才能较好地解 决具体应用问题。另外,文中只比较了一些数据的分类效果,对 一些数据中的分类选择提供了一定的理论基础,而对于数据集更 大(成千甚至上万),分类属性也更大,分类类别更多的问题, 将在以后的工作中作深入的研究。 参考文献: 1】IHWitten,EFrankData Mining:Practical Machine Learning Tools and TechniquesMorgan Kaufmann, 2005 【2】托尔戈(Lui S Torgo)、李洪成、陈道轮、吴立明数据 挖掘与R语言M机械工业出版社2013-04 3】MJordan, JKleinberg,

17、 BScholkopfPattern Recogni t ion and Machine Learning m】2006 4吴喜之著复杂数据统计方法一一基于R的应用M】北 京:中国人民大学出版社201 39 【5Coetes C, Vapnik VSuppor t networkJMachine Learning,1995,2O(3):273-297 6】Zhang,Ling, Zhang, Bo, Yin,HaifengAn alternative covering design aIgorithm of mu1tilayer neural networkJournal of Software,1999,10(7):737-742 【7】Frank,A&hsuncion,A(201O)UClMachineLearning Repositoryhttp:archiveicstiCieduml】Irvine,CA: Universitv Of Ca1ifornia, Schoo1 of Informtion and Computer Science (作者单位:1西南交通大学数学学院I)11成都市614202 2四川师范大学数学学院四川成都市610068)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报