收藏 分享(赏)

数据挖掘与数据分析的区别(经典).pdf

上传人:精品资料 文档编号:9529220 上传时间:2019-08-12 格式:PDF 页数:6 大小:586.32KB
下载 相关 举报
数据挖掘与数据分析的区别(经典).pdf_第1页
第1页 / 共6页
数据挖掘与数据分析的区别(经典).pdf_第2页
第2页 / 共6页
数据挖掘与数据分析的区别(经典).pdf_第3页
第3页 / 共6页
数据挖掘与数据分析的区别(经典).pdf_第4页
第4页 / 共6页
数据挖掘与数据分析的区别(经典).pdf_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、 数据挖掘 与分析的区别 (ByGanlin ) 最牛解释: 关于数据挖掘的作用, Berry and Linoff 的定义尽管有些言过其实,但清晰的描述了数据挖掘的作用。 “ 分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)” 。 举个例子说。 你看到孙悟空跟二郎神打仗,然后写了个分析报告,说孙悟空在柔韧性上优势明显,二郎神在力气上出类拔萃,所以刚开始不相上下;结果两个人跑到竹林里,在竹子上面打,孙悟空的优势发挥出来,所以孙悟空赢了。这叫分析报告。 孙悟空要跟二郎神打架了,有个赌徒找你预测。你做了个统计,发现两人斗

2、争4567 次,其中孙悟空赢 3456 次。另外,孙悟空斗牛魔王,胜率是 89%,二郎神斗牛魔王胜率是 71%。你得出趋势是孙悟空赢。因为 你假设了这次胜利跟历史的关系,根据经验作了一个假设。这叫统计分析。 你什么都没做,让计算机自己做关联分 析,自动找到了出身、教育、经验、单身四个因素。得出结论是孙悟空赢。计算机通过分析发现贫苦出身的孩子一般比皇亲国戚功夫练得刻苦;打架经验丰富的人因为擅长利用环境而机会更多;在都遇得到明师的情况下,贫苦出身的孩子功夫可能会高些;单身的人功夫总比同样环境非单身的高。孙悟空遇到的名师不亚于二郎神,而打架经验绝对丰富,并且单身,所以这次打头,孙悟空赢。这叫 数据挖

3、掘 。 数据挖掘跟 LOAP 的区别在于它没有假设,让计算机找出这种背后的关系,而这种关系可能是你所想得到的,也可能是所想不到的。 比如数据挖掘找出的结果发现在 2 亿条打斗记录中,姓孙的跟姓杨的打,总是姓孙的胜利,孙悟空姓孙,所以,悟空胜利。 用在现实中,我们举个例子来说,做 OLAP 分析,我们找找哪些人总是不及时向电信运营商缴钱,一般会分析收入低的人往往会缴费不及时。通过分析,发现不及时缴钱的穷人占 71%。而数据挖掘则不同,它自己去分析原因。原因可能是,家住在五环以外的人,不及时缴钱。这些结论对推进工作有很深的价值,比如在五环外作市场调研,发现需要建立更多的合作渠道以方便缴费。这是数据

4、挖掘的价值。 解释一: 数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就是指狭义的数据分析。 一、数据分析(狭义) ( 1)定义: 简单来说,数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。 ( 2)作用: 它主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。 ( 3)方法: 主要采用对比分析、分组分析、交叉分析、回归分析等常用分

5、析方法; ( 4)结果: 数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。 二、数据挖掘 ( 1)定义: 数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。 ( 2)作用: 数据 挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息; ( 3)方法: 主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器

6、学习等方法进行挖掘; ( 4)结果: 输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。 综合起来,数据分析(狭义)与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析(狭义)与数据挖掘构成广义的数据分析。 解释二 : 数据科学是在英文世界中诞生的,我们一般所说的数据挖掘和数据分析实际上就是英文的 data mining 和 data analysis,所以要辨认两个词的区别,不妨看它们在英文中的语义。 Da

7、ta mining is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. It is an interdisciplinary subfield of computer science. The overall goal of the data mining process

8、 is to extract information from a data set and transform it into an understandable structure for further use. Aside from the raw analysis step, it involves database and data management aspects, data pre-processing, model and inference considerations, interestingness metrics, complexity consideration

9、s, post-processing of discovered structures, visualization, and online updating. Data mining is the analysis step of the “knowledge discovery in databases“ process, or KDD. 数据挖掘( Data mining)是一个跨学科的计算机科学分支。它 是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了

10、原始分析步骤,它还涉及到数据库和数据管理方面、数据预处理、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是 “ 数据库知识发现” ( KDD)的分析步骤。 Analysis of data is a process of inspecting, cleansing, transforming, and modeling data with the goal of discovering useful information, suggesting conclusions, and supporting decision-making. Data

11、analysis has multiple facets and approaches, encompassing diverse techniques under a variety of names, in different business, science, and social science domains. 数据分析 ( Data Analysis)是一个检查、清理、转换和建模数据的过程,目的是发现有用的信息,得出结论和推动决策制定。数据分析具有多个方面和多种方法,包括各种名称下的多种技术,不同的商业,科学和社会科学领域。 这是维基百科中对数据挖掘和数据分析的定义。可以看到提及

12、数据挖掘时,一般指的都是用 人工智能、机器学习、统计学和数据库 的方法应用于 较大型数据集 ,是 “knowledge discovery in databases“的 一个步骤,本质是一种计算过程 ,目的是 发现知识规则 ( discovering patterns)。提及数据分析时,一般包含检查、清理、转换和建模 的过程,本质是人的智能活动的结果,目的是发现有用信息、建设性结论以及辅助决策 。 解释三 : 数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就是指狭义的数据分析。 一、数据分析(狭义) ( 1)定义: 简单来说,数

13、据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。 ( 2)作用: 它主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。 ( 3)方法: 主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法; ( 4)结果: 数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读, 才能发挥出数据的价值与作用。 二、数据挖掘 ( 1)定义: 数据挖掘是指从大量的数据中

14、,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。 ( 2)作用: 数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息; ( 3)方法: 主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘; ( 4)结果: 输出模型或规则 ,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。 综合起来,数据分析(狭义)与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析(狭义)与数据挖掘构成广义的数据分析。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报