收藏 分享(赏)

防灾科技学院_数据挖掘_考点总结_李忠.docx

上传人:dzzj200808 文档编号:2734542 上传时间:2018-09-26 格式:DOCX 页数:32 大小:639.37KB
下载 相关 举报
防灾科技学院_数据挖掘_考点总结_李忠.docx_第1页
第1页 / 共32页
防灾科技学院_数据挖掘_考点总结_李忠.docx_第2页
第2页 / 共32页
防灾科技学院_数据挖掘_考点总结_李忠.docx_第3页
第3页 / 共32页
防灾科技学院_数据挖掘_考点总结_李忠.docx_第4页
第4页 / 共32页
防灾科技学院_数据挖掘_考点总结_李忠.docx_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、社交网络新一代数据挖掘的金矿 随着 Facebook 的上市,社交网络再次成为人们关注的焦点。与传统的论坛、博 客相比,社交网络是虚拟世界与现实世界的桥梁,在互联网上将现实生活中人与人之间的关系建立起来。从社交网络的分类来看,Facebook、 Twitter、LinkedIn 分别代表三种不同的社交网络。Facebook 是基于朋友之间强关系的社交网络,有助于朋友之间关系的维系和改 善;Twitter 是基于单向关注的弱关系的社交网络,这样的网络有利于塑造意见领袖和消息的传播;LinkedIn 是面向商务人士的职业社交网络,帮助 用户利用社交关系进行商务交流以及求职招聘。三种社交网络每天都会

2、产生大量的用户数据(UGC,User Generated Content) ,并且具有空前的规模性和群体性,吸引着无数研究者从无序的数据中发掘有价值的信息。这就像概率统计中经常举的投硬币算其正反面概率的例 子,从几次的投掷结果中很难看到规律,但通过几万次的大量投掷实验,便很容易看出正反面的出现次数几乎相等的规律。社交网络上产生了大量的规模化、群体化 的数据,吸引了包括计算机科学、心理学、社会学、新闻传播学等领域专家和学者对其进行研究和探索,希望能够借助更强的社交网络的分析和处理能力发现更多人 类尚未探索出的规律。对于社交网络的分析和研究范围很广,也存在着许多有意思的研究课题。例如,在社交 网络

3、中社区圈子的识别( Community Detection) 、社交网络中人物影响力的计算、信息在社交网络上的传播模型、虚假信息和机器人账号的识别、基于社交网络信息对股市、大选以及传染病 的预测等。社交网络的分析和研究是一个交叉领域的学科,所以在研究过程中,我们通常会利用社会学、心理学甚至是医学上的基本结论和原理作为指导,通过人工 智能领域中使用的机器学习、图论等算法对社交网络中的行为和未来的趋势进行模拟和预测。社交圈子的识别与一般的以内容为导向的论坛等社区不同,社交网络最核心的就是人与人的关系,以及 所形成的社交圈子(社区) ,然而每个人根据自己的关系不同及兴趣不同可以属于多个社交圈子。在社

4、交网络中我们发布的所有信息流,都是通过我们的关系圈,逐 层向外传播的;我们收到的消息也直接来自我们所关心的人,更外围的消息也必须逐层传播才能接触到终端用户。因此,如何发现社交圈子是社会关系网络分析中一 个很重要的基础性的研究。社交圈子示例如图1所示。图1 基于 OSLOM 算法的社区发现效果图利用计算机来处理社交网络往往会将整个社交网络看作是一个图的结构,每个用户就是 图中的节点,人与人之间的关系就是节点之间的边,根据不同类型的社交网络,所构成的图可以是有向图也可以是无向图,关系的强弱也可以利用边上不同的权重来 体现。对于社交圈子的发现算法来说,社交圈子的质量依赖于圈子内成员的关系的紧致度以及

5、不同圈子间的分离度。但对于数以亿计的节点来说,目前的圈子发现算 法还很难处理特大规模的数据,因此很多研究者提出了启发式的方法去减少程序处理的复杂性,对最终结果进行近似的求解。然而实际的社交圈子是一个更为复杂的网络,因为用户会具有多种兴趣,可以属于多个 社交圈,发现这种圈子的研究也被称为重叠社区的发现。一种比较简单的启发式方法是,以网络中度很大的节点作为初始的圈子,然后把对圈子贡献最大的邻接节点 依次加入到圈子中,直到全局贡献度达到极值,并形成一个圈子。如果存在对多个圈子贡献度都很大的边界节点,则将其加入到多个圈子中。近期也有人提出了使用 标签传播(Label Propagation)算法以及粒

6、子群算法来解决重叠社区的发现算法。社交圈子发现算法并不仅局限在用户主动建立起的关系上,其更重要的价值在于对用户 非显性的潜在关系发现。从社交圈子发现的结果中,我们能够更加清楚地看出属于一个圈子的人群。当然,社交圈子也有多种划分方式,例如关系型社交圈子、兴趣 型社交圈子等。在算法中以亲密度为首要指标和以兴趣为首要指标,也会得到不同的社交圈子划分。由此引申出的一个问题是,线上的圈子与线下的真实社交圈子是否是一致的?当两个人 在社交网络中互动很频繁时,他们在线下是否也是真实的好友?从算法的角度来说,这是个很难解决的问题,但如果我们换一个角度来思考这个问题,想想我们的线 下联系方式,如果 A 跟 B

7、互相拥有对方的手机号,那他们是线下真实好友的可能性就非常大了。包括飞信、米聊、微信等产品,如果真的能够做成基于手机通讯录的 社交网络,我们就可以通过异构的社交网络对社交圈子进行综合性的判断,其价值不可估量。影响力的计算在社交网络中,意见领袖因为其在网络上强大的影响力会对信息的传播,以及普通用户 的行为造成巨大的影响。以新浪微博为例,最直观的影响力表现之一就是加 V 认证的名人,发一条正在吃饭的微博,也能得到数百次的转发,然而对于一般用户,一 条微博的转发次数能上两位数,便足以为之欢呼雀跃了。因此,与现实社会一样,社交网络中的人也存在不同的阶级和不同的影响力。然而影响 力应该如何来衡量和计算呢?

8、我们前面已经提到,计算机在处理社交网络时,往往使用图的结构,这与搜索引擎中的结构相一致,如表1所示。因为在搜索引擎中, 图的节点是网页,边是链接,然而搜索引擎中的 PageRank 算法是对网页进行排序的算法。如果我们将 PageRank 使用在社交网络上,就可以对人的影 响力进行迭代的计算了。除了PageRank 算法外,还有 W-entropy 等算法也被应用在社交网络的影响力计算当中。表1 社交网络与搜索引擎对图结构的不同定义然而对于每个人来说,其在不同领域的影响力也是不一样的。例如,李开复的影响力主 要在科技领域,黄健翔的影响力在体育领域,薛蛮子的影响力主要在投资和公益的领域。因此如何

9、评价一个人在不同领域的影响力也是一个很重要的问题,有学者提 出了基于主题级别(Topic Level)的影响力评价模型 TAP(Topic Affinity Propagation)来尝试解决这个问题,该算法应用在大规模社交网络数据中显现出了较好的效果。在国外,Famecount 、Klout 等公司设计了算法对社交网络中每一个人的 影响力进行打分。有些公司甚至出现了根据个人网络影响力的不同,在现实生活中提供差异化服务的模式,例如,香港国泰航空对 Klout 打分不低于40分的用 户,可以享受机场贵宾休息室。虽然该行为也遭到不少人质疑,认为这是“势利”的做法,不过也可以将其看作是对网络影响力应

10、用在商业模式上的一种新型探索。 在国内,新浪的微数据和 Miu+也在微博的影响力计算中做出了一些探索,目前国内在该领域还有较大的发展空间。信息传播的建模在社交网络上,每个人都是个自媒体。与传统媒体依靠内容作为传播主题的形式有所不 同,社交网络上的信息传播,更加依赖于发布者的影响力以及社会关系,通过好友或粉丝的关系将信息扩散到社交网络中。这种信息在社交网络中会被好友及粉丝看 到,并以一定的概率被分享和转发,从而进行传播。图2对一条微博的传播过程进行了可视化的显示。图2 单条微博信息的传播图(来自 )部分学者用传染病在人群中的传播、谣言在社会中的传播等现象来类比并刻画社交网络 中信息的传播,进而利

11、用传染病动力学及复杂网络理论来对社交网络的传播行为进行建模和预测。更直观地说,如果将整个社交网络看作一个图的结构,把社交网络 中的用户看成图中的节点,并将用户之间的关系看为图的边,那么信息的传播的过程就是从起点用户的节点开始,沿着相邻边进行信息的传播,相邻的节点用户会根 据时间及主题不同,会以一定概率传播或者终止该信息。对于传染病动力学模型来说,通常将网络中的节点定义为三类:传播节点、未感染节点和免疫节点。传播节 点的特点是接受并有能力传播邻居节点信息;未感染节点没有接受过来自邻居节点的信息,但有机会接受信息,即有概率会被感染;免疫节点表示该节点已接受邻居 节点的信息,但不具有传播能力,由此可

12、以定义一些传播规则: 如果一个传播节点与一个未感染节点接触,则未感染节点会以概率成为传播节点; 如果一个传播节点与一个免疫节点接触,则传播节点会以概率成为免疫节点; 传播节点不会无休止地传播,会以一定速度停止传播,变为免疫节点,无需与其他节点接触。由此便可以通过传染病动力学中的方法对信息的传播过程建立状态转移方程。在确立传播模型后,我们可以通过检验起点传播者节点的度(也就是好友或粉丝的数量) 、关系强弱(边的权值) ,对信息传播造成的影响程度,从而发现信息在社交网络传播中的规律。虚假用户的识别虚假信息和虚假用户的识别在社交网络的深入研究及实际应用中是一项基础性的工作, 并具有重要的意义。信息在

13、社交网络上的传播过程中,不免会遇到虚假内容或虚假的水军用户进行干扰。如果能够识别出虚假用户和虚假内容可以更好地还原出舆论 的真实想法和状态,为企业的市场营销以及政府了解民意提供更加真实有效的数据。一般来说,识别社交网络的虚假用户要比匿名论坛相对容易,因为可以从更多的 维度进行考察。在社交网络上,虚假账号一般不会有真实的社交互动,关系网络中大部分链接也都是虚假账号,此外通过账号的转发行为及内容的识别判断来有效地 辨别虚假用户。我们在新浪微博上对虚假用户的判断采用了以下8种用户行为特征。 博主的创建时间的一致性 博主的头像和名字 关注与粉丝比例 博主的粉丝质量 发布微博数量 最近200次转发的对象

14、分布 转发同一条微博的频率 转发时所写的内容针对以上8种特征,利用机器学习的分类算法训练模型,并利用模型进行后续虚假用户的预测,可以有效地发现虚假用户,在舆情分析中将其剔除,还原出真实的信息传播情况及舆情(公众发表在网络上的言论)状态。用数据预测未来社交网络数据最吸引人的研究工作就是对未来的预测。社交网络每天吸引数亿人在网络上发布自己的数据、状态、心情,这种规模化并具有群体性的海量数据给了数据科学家从海量数据中发现人类未知规律的机会。美国科学家通过监控 Twitter 中公众的情绪数据,发现公众的情绪数据与很多社 会现象及事件具有很强的相关性。例如,有些研究者发现无论是“希望”的正面情绪,还是

15、“害怕”的负面情绪的体现都预示着美国股市指数的下跌。有研究者认 为,只要有公众在社交网络的情绪突然改变,都会反映出对股市的不确定性,因此可以利用这种信号来预测股市未来的走向。在流行病预测方面,英国的科学家根据 Twitter 的数据来跟踪流感的爆发。他们 主要基于用户发布信息中的关键词,例如 “我头痛(I am having a headache) ”等,并结合用户的发布地点,按区域与英国卫生部的官方数据进行了比较,最终建立起一个预测模型。创业团队“SickWeather” 甚至以预测疾病为主题开展了自己的创业项目。还有很多研究者也利用数据挖掘的方法对电影票房、美国大选的趋势和结果进行预测,并

16、取得了令人惊喜的成果。然而,我们对于利用社交网络数据的预测能力的态度也不能过于乐观,因为社交网络的 预测是基于海量数据的,但目前对于海量文本数据的分析算法尚未达到理想的准确率。尤其对于从文本信息来进行情绪判断这个看似简单的问题,其本质是自然语言 处理与情绪心理学的交叉问题。但目前的自然语言处理方法主要利用概率统计的方法,以及词法和句法的分析进行解读。对文本情绪的判断也以基于词库及语法结构 的判断和基于机器学习的方法为主。然而这些方法对于稍显复杂的、尤其是带有反讽和隐含意的语言很难进行有效的判断。此外,对于社交网络的使用群体不能完全 代表有效的人群,因为使用社交网络的人群与年龄、地域、种族等方面

17、都有很大差异,因此仅利用社交网络产生的数据进行预测很可能会与最终结果产生偏差,所以 从人群角度进行科学有效的取样方法对于社交网络预测也是尤为重要的一个环节。总结人们对社交网络数据的认识和挖掘还处于相对初级的阶段,对这种大规模、高维度数据 的挖掘方法还在不断地演化。目前来看,文本语言的情感分析、社交网络的传播预测等很多基础性问题还不能得到有效解决,对深入研究社交网络造成了一些限制。 但随着人工智能研究水平的不断提高,尤其是认知神经科学与人工智能技术相结合的研究,让我们看到了人工智能的新希望。当我们真正有能力解决这些问题以后, 社交网络将会成为帮助我们预测未来趋势的有利工具。然而,充分使用社交网络

18、数据也意味着暴露用户越来越多的隐私,因此,如何能够在用户隐私和数据完整中找 到一个平衡点,也是今后数据工作者所要面临的问题数据之舞:大数据与数据挖掘斯诺登泄露了什么秘密?大数据会暴露隐私吗?什么是数据挖掘?秦鹏2013-08-25 19:40(文/David J. TenenBaum)泄密者爱德华斯诺登(Edward Snowden)还在寻求容身之所的时候,美国国家安全局(NSA)全方位收集电话和电子邮件记录之事经过他的披露,已经引发了不安和愤怒。奥巴马当局声称,监听数据带来了安全,然而左翼和右翼都在谴责这种窥探行为是对隐私的侵犯。数据不是信息,而是有待理解的原材料。但有一件事是确定无疑的:当

19、 NSA 为了从其海量数据中“挖掘”出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格。麻省理工学院的研究者约 翰古塔格(John Guttag)和柯林斯塔尔兹(Collin Stultz)创建了一个计算机模型来分析之心脏病病患丢弃的心电图数据。他们利用数据挖掘和机器学习在海量的数据中筛选,发现心电图中出现三类异常者一 年内死于第二次心脏病发作的机率比未出现者高一至二倍。这种新方法能够识别出更多的,无法通过现有的风险筛查被探查出的高危病人。 图片来源:Jason Grow 2012/Human Face of Big Data 数据挖掘这一术语含义广泛,指代一些通常由软件

20、实现的机制,目的是从巨量数据中提取出信息。数据挖掘往往又被称作算法。威斯康星探索学院主任大卫克拉考尔(David Krakauer)说,数据量的增长以及提取信息的能力的提高也在影响着科学。 “计算机的处理能力和存储空间在呈指数增长,成本却在指数级下降。从这个意义上来讲,很多科学研究如今也遵循摩尔定律。 ”在2005年,一块1TB 的硬盘价格大约为1,000美元, “但是现在一枚不到100美元的 U 盘就有那么大的容量。 ”研究智能演化的克拉考尔说。现 下关于大数据和数据挖掘的讨论“之所以发生是因为我们正处于惊天动地的变革当中,而且我们正以前所未有的方式感知它。 ”克拉劳尔说。随着我们通过电话、

21、信用卡、电子商务、互联网和电子邮件留下更多的生活痕迹,大数据不断增长的商业影响也在如下时刻表现出来: 你搜索一条飞往塔斯卡鲁萨的航班,然后便看到网站上出现了塔斯卡鲁萨的宾馆打折信息 你观赏的电影采用了以几十万 G 数据为基础的计算机图形图像技术 你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润 用算法预测人们购票需求,航空公司以不可预知的方式调整价格 智能手机的应用识别到你的位置,因此你收到附近餐厅的服务信息大数据在看着你吗?除了安全和商业,大数据和数据挖掘在科研领域也正在风起云涌。越来越多的设备带着更加精密的传感器,传回愈发难以驾驭的数据流,于是人们需要日益强大的分析能力。在气象

22、学、石油勘探和天文学等领域,数据量的井喷式增长对更高层次的分析和洞察提供了支持,甚至提出了要求。2005 年6月至2007年12月海洋表面洋流示意图。数据源:海面高度数据来自美国航空航天局(NASA)的 Topex/Poseidon 卫星、Jason-1 卫星,以及海形图任务/Jason-2卫星测高仪;重力数据来自 NASA/德国航空航天中心的重力恢复及气候实验任务;表面风压数据来自 NASA 的 QuikScat 任务;海平面温度数据来自 NASA/日本宇宙航空研究开发机构的先进微波扫描辐射计-地球观测系统;海冰浓度和速度数据来自被动微波辐射 计;温度和咸度分布来自船载、系泊式测量仪器,以及

23、国际 Argo 海洋观测系统。这幅2005年6月至2007年12月海洋表面洋流的示意图集成了带有数值模型的卫星数据。漩涡和窄洋流在海洋中传送热量和碳。海洋环流和气候评估项目提供了所有深度的洋流,但这里仅仅使用了表层洋流。这些示意图用来测量海洋在全球碳循环中的作用,并监测地球系统的不同部分内部及之间的热量、水和化学交换。在医学领域,2003年算是大数据涌现过 程中的一个里程碑。那一年第一例人类基因组完成了测序。那次突破性的进展之后,数以千计人类、灵长类、老鼠和细菌的基因组扩充着人们所掌握的数据。每个基 因组上有几十亿个“字母” ,计算时出现纰漏的危险,催生了生物信息学。这一学科借助软件、硬件以及

24、复杂算法之力,支撑着新的科学类型。精 神障碍通常是具体病例具体分析,但是一项对150万名病人病例的研究表明,相当多的病人患有超过同一种疾病。芝加哥大学的西尔维奥康特中心利用数据挖掘 理解神经精神障碍的成因以及之间的关系。 “好几个(研究)团队都在致力于这个问题的解决。 ”中心主任安德烈柴斯基(Andrey Rzhetsky)说, “我们正试图把它们全部纳入模型,统一分析那些数据类型寻找可能的环境因素。 ” 图片来源:Andrey Rzhetsky,芝加哥大学另一例生物信息学的应用来自美国国家癌症研究所。该所的苏珊霍尔贝克(Susan Holbeck)在60种细胞系上测试了5000对美国食品和药

25、品管理局批准的抗癌药品。经过30万次试验之后,霍尔贝克说:“我们知道每种细胞系里面每 一条基因的 RNA 表达水平。我们掌握了序列数据、蛋白质数据,以及微观 RNA 表达的数据。我们可以取用所有这些数据进行数据挖掘,看一看为什么一种细胞系 对混合药剂有良好的反应,而另一种没有。我们可以抽取一对观察结果,开发出合适的靶向药品,并在临床测试。 ”互联网上的火眼金睛当医学家忙于应对癌症、细菌和病毒之时,互联网上的政治言论已呈燎原之势。整个推特圈上每天要出现超过5亿条推文,其政治影响力与日俱增,使廉洁政府团体面临着数据挖掘技术带来的巨大挑战。印第安纳大学 Truthy(意:可信)项目的目标是从这种每日

26、的信息泛滥中发掘出深层意义,博士后研究员埃米利奥费拉拉(Emilio Ferrara)说。 “Truthy 是一种能让研究者研究推特上信息扩散的工具。通过识别关键词以及追踪在线用户的活动,我们研究正在进行的讨论。 ”Truthy 是由印第安纳研究者菲尔孟泽(Fil Menczer)和亚力桑德罗弗拉米尼(Alessandro Flammini)开发的。每一天,该项目的计算机过滤多达5千万条推文,试图找出其中蕴含的模式。大数据盯着“#bigdata” (意为大数据) 。这些是在推特上发布过“bigdata”的用户之间的连接,用户图标的尺寸代表了其粉丝数多寡。蓝线表示一次回复或者提及,绿线表示一个用

27、户是另一个的粉丝。 图片来源:Marc Smith一个主要的兴趣点是“水军” ,费拉拉说:协调一致的造势运动本应来自草根阶层,但实际上是由“热衷传播虚假信息的个人和组织”发起的。2012年美国大选期间,一系列推文声称共和党总统候选人米特罗姆尼(Mitt Romney)在脸谱网上获得了可疑的大批粉丝。 “调查者发现共和党人和民主党人皆与此事无关。 ”费拉拉说, “幕后另有主使。这是一次旨在令人们相信罗姆尼在买粉从而抹黑他的造势运动。 ”水军的造势运动通常很有特点,费拉拉说。 “要想发起一场大规模的抹黑运动,你需要很多推特账号, ”包括由程序自动运行、反复发布选定信息的假账号。 “我们通过分析推文

28、的特征,能够辨别出这种自动行为。 ”推文的数量年复一年地倍增,有什么能够保证线上政治的透明呢?“我们这个项目的目的是让技术掌握一点这样的信息。 ”费拉拉说, “找到一切是不可能的,但哪怕我们能够发现一点,也比没有强。 ”头脑里的大数据人脑是终极的计算机器,也是终极的大数据困境,因为在独立的神经元之间有无数可能的连接。人类连接组项目是一项雄心勃勃地试图绘制出不同脑区之间相互作用的计划。除了连接组,还有很多充满数据的“组”: 基因组:由 DNA 编码的,或者由 RNA 编码的(比如病毒)全部基因信息 转录组:由一个有机体的 DNA 产生的全套 RNA“读数” 蛋白质组:所有可以用基因表达的蛋白质

29、代谢组:一个有机体新陈代谢过程中的所有小分子,包括中间产物和最终产物连接组项目的目标是“从1,200位神经健康的人身上收集先进的神经影像数据,以及认知、行为和人口数据” ,圣路易斯市华盛顿大学的连接组项目办事处的信息学主任丹尼尔马库斯(Daniel Marcus)说。项目使用三种磁共振造影观察脑的结构、功能和连接。根据马库斯的预期,两年之后数据收集工作完成之时,连接组研究人员将埋首于大约100万G 数据。20名健康人类受试者处于休息状态下接受核磁共振扫描,得到的大脑皮层不同区域间新陈代谢活动的关联关系,并用不同的颜色表现出来。黄色和红色区域在功能 上与右半脑顶叶中的“种子”位置(右上角黄斑)相

30、关。绿色和蓝色区域则与之关联较弱或者根本没有关联。图片来源:M.F.Glasser and S.M.Smith绘制脑区分布图的“分区”是一项关键的任务,这些脑区最早于两到三世纪之前通过对少量大脑染色被识别出来。 “我们将拥有1,200个人的数据,”马库斯说, “因此我们可以观察个人之间脑区分布的差别,以及脑区之间是如何关联的。 ”为了识别脑区之间的连接,马库斯说, “我们在受试者休息时获取的扫描图中,观察脑中的自发活动在不同区域之间有何关联。 ”比如,如果区域 A和区域 B 自发地以每秒18个周期的频率产生脑波, “这就说明它们处于同一网络中。 ”马库斯说。 “我们将利用整个大脑中的这些关联数

31、据创建一个表现出脑中的每一个点 如何与其他每一个点关联的矩阵。 ”(这些点将比磁共振成像无法“看到”的细胞大得多。 )星系动物园:把天空转包给大众星系动物园项目打破了大数据的规矩:它没有对数据进行大规模的计算机数据挖掘,而是把图像交给活跃的志愿者,由他们对星系做基础性的分类。该项目 2007年启动于英国牛津,当时天文学家凯文沙文斯基(Kevin Schawinski)刚刚蹬着眼睛瞧完了斯隆数字巡天计划拍摄的5万张图片。阿拉巴马大学天文学教授、星系动物园科学团队成员威廉基尔(William Keel)说,沙文斯基的导师建议他完成95万张图像。 “他的眼睛累得快要掉出眼窝了,便去了一家酒馆。他在那

32、里遇到了克里斯林托特(Chris Lintott) 。两人以经典的方式,在一张餐巾的背面画出了星系动物园的网络结构。 ”星系是一个经典的大数据问题:一台最先进的望远镜扫描整个天空,可能会看到2000亿个这样的恒星世界。然而, “一系列与宇宙学和星系统计学相关的 问题可以通过让许多人做相当简单的分类工作得以解决。 ”基尔说, “五分钟的辅导过后,分类便是一项琐碎的工作,直到今日也并不适合以算法实现。 ”星系动物园的启动相当成功,用户流量让一台服务器瘫痪了,基尔说。斯隆巡天的全部95万张图片平均每张被看过60次之后,动物园的管理者们转向了更大规模的巡天数据。科学受益匪浅,基尔说。 “我的很多重要成

33、果都来自人们发现的奇怪物体, ”包括背光星系。这是星系动物园志愿者们发现的差不多2000个背光星系之一。它被其后方的另一个星系照亮。来自背后的光令前景星系中的尘埃清晰可辨。星际尘埃在恒星的形成中扮演了关键的角色,但它本身也是由恒星制造的,因此检测其数量和位置对于了解星系的历史至关重要。 图片来源:WIYN 望远镜, Anna Manning, Chris Lintott, William Keel星系动物园依赖统计学、众多观察者以及处理、检查数据的逻辑。假如观察某个特定星系的人增加时,而认为它是椭圆星系的人数比例保持不变,这个星系就不必再被观察了。然而,对一些稀有的物体,基尔说, “你可能需要

34、40至50名观察者。 ”大众科学正在发展自己的法则,基尔补充道。志愿者们的工作“已经对一个真实存在的重大问题做出了贡献,是现存的任何软件都无法实现的。鼠标的点击不该被浪费。 ”这种动物园方法在 zooniverse.org 网站上得到了复制和优化。这是一个运行着大约20项目的机构,这些项目的处理对象包括热带气旋、火星表面和船只航行日志上的气象数据。最终,软件可能会取代志愿者,基尔说。但是计算机和人类之间的界线是可互换的。比如说超新星动物园项目在软件学会了任务之后就关闭了。我们惊讶地得知志愿者们积累的庞大数据是计算机学习分类的理想材料。 “一些星系动物园用户真的很反感这一点。 ”基尔说, “他们

35、对于自己的点击被用来训练软件表达出明显的怨恨。但是我们说,不要浪费点击。如果某人带来了同样有效的新算法,人们就不必做那些事情了。 ”学习的渴望人们长久以来改进对图像和语音的模式识别的努力已经受益于更多的训练,威斯康星大学麦迪逊分校的克拉考尔说。 “它不仅仅是有所改善,更是有了实际的 效果。5到10年之前,iPhone 上的 Siri 是个想都不敢想的点子,语音识别一塌糊涂。现在我们拥有了这样一批庞大的数据来训练算法,忽然之间它们就 管用了。 ”随 着数据及通讯价格持续下跌,新的思路和方法应运而生。如果你想了解你家中每一件设备消耗了多少水和能量,麦克阿瑟奖获得者西瓦塔克帕特尔 (Shwetak

36、Patel)有个解决方案:用无线传感器识别每一台设备的唯一数字签名。帕特尔的智能算法配合外挂传感器,以低廉的成本找到耗电多的电器。位于加利福尼亚 州海沃德市的这个家庭惊讶地得知,录像机消耗了他们家11%的电力。 图片来源:Peter Menzel/ The Human Face of Big Data等到处理能力一次相对较小的改变令结果出现突破性的进展,克拉考尔补充道,大数据的应用可能会经历一次“相变” 。“大数据”是一个相对的说法,不是绝对的,克拉考尔指出。 “大数据可以被视作一种比率我们能计算的数据比上我们必须计算的数据。大数据一直存在。 如果你想一下收集行星位置数据的丹麦天文学家第谷布拉

37、赫(Tycho Brahe,1546 - 1601) ,当时还没有解释行星运动的开普勒理论,因此这个比率是歪曲的。这是那个年代的大数据。 ”大数据成为问题“是在技术允许我们收集和存储的数据超过了我们对系统精推细研的能力之后。 ”克拉考尔说。我们好奇,当软件继续在大到无法想象的数据库上执行复杂计算,以此为基础在科学、商业和安全领域制定决策,我们是不是把过多的权力交给了机器。在我 们无法觑探之处,决策在没人理解输入与输出、数据与决策之间的关系的情况下被自动做出。 “这正是我所从事的领域, ”克拉考尔回应道, “我的研究对象是宇宙 中的智能演化,从大爆炸到大脑。我毫不怀疑你说的。数据挖掘考点总结版本

38、号2.0.0.1介绍数据挖掘的定义Hand 等人200年给了简明定义:数据挖掘就是从大型数据集合里挖掘出有用的信息。还有一个定义来源于一家信息技术研究公司加特那集团:数据挖掘是从大量的存储数据里进行筛选,采用模式识别技术以及统计和数学技巧,发现有意义的新的相互关系、模式以及趋势的过程。数据挖掘处于统计学和机器学习(也称人工智能)领域的交叉点上。经典统计学的两个核心难点计算复杂、数据稀少。DarylPregibon 把数据挖掘描述为“建立在规模和速度上的统计学” 。有人把这一说法推广:数据挖掘是“建立在规模、速度和简单化上的统计学” 。过度拟合过度拟合指的是现有样本跟一个模型拟合太过,以至于模型

39、不仅描述数据的根本特性,而且也描述了其随机特性。按工程上的术语指这个模型不光是拟合信号,还拟合噪声。算法算法指的是用于实现某一数据挖掘技术如分类树、辨识分析等的特定程序。有约束学习有约束学习指的是用已有记录得到算法(逻辑回归、回归树等)的过程。无约束学习无约束学习指的是人们试图从数据中了解一些东西的分析,而不是预测感兴趣的输出值(例如输出结果是否属于某个聚类) 。或许挖动数据挖掘发展的最重要的因素是数据的增长。数据仓库一个把企业的决策系统结合在一起的大型综合数据存储系统。计算能力方面的持续迅速的改进是数据挖掘发展的一个基本动力。大数据的特征:数据量大、种类多、读取速率快、价值密度小数据挖掘过程

40、概览数据挖掘的一项基本任务就是用类别已知的数据找出规则,然后把这些规则用在未进行分类的数据上。预测和分类相似,差别在于我们是预测一个变量的数值,而不是一个类别。当然,在分类时我们试图去预测一个类别,而“预测” (在本书)是指预测一个连续变量的数值。各数据挖掘技术之间的一个基本区别在于是否采用了有约束学习方法。训练数据是分类和预测算法用来“学习”预测变量和结果变量之间的关系(或称为模型) 。验证数据以检验其是否比其他模型好。测试数据用于检测最后选择的模型的优劣。无约束学习算法是在没有结果变量去预测或者分类时的算法。关联分析、数据精简和聚类技术都是无约束学习方法。当算法涉及到有约束学习时,我们要把

41、总的数据集合分成训练、验证和测试数据三个子集合。SEMMASample 采样Explore 探索Modify 调整Model 建模Assess 评估多少变量和多大数据合适一条经验法则认为对应每一个预测变量要有10条记录,这应该是合理的。Delmater 和 Hancock 在其分类任务里使用的另一法则是,观测记录数量至少要有6*M*N。 (M,输出变量类别的数目;N,变量的数目)原则上,预测变量少是模型的一个好特征。奇异值远离大块数据的数值称为奇异值。有的分析人员采用这样的经验法则“离均值3个标准差之外的点事奇异值” 。数据标准化标准化数据一般指的是从每一个值减去平均值,然后除以距离平均值的偏

42、差的标准差。为什么即需要一个验证块还要一个测试块呢?(验证块与测试块异同点)因为验证数据增强了所选择模型性能的现象是随机的,在模型被应用到新数据上时其好的性能将不存在,因此我们可能高估了模型的精度。我们测试的模型越多,就越有可能会选择那个把验证数据的噪声拟合得最好的模型。把模型用在以前未出现过的测试数据上将会产生模型在新数据上的无偏估计。分块的过程应该是随机的以避免产生偏差的划分。建立模型目的获取数据探索、清理和预处理数据精简数据和把它划分成训练、验证以及测试数据块决定数据挖掘任务选择技术用算法去执行这个任务解释结果应用模型有约束学习分类和预测判断一个分类法效果的自然标准是它错误分类的概率。在

43、此,我们希望使用分类法的效果能比使用“粗暴”法则:“把所有记录划分到记录最多的类里去”得到的效果要好一点。一个分类法的精度特别依赖与这两个类(由分类法使用的预测变量而显示出)的间隔。贝叶斯法则的一个重要优点是,在给一个记录分类的同时,我们可以计算该记录属于每一个类的条件概率。它的好处是我们可以用这一个概率作为我们要分类的每一个记录的“分数”我们可以为任一记录计算期望的利益或者损失。什么是三分 Triage 策略?【简答题】见书 P37多元线性回归经典的多元线性回归分析包括模型假设、系数估计和检验、方差分析、变量子集选择等许多方面。而数据挖掘中的多元线性回归放宽了模型的假设条件,模型对未来数据进

44、行预测的误差估计由在验证数据上的误差分析直观给出。因此数据挖掘中的多元线性回归是“数据挖掘是简单化了的统计学”这一说法的一个体现。多元线性回归的模型和思想【重点、大题】模型的建立对验证数据的每一个记录比较结果变量的预测值和实际观测值。这一误差平方的平均值可用来比较不同的模型和评价用模型进行预测的精度。4.3线性回归的自变量选择对此一个经验法则是 n=5(k+2)(n=记录个数,k=自变量个数)线性回归分析的一般步骤【简答题、说清楚各部步骤】获取模型系数和统计量诊断模型是否满足假设条件,如果有问题就要采取补救措施使用模型统计量评价模型拟合状况如果模型通过了一系列的评价测试,我们就可以用这个模型来

45、解释各自变量的作用以及用这个模型产生预测。Logistic 回归Logistic 回归的思想由多元线性回归发展而来,它使用的情形是因变量(或称作被解释变量)y 是二值(我们经常将这两个值编码为0和1)情况。用于描述选择行为的 Logistic 模型,是根据 Manski 提出的随机效用理论建立的,该理论是对标准的消费者行为理论的扩展。消费者行为理论是指当面临一组选择是,消费者选择的标准是效用最大化。系数的估计(估计值的计算)一般是根据极大似然原理,它能保证估计值具有良好的渐进(大样本)特征。一般条件下的极大似然法估计量(或称为极大似然法估计器)具有:一致性渐进有效性渐进正态分布神经网络人工神经

46、网络的基本构造块是一个数学模型神经元。人工神经元有三个基本组成部分:为输入值 Xi 提供权重 Wj 的突触或者连接,J=1,2,3,4,m;一个把加权的输入加到一起作为激活函数输入的加法器;权重和为 V一个激活函数 g(也经常被称为挤压函数) ,把 V 映射到该神经元的输出值 g(v)逻辑函数的实用价值在于,它对很小和很大的 v 值有一个挤压效应,但当 g(v)在0.1到0.9这个范围值内时几乎是线性的。神经网络的另一个缺点神经网络的一个缺点是容易产生过分拟合,从而引起在验证数据上的误差率太大。因此限制训练的遍数而不让对数据过分拟合至关重要。分类与回归树分类树包括两个关键的思想【简答题】解释变

47、量空间递归分区的思想(书上例子骑乘式割草机) ;用验证数据进行剪枝的思想剪枝的思想是认为如果树非常大很可能是对训练数据的过分拟合。判别分析判别分析的思想是:使用在不同群体上的连续变量测量值去彰显区分这些群体的特点,并且利用这些测量值为新纪录分类。一个好的判别规则将数据分开,使得最少的点被错判;判别分析的两个重要目标是解决以下的两个问题:在决定一个个个体的类别的自变量里面那些是最重要的?分类的最佳线性法则是什么?因变量 Y 是类别型变量,自变量 xi 是那些可以描述该群体的属性,可以是任意类型的变量。线性可分指的是可以用属性的线性组合把这些类别区分开来。Fisher 判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法。它具体做法是:利用 M 个指标的训练数据,借助于方差分析的思想构造一个线性判别函数Y=d1X1+d2X2+.+dmXm

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报