1、數據挖掘于各领域之应用,谢邦昌 教授 辅仁大学统计信息系教授 中华數據挖掘协会 秘书长 STAT1001MAILS.FJU.EDU.TW WWW.CDMS.ORG.TW 2004/12/26,你不能不知的十大创新技术,资料来源: Technology Review杂志(2002/1),未来科技大预言,Technology Review杂志公布改变未来的十项新兴趋势 机器与人脑的介面 塑料电晶体 數據挖掘(Data mining) 数字权利管理 生物测定学(Biometrics) 语言识别处理 微光学技术(Microphotonics) 解开程序码(Untangling code) 机器人设计
2、微应用流体学(Microfluidics),在生物科技上,如人脑与机器介面,可加速发展生化义肢,学者认为这方面大有潜力。 机器人将为人类处理更多复杂或重复性的工作,现有研究人员发展出可设计、制造机器人的机器人。 在信息科技上,数位权利管理愈来愈受重视,以便保护知识财产,由全录公司Palo Alto研究中心创出的Content Guard公司,利用加密技术保护知识财产。,资料发掘与生物测定学也很有潜力,數據挖掘是利用数学演算法,在庞大的资料库中寻找方式,例如目前应用在掌纹、脸孔等图像辨识,或者是语言辨识处理等方面。 塑料芯片也是一大突破,在IBM、朗讯、麻省理工、剑桥大学、Penn State大
3、学都在研发塑料或有机物质芯片。 微光学技术,专家利用可反射光线的水晶、玻璃等物质,让光纤传输资料的速度,不会因为通过路由器、交换器时而降低速度。,微应用流体学方面:科学家正试图利用物理原则做实验,只利用极微量的水,加快原本需要费时费金钱的实验。加州理工学院的应用物理学家Stephen Quake,以微应用流体学发展了一套DNA分析装置,比传统的分析装置快。 Technology Review的编辑指出,微应用流体学将为生物科技大有帮助,就像当初电晶体提高了电子产品。,医药方面,Pain Control,Problem: Detecting pain Subjective & no direct
4、 measurement Clinical:Visual Analogue Scale(VAS) Where will cause the pain? Endoscope Operating room:ESWL;Prostate Post Op. :PCA ICU Cancer pain,P A System,Research & Development,PCA data mining & management,化学方面,近年来,随着化学资料的大量积累和资料库的普遍使用,逐步认识到大量资料的利用是十分困难且不充分的,更具价值的规律性的信息和知识反而被隐蔽起来。因此,化学數據挖掘作为一种新的信息
5、技术开始出现于电脑化学中。 这一技术的关键是用软件来从大量的化学资料中自动地发现新的不明显和有潜在应用价值的信息和知识,因此它也常常与资料分析和知识发现(Knowledge discovery)相紧密结合。,化学數據挖掘主要内容,Data cleaning Data reduction Feature detection Feature reduction Classifier and category detection Fraud detection Recognizing unusual patterns Novelty detection Construction of sample
6、databases Knowledge discovery and rule detection from large databases,生物医学方面,背景,随着人类基因序列的解码,基因与各种疾病间之关联性的研究正逐渐受到重视,而相关之研究文献亦随之增多。 通过搜寻引擎等渠道,医学研究人员可以快速取得所需之信息,但也同时面临了资料过多的问题。,气象业务方面,背景,随着通信技术和电脑技术的发展,每天在气象通信网上传输越来越庞大的气象资料,对这些资料的存储、集成和应用的问题也就越来越突出。 资料仓库是电脑应用发展的必然产物。经过长期积累所形成的大量业务资料,是过去的真实活动记录。如何利用这些资料
7、并在此后的决策中发挥效益,为决策分析和评估提供帮助,很长时期内都困扰着资料库的发展。,數據挖掘(Data Mining)的功能,对资料进行厚缩,给出它的紧凑描述。數據挖掘主要关心从资料泛化的角度来讨论资料总结。 建立一个分类函数或分类模型,该模型能把资料库的资料项目映射到给定类别中的某一个。 把一组个体按照相似性归成若干类别。使属于同一类别的个体之间的距离尽可能地 小,而不同类别的个体间的距离尽可能地大。 按某一规则探讨这一规则下的资料关联性。,农产品交易方面,资料来源:http:/www.amis.gov.tw/price,新系统着重于农产品交易行情信息的加值应用,利用农产品价量资料库充实的
8、资料 ,加值处理后提供使用者作为参考,朝向建立农产品交易行情资料仓储(Data Warehouse)之目标发展,让使用者可以通过资料仓储的资料处理进行 联机分析处理(On Line Analytic Processing ,OLAP) 决策支援系统 (Decision Support System, DSS) 數據挖掘(Data Mining),古代史料方面,研究背景,人类已经进入信息时代,我们不仅面临着用新技术来整理旧史料的问题,而且随着考古的新发现和科技的发展,史料的容量和形式急剧膨胀。 以何种方法处理、存贮史料,并且能够让学者从中方便迅速地检索和得到所需的信息,是当前史料学的一个大问题。
9、,数位化是史料处理的必经之路 把各种史料统一为电脑资料,方便存贮和检索; 使史料的物理体积大大缩小,方便携带; 可以低成本无差错拷贝,方便传播和普及。 目前,不论是印刷文档、手写稿,还是电子档、音像档、甚至于遗址与文物,越来越多的史料逐渐被数位化,出现了资料仓库(Data warehousing)、资料集市(Data mart)、资料掘取(Data mining)等新概念和信息数位化处理方法,逐步形成了大资料量存贮和管理方式。,银行踪面,Business Intelligent (BI),BI For Bank是MDCL公司基于EOSS套件在银行领域推出的一套完整的商业智慧解决方案。 它以先进
10、的资料仓库(Data Warehousing)、联机分析处理(OLAP)、數據挖掘(Data Mining)技术为基础,结合顾客关系管理和电子商务的经验,能够帮助企业全面提高科学管理水平和经营决策能力,促进企业业务和利润的增长,提高市场竞争力,迎接以客户为中心的经营方式的转变。,本系统包含以下主题:,商业银行资本分析 按时间、机构纬度研究资本的构成、资本需要量和充足度。 资产与负债 从时间、机构纬度研究资产的构成、资产的总量和风险、负债的构成和趋势、负债同业情况分析等。 表科目查询 本模组以财务报表和会计科目为基础,按照科目、时间、机构、产品和客户的纬度,进行报表和科目的即时查询、挖掘和分析。
11、,资金管理分析 从时间、机构纬度研究资金流入、流出及管理现状。 资金来源成本估计 从时间、机构纬度研究资金来源成本估计、资金结构、资金余缺、资金利用度、头寸匡算、资金运用及收益分析。 客户信贷分析 从时间、机构、科目、借款人性质、贷款形式、贷款期限、贷款方式研究贷款结构、贷款流动,贷款发放与回收情况。,经营成本营利分析 从时间、机构纬度研究经营成本升降、经营成本专案、经营成本的结构水平、银行收入和利润综合分析。 利率风险与营利分析 从时间、机构纬度研究利率调换交易分析、远期利率合同分析、金融贷款分析、期权交易分析。 汇率风险与防范分析 从时间、机构纬度研究即期、远期外汇买卖分析,套汇分析,外汇
12、投机分析,期货、期权交易分析。,投资决策分析 主要回答:怎样投资?向何处投资?投资多少?如何筹措资金?包括:投资效益分析、投资可行性分析 综合经营指标分析与预警 考核指标分析 银行健康综合评估 指标预警,从时间、机构纬度监测信用风险、流动风险、经营风险、资金风险、国际收支,如果有异常情况自动给予警告。,Data Warehouse之步骤,汇集资料数据 撷取、合并、删除、归类等,成为一定格式,再放入资料仓储内 存贮并管理data 将所有的资料再集中存入一个大的资料库里,可依照不同的需求建立小的资料库,方便读取 分析读取所需信息 银行各部门可依据不同的主题存取工具,进行查询并结合图形,OLAP等工
13、具,范例,商业银行首要关注于顾客关系的应用主题,即建立顾客信息分析管理信息,从中收集顾客的基本资料、资产、负债等信息用以搭建一个良好的信息连接库。 美国第一银行运用 “ICARE建立客户关系管理: I(Inquire) 向顾客询问并了解其需求 C(Communicate) 向顾客保证降很快满足其需求 A(Affirm) 使顾客确信有完成服务的工作与愿望 R(Recommend) 向顾客提出一系列的服务选择 E(Express) 使顾客银行接受单个客户的委托 顾客将可通过email 电话 网站信息等得到:金融服务、旅游娱乐服务以及其他的综合信息服务,之后将会寄出邀请函请顾客填写,银行将可了解顾客
14、的需求,帮助其完成愿望,结论,对于过去,银行并未从企业的整体角度实施顾客一体化管理,因此前后流程为实践整合的状态,无法达到连接,将造成信息重复、矛盾,甚至是过时,无法随时满足应有的信息或服务,利用data mining的技术,将可以解决如此的问题,更有效率朝向以顾客为中心企业体系。,天文学方面,资料来源:张燕霞、赵永恒、崔辰川中国科学院国家天文台,摘要,综述數據挖掘和知识发现在天文学中兴起的必然性及其近几年的发展状况、实现过程和具体任务。 分析当前天文资料的复杂性,介绍天文学中數據挖掘的科学要求。 系统地概括近年来天文学中數據挖掘和知识发现领域研究的进展及其热点,并阐述其所面临的挑战。,天文学
15、中數據挖掘和知识发现的兴起将对天文学的发展起到巨大的推动作用,同时也在知识和技术等方面对天文学家提出新的要求。 數據挖掘技术能否在虚拟天文台中成功应用,是虚拟天文台充分配挥作用的关键所在。,电子商务方面,资料来源: 硅谷动力,數據挖掘对电子商务的重要性,专家预测在今后十年中,“數據挖掘将是具有革命性进展的举措之一,是提供“个性化网络的关键,即通过采集信息、识别有用结构并进行即时分析,从而满足用户个性化选择。 无论这种技术复杂与否,近年来各公司都在进行各种各样的數據挖掘研究,以期让那些近年来急速堆积增长的原始资料,变得有意义。 电子商务现在是最新和最炙手可热的一个行业,无论在哪都有历史资料,用这
16、些资料可以得到用眼睛无法看到的方式结论。,數據挖掘能为电子商务做什么?,通过數據挖掘,市场商人可以瞄准目标客户,采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段,从而极大地减少广告预算和增加收入。 百货商场、超市和一些老字型大小的零售店也在进行數據挖掘,以便猜测这些年来顾客的消费习惯。,數據挖掘的挑战,數據挖掘软件繁多 软件商正在为非统计学专业人士们开发一些更加自动化的數據挖掘应用软件,让科学技术更加实用化。 迎合市场需求,數據挖掘简单化操作 过分简单将会使结果出现偏差,使执行者基于错误的推理作出定价和盘货决定。,科学资料库方面,资料来源:史忠植、张庆杰、张治洪、王 军中
17、国科学院计算技术研究所,资料库知识发现研究的兴起,随着大量的大规模的资料库迅速不断地增长,人们对资料库的应用已不满足于仅对资料库进行查询和检索。仅用查询检索不能帮助用户从资料中提取带有结论性的有用信息,这样资料库中蕴藏的丰富知识,就得不到充分的发掘和利用。,KDD的研究内容是,能自动地去处理资料库中大量的原始资料,从中挖掘搜索出具有必然性的、富有意义的方式(pattern) KDD的一个主要问题是资料库中潜在的可能关系方式的数量太大了,因此使得要想搜索到有用方式,必须借用人工智能技术,特别是来自机器学习领域的方法。,知识发现(KDD)的研究内容和方法,KDD的主要对象是关联资料库。 KDD可发
18、现的知识也有各种表示形式,如法则(RULES)、规则(REGULARITY)、科学定律、方程或概念网等等。 KDD的发现过程主要有三个步骤: 用户定义要发现的问题 系统根据问题进行资料搜索、方式抽取 评价所发现的知识的质量的好坏,资料库知识发现的难点,动态变化的资料 杂讯 如数据的手工登录以及主观选取资料等,容易使得资料有杂讯。 资料不完整 资料的不完整性将给发现、评估和解释一些重要的方式带来困难。 冗余信息 资料库中同一信息有时存储在多个地方。函数依赖就是一个通常的冗余形式。 数据稀疏 相应于可能的巨大的发现空间,资料库中所记录的实际资料的密度是非常稀疏的。 超大数据量 此时KDD系统必须采
19、用一定的资料汇集方法,根 用户定义的发现任务,选择有关的域空间,采取随机抽样的方法,对样本进行分析。,典型系统简介,SKICATU.Fayyad等(Jet Propulsion Laboratory)开发的 SKICAT ( sky image cataloguing and analysis tool)是一个用于分析大规模天空观测资料库的自动系统。 采用了许多新型机器学习方法,能识别比以往用人工方法所识别的天体物件要暗一个数量级,并且取得了大约94%的精度。,49er 49er(Forth-Niner)系统是由美国J.M.Zytkow和 R.Zembowciz开发的一个通用KDD系统。 可处
20、理多个资料子集上的大规模的检索,通过产生列联表,精化初始规则,进而生成强通用规则和有用的概念。,EXPLORA EXPLORA是由Hoschka和 Klosgen 开发的一个用于概念性的分析资料和搜索感兴趣关系的集成化系统。 KDW (Knowledge Discovery Workbench) KDW是互动式的大型资料库的分析工具。由美国 G. Piatetsky.Shapiro等人开发,提供了一整套图形用户介面工具。该系统可用于存取资料库表和创建新栏位,资料汇集定义,图形显示资料和结果,选用发现演算法及处理领域知识。 KDW系统包括的方式抽取演算法有:识别简单线性类别的聚类;用决策树方法获
21、取分类规则; 能识别各类间有显着差异的偏差检测;用于发现和显示随机依赖关系的依赖关系分析。,动态与展望,目前,KDD研究的重点,正从理论转向应用,可说凡是用到资料库的地方,就有KDD的课题等待人们去探讨。 KDD与科学资料库的结合对科技的发展必定会起很大的促进作用,具有广泛的应用前景。,网络方面,背景,保证信息系统安全的主要问题是建立安全机制,迄今为止已发展了许多安全机制,但安全问题仍然倍受怀疑和关注。 由于已从理论上证明不存在绝对安全的安全系统,因此一般将审计跟踪、攻击检测系统作为信息系统的最后一道安全防线。,早期中大型的电脑系统中都收集审计信息来建立跟踪档,这些审计跟踪的目的多是为了性能测
22、试或计费,因此对攻击检测提供的有用信息比较少 。 此外,最主要的困难在于由于审计信息粒度的安排,审计信息粒度较细时,资料过于庞大和细节化,反将有用的信息源没在其中 。,对于企图攻击,被动审计的检出程度是不能保证的。 为了使通用的审计跟踪能用于攻击检测等安全目的,必须配备自动工具对审计资料进行分析,以期尽早发现那些可疑事件或行为的线索,给出报警或对抗措施。,基于审计信息的攻击检测技术,为了从大量的、有时是冗余的审计跟踪资料中提取出对安全功能有用的信息,基于电脑系统审计跟踪信息设计的系统安全自动分析或检测工具是很必要的 Data Mining,攻击检测方法,检测隐藏的非法行为 攻击即时检测系统的原
23、理是基于用户历史资料的建模以及在早期的证据或模型的基础。 审计系统即时地检测用户对系统的使用情况,根据系统内部所拥有用户行为的概率统计模型进行监测,当发现有可疑的用户行为发生时,保持跟踪并监测、记录该用户的行为。,神经网络的攻击检测技术 审计统计资料的攻击检测系统,具有一些天生的弱点,因为用户的行为可以是非常复杂的,所以想要准确匹配一个用户的历史行为和当前的行为相当困难。 SRI(Stanford Research Institute)的研究小组利用和发展神经网络技术来进行攻击检测。,神经网络可能用于解决传统的统计分析技术所面临的问题:,难于建立确切的统计分布 统计方法基本上是依赖用户行为的主
24、观假设,如偏差高斯分布;错发警报常由这种假设所导致。 难于实现方法的普遍性 适用某类用户行为的检测一般无法适用于另一类用户。 演算法实现比较昂贵 基于统计的演算法对不同类型的用户行为不具普遍性,因此演算法较复杂且庞大,导致演算法实现上的昂贵。而神经网络技术不存在这个问题,实现的代价较小。 系统臃肿难于剪裁 由于采用统计方法检测具有大量用户的电脑系统,将不得不保留大量的用户行为资料,导致系统的臃肿。而基于神经网络的技术能够回避这一缺点,根据即时检测到的信息有效地加以处理作出攻击可能性的判断。,结语,目前,神经网络技术提出了对传统统计技术的攻击检测方法的改进方向,但尚不十分成熟,所以传统的统计方法仍将继续发挥作用,也仍然能为发现用户的异常行为提供相当有参考价值的信息。,个人化网页方面,资料来源:罗晓惠、黄国峯、廖宜恩国立中心大学应用数学所,目的,一般都是静态的的个人网页,此篇利用data mining的技术,设计动态的个人化网页,根据使用者浏览网页的纪录,找出使用者最常逛的网页,节省网络频宽,提升个人化网页品质。,系统整体结构,纪录器:纪录网址与浏览的时间,送至资料库分析,收集约一星期的时间的资料再做分析分析,分析器与个人化网页流程图,