收藏 分享(赏)

数据挖掘应用平台及其关键技术研究.doc

上传人:gnk289057 文档编号:7309282 上传时间:2019-05-14 格式:DOC 页数:11 大小:484KB
下载 相关 举报
数据挖掘应用平台及其关键技术研究.doc_第1页
第1页 / 共11页
数据挖掘应用平台及其关键技术研究.doc_第2页
第2页 / 共11页
数据挖掘应用平台及其关键技术研究.doc_第3页
第3页 / 共11页
数据挖掘应用平台及其关键技术研究.doc_第4页
第4页 / 共11页
数据挖掘应用平台及其关键技术研究.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、学校代码: 10246学 号: 990307博 士 学 位 论 文数据挖掘应用平台及其关键技术研究院 系: 计算机与信息技术系专 业: 计算机软件姓 名: 朱建秋指 导 教 师: 朱扬勇 教授完 成 日 期 : 2002 年 4 月 25 日数据挖掘应用平台及其关键技术研究The Research on A Data Mining Platform and Its Key Technologies朱建秋导 师朱扬勇 教授指导小组成员施伯乐 教授胡运发 教授顾 宁 教授目 录数据挖掘应用平台及其关键技术研究 复旦大学博士学位论文i目 录摘 要 1ABSTRACT3第一章 前言 51.1 立论背景

2、和研究意义 .51.1.1 立论背景 .51.1.2 研究意义 .61.2 研究现状 .61.2.1 数据挖掘技术 .61.2.2 数据挖掘系统 .71.3 存在的问题及研究方向 101.4 本文工作 111.4.1 研究内容 111.4.2 本文结构 14第二章 数据挖掘系统的发展及问题分析 152.1 引言 152.2 数据挖掘过程模型 162.2.1 Fayyad 过程模型及数据挖掘定义 .162.2.2 CRISP-DM 过程模型及数据挖掘商业定义 .172.3 四代数据挖掘系统 192.4 数据挖掘系统发展的三个阶段 212.4.1 独立的数据挖掘系统 212.4.2 横向的数据挖掘

3、工具 212.4.3 纵向的数据挖掘解决方案 222.5 问题分析 232.5.1 提出问题 232.5.2 闭环问题 242.5.3 用户问题 252.5.4 过程模型问题 262.5.5 数据挖掘应用平台 282.6 本章小结 28目 录数据挖掘应用平台及其关键技术研究 复旦大学博士学位论文ii第三章 数据挖掘应用平台 293.1 数据挖掘应用平台框架 293.1.1 数据挖掘系统的用户 293.1.2 扩展的 CRISP-DM 模型 .303.1.3 数据挖掘应用平台框架 323.1.4 框架、平台、系统 343.2 数据挖掘应用平台总体设计 353.2.1 体系结构 353.2.2 功

4、能模块 353.3 数据挖掘应用平台关键技术分析 393.3.1 数据源到指标体系的映射 393.3.2 业务模型和算法的映射 393.3.3 数据挖掘模型的融合 393.3.4 数据挖掘模型的表示 403.3.5 数据挖掘应用平台建模语言 423.4 数据挖掘应用平台特色 433.4.1 基于构件的软件设计方法 433.4.2 横向工具和纵向解决方案的融合 433.4.3 与其他数据挖掘系统的比较 443.5 本章小结 45第四章 数据挖掘算法层 474.1 引言 474.2 带负属性的关联规则算法 474.2.1 关联规则研究现状 474.2.2 问题描述 494.2.3 相关概念 494

5、.2.4 算法描述 504.2.5 实验结果 524.3 带时间特征的序列模式算法 TESP534.3.1 序列模式研究现状 534.3.2 问题描述 544.3.3 相关概念 554.3.4 TESP 算法 .564.3.5 试验结果 59目 录数据挖掘应用平台及其关键技术研究 复旦大学博士学位论文iii4.4 决策树算法 DMTREE.604.4.1 分类算法研究现状 604.4.2 问题描述 614.4.3 DMTree 算法设计 .614.4.4 DMTree 的分割指标 .624.4.5 DMTree 的 MDL 修剪 .634.5 基于遗传算法的前馈神经网络分类算法 644.5.1

6、 问题描述 644.5.2 BP 算法 .654.5.3 遗传学习算法 654.5.4 基于遗传学习算法和 BP 算法的前馈网络 .664.6 CLIQUE 聚类算法 664.6.1 聚类研究现状 664.6.2 问题描述 684.6.3 CLIQUE 算法描述 .684.7 异常检测 LOF 算法 694.7.1 异常检测研究现状 694.7.2 问题描述 714.7.3 局部异常 LOF 的形式定义 714.7.4 LOF 算法分析及优化 724.8 本章小结 73第五章 业务逻辑层 745.1 数据挖掘技术在 CRM 领域的应用 745.2 客户特征化和指标体系 745.2.1 客户特征

7、化(Customer Profiling) 745.2.2 客户特征化构建方法 755.2.3 CRM 数据挖掘应用平台的指标体系 755.3 产品推荐模型 765.3.1 基本概念 765.3.2 研究现状 775.3.3 实现的方法 785.4 客户获取模型 795.4.1 基本概念 795.4.2 传统方法 80目 录数据挖掘应用平台及其关键技术研究 复旦大学博士学位论文iv5.4.3 实现的数据挖掘方法 815.5 直销和客户响应模型 .815.5.1 基本概念 815.5.2 传统方法 835.5.3 实现的数据挖掘方法 845.6 客户流失模型 855.6.1 基本概念 855.6

8、.2 直接预测方法 855.6.3 指标选择 865.6.4 流失预测 865.6.5 抑制链式反应 875.7 客户价值模型 875.7.1 基本概念 875.7.2 潜在价值(PV) 885.7.3 生命周期价值(LTV) .885.7.4 实现的方法 895.8 业务模型建模语言 DMAPML895.8.1 业务建模任务 905.8.2 模型 925.9 本章小结 92第六章 基于数据挖掘应用平台的系统 936.1 关联规则挖掘工具 ARMINER936.1.1 系统概述 936.1.2 系统功能 936.1.3 系统特色 946.1.4 系统应用 966.2 数据挖掘工具集 DMINE

9、R.966.2.1 系统概述 966.2.2 系统功能 976.2.3 系统特色 986.2.4 系统应用 996.3 客户智能分析系统 CIAS.1006.3.1 系统概述 .1006.3.2 系统功能 .101目 录数据挖掘应用平台及其关键技术研究 复旦大学博士学位论文v6.3.3 系统特色 .1036.4 本章小结 .104第七章 结束语 .1057.1 本文工作 .1057.2 结论 .1067.3 后续工作 .106参考文献 108攻读学位期间作者的工作成果 115致 谢 116摘 要数据挖掘应用平台及其关键技术研究 复旦大学博士学位论文1摘 要数据挖掘是从大量的数据中发现其潜在规律

10、的技术,是当前计算机科学研究的热点之一。经过十多年的发展,研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。数据挖掘系统也从第一、二代系统转向第三、四代系统的研制。数据挖掘是面向应用的多学科交叉领域,应用推动了数据挖掘技术和理论的研究。而数据挖掘系统是数据挖掘研究和应用的桥梁,对数据挖掘技术的推广起到很大的作用。如何将现有的算法集中在一个统一的框架下,并且与特定的领域相结合,构造出能被各种层次的用户所接受的数据挖掘系统,是数据挖掘系统研究需要迫切解决的问题之一。本文研究第三代数据挖掘系统设计及其实现的关键技术,提出了一个统一的框架,设计并实现了基于第三

11、代技术的数据挖掘应用平台,对数据挖掘系统的建设和发展具有理论和实际的指导意义。本文主要工作如下:1) 提出将数据挖掘系统从技术角度划分为四代,从发展观点经历三个阶段的论断,从而归纳出数据挖掘系统与应用相结合的趋势,提出数据挖掘应用平台的概念。2) 构建了一种新颖的数据挖掘体系结构,将数据挖掘划分成数据层、算法层、业务逻辑层、行业表示层五个层次。本文扩展了 CRISP-DM 数据挖掘过程模型,增加了过程模型对用户角色和闭环特征的支持,在此基础上设计了数据挖掘应用平台的框架和体系结构。提出通用的平台不能解决特定的领域问题,应该和各个领域的业务逻辑相结合构建应用平台,最后在行业具体应用上进行实施的论

12、点。3) 改进和优化了部分数据挖掘算法,提高了算法的性能和适用范围。提出了带负属性的关联规则算法和带时间特征的序列模式算法 TESP。带负属性的关联规则算法引入兴趣度作为评价的准则,并对传统关联规则算法进行改进,使得其能够挖掘带负属性的关联规则。TESP 算法引入序列模式时间特征的概念,在找出模式的同时,也给出序列模式的时间特征,并且允许用户在挖掘之前对模式的这些时间特征进行限制,提高了序列模式挖掘的灵活性和有用性。将遗传算法和 BP 神经网络相结合,研制了基于遗传算法的前馈神经网络分类算法。对决策树算法 SLIQ、局部异常因子检测 LOF 等算法给出了设计和实现上的优化。4) 提出在客户关系

13、管理(CRM)领域构建业务逻辑层的体系架构,利用数据挖掘技术为客户行为建模,设计并实现了五个业务模型:产品推荐、客户摘 要数据挖掘应用平台及其关键技术研究 复旦大学博士学位论文2获取、客户流失、客户价值、客户响应。5) 设计并实现了数据抽取转换装载工具 DMETL、关联规则工具 ARMiner 和数据挖掘工具集 DMiner、以及客户智能分析系统 CIAS。关键词:数据挖掘应用平台、业务逻辑、业务模型、客户行为建模、构件中图分类号:TP302Error! Reference source not found.数据挖掘应用平台及其关键技术研究 复旦大学博士学位论文3AbstractData Mi

14、ning is a process of extracting previously unknown, actionable information from very large database and is a hot field in the research of computer science now. The emphases of research are moving from discovering techniques into system applications after more than ten years development. It now pays

15、more attention to the integration of several discovering strategies and techniques and infiltration of multiple subjects. The data mining systems are moving from 1st, 2nd generations into 3rd, 4th generations.Data mining is an application oriented multiple-subject intersectional field and the data m

16、ining techniques and theories are motivated by applications. Data mining systems are the bridges between data mining researches and applications and play an important role in popularization of data mining techniques. It is an exigent problem to be solved in the research of data mining systems how to

17、 collect existing algorithms under a uniform framework integrating with specific domains and how to construct the data mining systems that can be accepted by different users.In this paper, we have a study on the key techniques in designing and implementing 3rd generation data mining systems and prop

18、ose a uniform framework, design and implement a Data Mining Application Platform based on 3rd generation techniques. It may be a theoretical and practical guidance for the construction and development of data mining systems.The majority of our work is summarized here:1) Propose the conclusion to bre

19、ak the development of data mining systems into four generations from technique aspect and three phases from evolution aspect, then induce the trend that data mining systems should be integrated with applications, and bring forward the concept of Data Mining Application Platform.2) Design a novel dat

20、a mining system architecture that divides data mining into five layers: data layer: algorithm layer, business rule layer, business presentation layer. In this article, we extend the CRISP_DM data mining process model by adding process models support to user role and closed loop, then design the fram

21、ework and architecture of Data Mining Application Platform. We conclude that the universal platform cannot solve the problem in specific domain and we should construct the application platform through Error! Reference source not found.数据挖掘应用平台及其关键技术研究 复旦大学博士学位论文4integrating with business rules, then

22、 implement in specific applications.3) Improve and optimize some data mining algorithms, improve the performance and applicable range of the algorithms. We bring forward the association rule algorithm with negative attributes and sequential pattern algorithm with time characteristicTESP. The associa

23、tion rule algorithm with negative attributes introduces interesting as the criterion of evaluation and makes some improvements to be able to mine association rules with negative attributes. TESP introduces the concept of sequential patterns time characteristic, it gives the time characteristic of se

24、quential patterns when finding the patterns and it also allows user to put some restricts on the time characteristic of sequential patterns in order to improve the usefulness and flexibility of sequential pattern mining. We integrate the genetic algorithms with BP neural network and design a genetic

25、 based backpropagation neural network classifier. We make some optimization on the design and implementation of decision tree algorithmSLIQ and automatic outlier detection algorithmLOF.4) Propose the architecture of designing the business rule layer in customer relationship management (CRM), make us

26、e of data mining techniques to build customer behavior models, design and implement five operation model: product recommendation, customer acquisition, customer attrition, customer value, customer response.5) Design and implement a data ETL toolDMETL, an association rule toolARMiner, a data mining tool setDMiner and a customer intelligent analysis systemCIAS.Key Words: Data Mining Application Platform, business rule, business model, customer behavior modeling, componen

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 教学研究

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报