1、复旦大学硕士学位论文基于模糊聚类的Web日志挖掘研究姓名:魏帆申请学位级别:硕士专业:通信与信息系统指导教师:凌力20070415基于模糊聚娄的日志挖掘研究复旦大学硕士学位论文图表目录图用户访问模式挖掘系统的分类图日志挖掘的过程错误!未定义书签。图日志挖掘中的数据预处理过程表服务器访问日志举例表结构图会话识别 算法描述 表网站层次结构对 会话相似度的影响举例表用户浏览网页的时间对会话相似度的影响举例表聚类结 果总结 表聚类结 果的表示 表各聚类的类内距离和类间距离 图部分聚类结果 图各聚 类中心的类间 距离() 图各聚类中心的类间距离()图系统 的体系结构 表日志记录和数据 预处理功能表结构表
2、用户 聚类模式库 表结构图根据用户聚类模式 库生成推荐集合的算法图部署在服务器上的网站首页图当用 户会话长度没有达到 临界长度时的页面显示图当前用户访司 时页面的显示。图当前用户访习时页面的显示。基于模糊聚类的日志挖掘研究复且大学硬士学位论文基于模糊聚类的日志挖掘研究摘要随着的迅速发展,“信息迷航”和“信息过载”的问题日益制约人们高效地使用信息。为了解决这一严峻的问题,很多研究者提出了个性化推荐系统的概念,即根据用户的兴趣和特点推荐用户感兴趣的信息。而目前应用最广泛的个性化推荐系统应当属个性化推荐网站了。具体的说就是当用户在访问个性化网站的时候, 总有一种感觉,好像整个网站都是为他设计的,特别
3、友好,一切都是那么有用,都是自己当前很感兴趣的东西。因此,使用数据挖掘和人工智能等相关技术对用户的浏览行为进行分析,即对日志进行挖掘已经成为提供个性化服务的一个重要方法。目前,国内外对日志挖掘的研究主要集中在对用户会话的研究上,包括关联规则、协 同过滤、聚类和分类等,其中。聚 类 技术常被用来分析网站用户对网页的兴趣爱好。但是, 传统硬性的聚类只能将用户会话类归于单一聚类中,即事先假设每一个会话只包含单一的兴趣爱好,却忽略该会话可能包含多个兴趣爱好。因此,有学者将模糊聚类应用其中。模糊聚 类算法按照数据对象的不同,可以分为特征向量聚类算法和关系数据聚类算法。对于关系数据聚类算法,国内目前使用较
4、多是基于模糊等价关系矩阵的聚类算法,而对于基于目标函数的关系聚类算法研究并不多。同时,在分析用 户会话相似度时,往往是根据会话之间相同网页的数量或者网站的层次结构来定义会话相似度,而忽略了用户在会话中对各个网页的访问时间,所以容易产生错误的分析结果。本文正是在这一背景下,以 务器日志为研究对象,研究了日志挖掘领域相关的技术,对其中日志预处理、模糊聚类算法以及个性化网站的体系结构等进行了研究和改进,并部分实现了一个具备推荐功能的个性化网站的系统原型。本文的主要工作如下:提出了一个改进的用 户会话相似度的计算方法。该方法既考虑了用户会话之间相同网页的数量对会话相似度的影响,同时又考虑了网站的层次结
5、构和用户在网页上的停留时间对会话相似度的影响,这样可以更加准确的反映用户会话之间的相似度。提出了一个改进的日志数据聚类算法一基于分裂层次的()。算法是一种健壮的,运行速度快,并适合于大数据量数据的模糊分割聚类算法。不过也有传统分割聚类算法的缺点:对初始聚类中心敏感和聚类的个数必须事先给出。这容易导致聚类的主观性和随意性,会影响到正确的聚类结果。而分裂层次算法的优点就在于通过分裂的方法来决定最终聚类的个数。因此,把算法和分裂 层次算法结合起来,可以有效的克服上述缺点。提出了一个个性化在线推荐系统原型。该系统分为离线挖掘和在线推荐两个部分,提供的个性化推荐服务可以直接面向匿名用户。离线挖掘部分主要
6、是利用基于分裂层次的算法对用户会话进行聚类,得到用户会话聚类集并生成推荐模式库。在 线推荐部分主要是获取当前用户会话,然后和推荐模式库中的模式进行匹配,自 动产生推荐页面集,提供 给用户,从而达到个性化推荐的目的。关键词:日志挖掘,模糊聚类,用户会话,个性化推荐系统基于模糊聚类的日志挖掘研究复旦大学硕士学位论文,【,】,、,、,基于模糊聚类的日志挖掘研究复旦大学硕士学位论文,:,第章绪论论文研究背景和选题意义日志挖掘的提出和研究意义随着在信息共享、电子商务和提供在线 服务方面的广泛应用,许多企业投入大量资金建立自己的网站用于发布信息,或在别人的网站上为自己的产品和服务作广告,或在网上开展电子商
7、务活动,它们迫切需要了解这些投资产生的效益和作用,以便改进企业的策略, 获取更多的商业机会,为用户提供更优质的服务。因此,理解用户 的行为对这些企业来说至关重要。用户在网站上的活动隐含了他们的需求和兴趣,如果对用户的行为加以分析,就有可能发现些潜在的规律。了解用 户在网站上的访问模式()和兴趣爱好,有助于 优化网站的组织结构和空间设计,例如:在高度相关的页面或站点之间提供快速有效的访问途径,设计外观和布局更加友好的页面,以方便用户获取信息和服务;改善企业的市场营销策略,例如:对用户进行更为准确的分类,推荐其可能感兴趣的信息和服务, 识别潜在的电子商务客户,在关心企业产品和服务的用户经常访问的页
8、面或站点放置广告;分析和提高服务器的性能和信息服务质量,例如:提供曲页面缓冲、页面预取和页面推荐,改善服务响应时间;为用户提供个性化的服务,例如:为用户动态调整网站结构、页面内容和外观,使其更加符合用户的偏好和信息需求,减轻用户搜索和过滤海量信息的负担。服务器日志记录了用户与服务器的交互信息,对于掌握服务器的运行情况、分析用户需求、维护系统安全、辅助站点维护人员优化站点具有重要作用。对日志采用统计分析和联机分析处理()的方法,可以对常用数据进行汇总,提供关于用户行为的统计报告。但 为了在更深的层次上理解用户的行为和站点的结构,得到诸如用户的访问模式和兴趣爱好等有用信息,就要用到数据挖掘的方法,
9、于是产生了日志挖掘。同传统的数据挖掘一样,日志挖掘主要包括聚类、分类、关 联规则和序列分析。日志挖掘的研究成果主要应用在以下几个方面:()调整网站信息的组织和显示, 优化服务性能。应用目志挖掘学习群体用户的访问模式,并据此做出调整,使网站 对于大多数用户来说更易于访问。这些调整可以是:)根据发现的频繁遍历路径调整网站的超链接结构。)根据发现的频繁访问页面组,在 这些逻辑上相关 联(针对同一主题,或者面向同一类用户)但不在同一条遍历路径的页面之间增加超链接,或把这些页面聚集成类,并 创建索引页面。)合理设置广告页面。()响应每一个用户的特定需求,为其提供个性化服 务。互 联网海量信息与用户狭窄专
10、一需求产生矛盾,方面造成信息资源的巨大浪费,另一方面,为用户寻找所需要的信息造成巨大的困难,因而需要提供个性化的数字服务舢。应用日志挖掘通过对用户访问历史的分析,发现个体用户的访问模式,从该模式中学习、记忆 用户的兴趣、爱好、习惯和需求,建立个性化用户模型。把从曲上获取的资源与个性化模型所描述的信息相比较,可以主动地有选择性地向用户推荐符合其兴趣的个性化信息(如页面、链接、广告、经过裁剪的文本和图片等)。由于滤除了与用户需求无关的信息,因而大大提高了用户获取有用信息的效率。应用日志挖掘建立个性化用户模型的优点在于:基于个性化用户模型把具有相似 兴趣的用户加以聚类,还可以根据同一聚类用户的兴趣和
11、爱好向个体用户推荐其最有可能需要的信息。)个性化用户模型是从用户的访问模式中动态提取的,能够随着用户需求的改变而不断调整,因而总是反映用户当前最新的兴趣和需求。)模型具有一般性的特点,适用于所有的用户。钔不需要用户对自己的兴趣、爱好和需求进行描述。有时用户对自己的需求很难清楚、明确地表达出来,而用户的行为自然地反映了其兴趣和需求。借助于服务器日志中的客观数据自动发现用户的兴趣和需求,能够减少主观性和减轻用户参与的负担。()提供在线推荐和页面预取机制。由于用户的增加和网络固有的延迟,用户对服务器的请求常常得不到及时的响应。为了提高服务质量,浏览器提供缓冲机制,把用户曾经访问过的页面保存在本地机器
12、,以便减少再次获取该页面的时间,平衡网络的负载,提高响应速度。而 预取却是对用户未来的请求进行预测,把用户可能访问的页面预先取回放在本地或代理服务器,当用户要 访问这些缓冲过的页面时,就不必从远程服务器传输了,这样能大大减少用户等待的时间。因此, 预取是一种主 动的缓冲。可以将用户当前的访问情况与应用日志挖掘技术发现的模式(如频繁遍历路径或频繁访问页)进行匹配,确定用户当前所遵循的浏览模式,并分析当前请求页面中的每一个超链接,从反映用户兴趣的角度计算每一条超链接的质量,并把质量大于指定阀值的超链接推荐给用户或将其指向的页面预先取到本地】。()发现商业智能, 辅助商 业决策。在电子商务网站,把日
13、志和顾客交易信息相结合进行挖掘,能够发现关联购买集合、顾客的购买趋势,以及潜在顾客对商品的兴趣,从而 对商品信息在页面的显示进行调整以方便顾客浏览和购买,为顾客推荐相关商品,预测顾客的购买兴趣, 还可以把潜在的顾客转变为实际的购买。论文选题的意义目前对日志挖掘的研究,主要是集中对用户会话(用户在指定时间内对某网站的一次浏览路径)的研究。用户会话可能包含了多种信息需求。例如某一使用者对于“书籍”、“软件”和“硬件”的信息都很有兴趣,因而浏览了网站上有关这三方面的网页,因此在会话中就会隐含了三种信息需求。然而,利用传统硬性聚类技术来分析用户会话时,只能将用户会话归类到某个较偏好的网页群组中,而忽略
14、了会话中用户对其它网页的偏好。因此,容易造成不合理的分析。由于日志具有数据量大的特点,所以应用传统的模糊聚类算法(如模糊基于模糊聚类的日志挖掘研究复旦大学硕士学位论文均值)对日志进行挖掘,效果并不是很好。同 时,在计算用户会话之间的相似度时,大多数只考虑了用户访问的相同网页的数量和网站的层次结构,却忽略了体现用户兴趣的一个重要因素:用户浏览网页的时间,所以计算出来的相似度可能并不准确,对结果的正确性会造成一定的影响。因此,针对用户兴趣的模糊性、非单一性以及日志数据的特点,使用高效率的模糊聚类算法对用户会话进行模糊聚类,可以在很大程度上避免传统聚类的非此即彼的硬性和低效率。通过对聚类结果可以分析
15、用户访问的模式,设计出 满足不同客户群体需要的个性化推荐网站。国内外研究现状目前,国内外有关日志挖掘的研究己经有很多,主要集中在对用户会话进行挖掘【肫,以便发现用户的访问模式。现在己经可以看到很多有价值的研究和应用成果。文献】中提出了一个基于代理的软件,该软件通过分析用户访问日志预测哪些页面是用户感兴趣的页面。文献【 】中介 绍的系 统采用了分类算法来划分用 户的上网访问的历史记录信息,划分出的每一个分类代表用户在这方面的一个兴趣。文献【 】研究了一种文档聚类算法,利用 该算法可以改善网站的设计。但没有考虑个性化推荐的问题。文献设计了一个挖掘算法,利用模糊集理论挖掘用户浏览模式。文献所介绍的系
16、统是一个主动推送网页的系统。它每天提供一些可能会让用户感兴趣的网页,用户根据自己的兴趣来评价这些网页,系统则根据这个评价信息自我调整,从而改善推送系统性能。 该方法需要用户参与评价。文献】设计 了一个个性化的新 闻站点, 结合用户的反馈信息提供个性化服务。文献【提出了两种个性化网站的方案及其实现,包括了用户定制和计算用户兴趣度的方法。文献研究了如何跟踪用户的兴趣变化。对用户访问模式的研究主要还是将数据挖掘技术应用于日志数据中,或者是将日志数据经过一定的转换保存在数据库或数据仓库中,再直接利用数据挖掘技术产生用户访问模式。主要的方法有以下几种:()统计分析。 统计技术是最常见的获取用户访问模式的
17、方法,可以通过统计计算得到访问频率最高的网页、网页的平均浏览时间以及访问路径的平均长度等统计信息。 虽然这些统计信息不是很深刻的分析,但是再实际应用中可以很好地改善系统性能,增强系统安全性, 为网站拓扑结构地改造提供依据以及为电子商务的销售决策提供支持等。()关联规则。在挖掘领域中,关联规则指的是 满足给定置信度的网页关系,这些网 页往往被同时浏览,即使它 们之间没有超链接存在。这些关联规则可以帮助网站设计者改造网站的拓扑结构或是作为通过“提前取页“技术来减少基于模糊聚类的日志挖掘研究复旦大学硕士学位论文网页的切换延迟的启发规则。()聚类【。聚类是指把具有相似性质的事物分在一组。在挖掘领域中,
18、主要是对网站的用户进行访问模式的聚类和对网页进行内容聚类。网站用户访问模式的聚类知识可以应用于个性化网站中,为不同类别的用户动态生成针对该类用户个性的网页。网 页内容的聚类则多被用于搜索引擎的实现。“)分类。分 类是把一个事物按照预先定义好的分类方法分组。通过对网站现有用户进行聚类所得到的类别特征的抽取与选择,可以得到用以判断新用户所属类别的分类依据。()序列模式。序列模式的挖掘致力于发现用户 与网站的会话内所浏览的网页之间在时间顺序上的关联关系。利用已经发现的频繁序列模式可以预测用户未来的访问情况。从年以来出现了许多针对不同日标的分析用户模式的研究项目和商业软件。以下作一个简单的分类。分 类
19、的标准很多,其中主要的五种是:)获 取输入的数据来源(服务器代理服务器客户机);)输 入数据的类型(结构内容使用数据用户注册信息):各数据集中包含的用户个数(单个多个);)各数据集中包含的网站个数(单个多个):)该项目产品所针对的应用领域类型(通用型,个性化服务型网站修改型特征描述型和系统改进型)。具体的分类结果如图所示:图用户访问模式挖掘系 统的分类论文的组织和主要内容基于模糊聚类的日志挖掘研究复旦大学硬士学位论文论文的 组织本文的后续章节按照如下的方式组织:第章概述了数据挖掘和挖掘技术的基础,包括定义、概念和分 类,后面重点介绍了日志挖掘的内容、难点和研究方向,并对挖掘的一般过程进行了深入
20、分析和总结。第章主要介绍了模糊聚类的基础知识,包括模糊集的基础知识和模糊聚类理论的发展。最后 详细介绍了聚类的经典算法均值算法以及应用模糊集理论后产生的模糊均值算法。第章详细描述了日志 预处理的整个过程,包括数据清洗、用户识别和会话识别等。并 详细介绍一种改进的用户会话相似度的计算方法,最后通过一些实验数据说明计算的整个过程。第章首先详细介绍了和模糊聚类算法,并分析算法的优点和缺点。并针对该算法的缺点提出了改进的算法一基于分裂层次的算法。最后通过实验数据来说明该算法的优越性。第章结合前面的日志挖掘技 术,给出了一个个性化在线推荐实验系统原型。主要介绍了该系统的特点、 设计思想和结构。第章总结了
21、本文的工作,并给出了进一步的研究方向。论文的主要内容论文的工作是研究模糊聚类在日志挖掘中的应用。主要内容有以下几个方面:()提出了一个改进的用户会话相似度的计算方法。该方法既考虑了用户会话之间相同网页的数量对会话相似度的影响,同时又考虑了网站的层次结构和用户在网页上的停留时间对会话相似度的影响,这样可以更加准确的反映用户会话之间的相似度。()提出了一个改进的日志数据聚类算法一一基于分裂 层次的()。算法是一种健壮的,运行速度快,并适合于大数据量数据的模糊分割聚类算法。不过也有传统分割聚类算法的缺点:对初始聚类中心敏感和聚类的个数必须事先给出。这容易导致聚类的主观性和随意性,会影响到正确的聚类结
22、果。而分裂层次聚类算法的优点就在于通过分裂的方法来决定最终聚类的个数。因此,通过把算法和分裂 层次聚类算法结合起来,可以有效的克服上述缺点()提出了一个个性化在线推荐实验系统原型。该系统分为离线挖掘和在线推荐两个部分,提供的个性化推荐服务可以直接面向匿名用户。离线挖掘部分主要是利用基于分裂层次的算法 对用户会话进行聚类,得到用户会话聚类集并生成推荐模式库。在线推荐部分主要是获取当前用户会话,然后和推荐模式库中的模式进行匹配,自动产生推荐页面集,提供给用户,从而达到个性化推荐的目的。基于模糊聚类的日志挖掘研究复旦大学硕士学位论文第章数据挖掘与挖掘技术数据挖掘和挖掘技术概述数据挖掘的定义和分类数据
23、挖掘()是近年来随着数据库和人工智能技术的发展而出现的一种全新的信息技术,是指从数据中提取模式的过程。同时,数据挖掘又是一种决策支持过程,高度自动化地分析企业原有数据,做出归纳性推理,从中挖掘出潜在地模式,预狈客 户的行为帮助企业 决策者调整市场策略,减少 风险,做出正确决策。数据挖掘可简单理解为:从数据中挖掘有用的信息,这样既能反映数据挖掘的目的,同时 ,也 说明了数据挖掘所 处的阶段。数据是一个抽象的概念,数据的特征化是数据挖掘的一个过程(步骤)。由于数据挖掘是针对海量数据中有效信息的提取,数据挖掘是一个过程,首先 应对过程提供一个合理进行的规则;其次是挖掘,挖掘是个动词,在还没有确定主动
24、者与被动者的关系时,是无法确定“挖掘”应该使用什么时态和语态的;第三是有用的信息,数据挖掘的信息只有有用才能确定其作用。总之,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下, 汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可 视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。目前存在很多数据挖掘方法或算法,有必要对这些方法进行分门别类。从不同的角度看,数据挖掘技术有以下几种分类方法:挖掘对象、挖掘任务、挖掘技术。()根据挖掘对象分,有如下若干种数据 库或数
25、据源:关系数据 库、面向 对象数据库、空 间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产()数据库,以及互联网()。()根据挖掘任务分,有如下几种知识发现任务 :分类或预测模型知识发现、数据总结、数据聚 类、关联规则发现、序列模式 发现、依 赖关系或依赖模型发现、异常和趋势发现等等。如果以挖掘知识的抽象层次划分,又有原始层次()的数据挖掘、高层次()的数据挖掘和多层次()的数据挖掘。应用比 较多的有一下几种:)聚类法()聚类算法是通过对变量的比较,把具有相似特征的数据归于一类。因此,通过聚类以后,数据集就转化为类集,在 类集合中同一类中数据具有相似的变量值,不同类之间数据的变
26、量值不具有相似性。区分不同的类是属于数据挖掘过程的一部分,这些类 不是事先定义好的,而是通 过聚类算法采用全自动方式获得通常,聚类过程是数据挖掘过程的第一阶段。它首先把数据区分于不同的类,以便于做进一步的分析。基于模糊聚类的日志挖掘研究复旦大学硕士学位论文)分类法()分类法是最普通的数据挖掘方法之一它试图按照事先定义的标准(如通过检查没有通过检查等)对数据进行归类。)关联规则它要做的是从用户指定的数据库采掘出满足一定条件的依赖性关系。关联规则形如“一,支持度,置信度 ”,其中和是用 户指定的支持度和置信度的门限值,这种关联规则挖掘可以在不同的抽象概念层次上进行。例如焉:“尿布啤酒,支持度,置信
27、度”与:“婴儿用品类分饮料类,支持度一,置信”相比, 岛在更高的抽象层次上,更 为宏观,因而有较大的支持度和置信度,更适合高层决策需要。如今,关联规则 是商业销售、股票价格、 银行交易等许多领域进行数据挖掘的常用手段。对关联规则的研究则由串行算法转向并行算法;由对布尔型数据的挖掘转向对数值型数据()的挖掘。)总结()规则挖掘它要做的是从用户指定的数据库中挖掘出(以不同的角度或在不同的层次上的)平均最小,最大、总 和、百分比等等。挖掘结果用交叉表、特征规则、统计的曲线图表等表示。)预测()分析当分类的工作偏向于插入漏掉的数据、预测数据分类或发展的趋势时,这时的工作称为预测分析。)趋势()分析趋势
28、分析又叫时间序列分析,它是从相当长的时间内的发展趋势中发现规律和趋势。)偏差()分析偏差分析称为比较分析,它将找出一系列判别式的规则,以区别用户设定的两个不同类。()根据挖掘任务分,大多数数据挖掘的方法都基于机器学习、模式 识别和统计学等领域。最常用的数据挖掘技术是:)统计分析方法()主要用于完成总结知识和关联知识挖掘。对关系表中各属性进行统计分析,找到它们之间存在的关系。在关系表的属性之间一般存在两种关系:函数关系(能由函数公式表示的确定性关系);相关关系(不能用函数公式表示的关系)。对它们可采用回归分析、相关分析、主成分分析等统计分析方法。)决策树()利用信息论中信息增益寻找数据库中具有最
29、大信息量的字段,建立决策树的一个节点,再根据字段的不同取值建立树的分支;在每个分支子集中重复建立下层节点和分支, 这样便生成一颗决策树。接下来还要对决策树进行剪枝处理,然基于模糊聚类的曰志挖掘研究复旦大学硕士学位论文后把决策树转化为规则,利用这些规则可以对新事例进行分类。典型的决策树方法有分类回归树()、,等。典型的应用是分类规则的挖掘。)遗传算法()遗传算法是基于达尔文的进化论中基因重组、突变和自然选择等概念。这些算法作用于对某一特定问题的组可能的解法。它们试图通过组合或“繁殖”现存的最好的解法来产生更好的解法。利用“适者生存”的概念使较差的解法被抛弃,从而导致解法的集合,即繁殖的结果得到改
30、善。通常,解法的随机突变用来防止算法受阻于好的但并非最优的解法。)神经网络()人工神经网络是模拟人类的形象直觉思维、是在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,通 过简化、归纳、提 炼总结出来的一类并行处理网络。利用其非线性映射的思想和并行处理的方法,用神经网络本身结构可以表达输入与输出的关联知识。它以模型和学习规则为基础,建立三大类多种神经网络模型:前馈式网络、反馈式网络、自组织网络,完成输入空间与输出空间的映射关系,是通过网络结构不断学习、调整,最后以网络的特定结构来表达的,没有显式函数表达。)粗糙集方法()粗糙集方法是模拟人类的抽象逻辑思维,它以各种更接近人们对事物的描
31、述方式的定性、定量或者混合信息为输入, 输入空间与输出空间的映射关系是通过简单的决策表简化得到的,它通过考察知识表达中不同属性的重要性,来确定哪些知识是冗余的,哪些知识是有用的。 进行简化知识表达空间是基于不可分辨关系的思想和知识简化的方法,从数据中推理逻辑规则作为知识系统的模型。它是基于一个机构(或一组机构)关于一些现实的大量数据信息,以对观察和测量所得数据进行分类的能力为基础,从中发现、推理知识和分辨系统的某些特点、过程、对象等。)模糊集方法()利用模糊集合理论对实际问题进行模糊聚类分析、模糊评判、模糊决策和模糊模式识别。模糊性是客观存在的,系 统的复杂性越高,精确化能力越低,也就意味着模
32、糊性越强。这是总结出的互克性原理。以上提到的模糊方法都取得了较好的效果。)关联规则()关联规则是描述数据库中数据项之间存在潜在关系的规则,数据项之间的关联即根据一个事务中某些项的出现,可推导出另一些项在同一事务中也出现,挖掘关联规则的问题可以分为:发现最大项目集和生成规则两个步骤。丽发现最大项目集是挖掘关联规则的核心。关联规则挖掘算法中,最初有和两个算法,但它们在执行过程中产生了很多不必要的候选项目集,计算机较大。而算法是挖掘关联规则的经典算法。因而在关联规则挖掘中处理的数据量很大,所以需要采用一些有效的技术来提高算法的效率。另外可以使用并行技术来解决。在并行算法中涉及了计算、通 讯、内存利用
33、等的 协调关系。其 实,有价值的关联规则经常出现在相对较高的概念层上,从较低的概念层中很难发现有基于模糊聚类的日志挖掘研究复旦大学硕士学位论文用的关联规则。目前关 联规则已经从单一的概念层发展到多概念层上,在概念层上一层层往下,从一般到具体, 发现的关联规则能提供的信息也更具体,这是个逐步深化的知识发现过程,成为广义关联规则。曲挖掘的概念及其分类目前是一个巨大的、分布广泛的、全球性的信息服务中心,它涉及新 闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。还包含了丰富和动态的超链接信息,以及页面的访问和使用信息,这为数据挖掘提供了丰富的资源。然而,挖掘不 仅仅 是数据挖掘算法在数据上的应用,同 传统的数据库数据相比,数据具有其特殊性,其特点就是数据没有严格的结构模式、含有不同格式的数据(文本、声音、图像等)、面向显示的文本无法区分数据类型,并且存在大量的冗余和噪声,同 时曲是个动态性极强的信息源,所以面向的数据挖掘研究极具挑战性。挖掘实现对存取模式、 结构和规则 ,以及 动态内容的查找。挖掘可以将文档进行分类、寻