1、互联网数据挖掘应用 以C为例,卢兴普,管理科学系,香港城市大学,mshplocityu.edu.hk,.引言,数据挖掘,客户关系管理,互联网,Data Mining,CRM,The Web,A. 互联网,US$B,每天有超过2亿人网上冲浪大量的数据可以从互联网上获得 仅有2%的互联网数据被分析,B. 客户关系管理(CRM),互联网公司,要求使用客户关系管理来同客户建立个性化的关系,要在“信息密集”和“竞争激烈”的环境下生存,C. 数据挖掘工具,有许多的软件和web提供商可以帮助挖掘web日志文件(log file).大部分研究“访客层(visitor level)”的“点击流(click st
2、ream)”。为了进行客户关系管理,就必须分析“客户层(customer level)”的web日志文件。已经开发的SAS宏程序(macro)和企业数据挖掘(Enterprise Miner)非常适合使用.,Cityjob.COM,提供了香港主要公司的职位信息,平均每天超过几千次的访问客户量,研究期间: 2000年12月11日 - 2001年2月4日三种文件类型: Web日志文件; 用户资料库; 职位资料库.,. 数据,#Software: Microsoft Internet Information Server 4.0 #Version: 1.0 #Date: 2000-12-11 00:
3、00:00 #Fields: date time c-ip cs-username s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query sc-status sc-win32-status sc-bytes cs-bytes time-taken cs(Cookie) 2000-12-11 00:00:00 208.223.166.3 - W3SVC4 PROD5_WEB 202.130.170.225 GET /default.asp - 200 0 15838 645 1297 RMID=d0dfa603398e
4、0850;+CityjobID=LASTUPD=20001130+ASPSESSIO,Web 日志文件,2. 用户资料库,Contd,3. 职位资料库,Web日志文件,用户资料库,职位资料库,Subscribers data files,Jobsdata files,Web log files,A: 读取web日志文件,B: 清理数据文件,C: 创造新的变量,D: 合并数据文件,E: 产生不同的 SAS 数据文件,SAS 宏程序可以进行下列任务:,有用的信息:,用户资料库职位资料库Web日志文件Web日志文件 + 用户IDE. Web日志文件 + 职位ID,Time Spent on a Pa
5、ge (in sec),Time Spent Per Visit (in sec),最受欢迎的职位,. 协同过滤 (collaborative filtering),使用关联规则(By Association Rules),当访问者查询一个职位时,我们可以推荐一些与之高度相关的职位. 关联规则基于所有访问者的点击历史记录。,Job A: cityjobCF520: Title: Assistant Accountant; Qualification: Diploma; Working experience: one year,那么,Job B: cityjobCF180: Title: Ass
6、istant Accountant; Qualification: Diploma; Working experience: three year Job C: cityjobCF100: Title: Assistant Accountant; Qualification: University/College; Working experience: not specified Job D: cityjobCEUJ0: Title: Assistant Accountant; Qualification: Not specified; Working experience: two yea
7、rs,例如,如果:,这四份职位 50.3% 的置信度 (Confidence Value): 如果一个访问者查询了职位A, 则他查询职位B, C, 和 D 的概率是 0.503; 298.46 的提升(Lift value)值: 如果一个访问者查询了职位 A, 则他查询职位B, C, 和 D 的可能性是一个随机选择访问者的将近300倍.,2. 使用人气指数,Job A: cityjobCDU20Title: EXECUTIVE TRAINEE - INVESTMENT PRODUCTS, Type: FIN, Working Experience: 0, Qualification: UC,
8、Industry: BNK, Level: JUN, Index of popularity: 64.9.,那么(相同的类型, 行业和资格要求),Job B: cityjobCM470Title: ASSOCIATE (TREASURY), Type: FIN, Working Experience: 3, Qualification: UC, Industry: BNK, Level: JUN, Index of popularity: 59.2. Job C: cityjobCM470Title: ASSOCIATES (CRM), Type: FIN, Working Experienc
9、e: 2, Qualification: UC, Industry: BNK, Level: JUN, Index of popularity: 44.6. Job D: cityjobCFLC0Title: DEALER & INVESTOR ADVISOR, Type: FIN, Working Experience: 3, Qualification: UC, Industry: BNK, Level: PRO, Index of popularity: 36.6.,例如,如果:,. 预测模型,用户流失模型 (churn model)发掘很有可能会终止访问网站的用户,C 可以采取相应措施
10、保留他们。通常保留他们比吸引他们回来代价小的多。 2. 受欢迎职位模型 (popular job model) 职位有什么特征能吸引更多访问者?这与职位类型和行业有关吗?,1. 用户流失模型 样本: C的所有用户. 因变量: Visit = 1 如果用户在研究期间 仅访问了一次 C; Visit = 0 其余 (用户在研究期间有重复访问C).,自变量: 性别; 年龄; 教育水平;是否 喜欢电脑游戏;国籍;注册时间。抽样过程: 分层抽样 根据因变量 “Visit” 抽取相同数目 的两组样本 (Y=1 和 Y=0). 数据分割:训练数据集 70% 验证数据集 30%,提升图用户流失模型 (logi
11、stic regression ) 重要的自变量:注册时间;教育水平, 性别 是否喜欢电脑游戏.,2.受欢迎职位模型 样本 : 在 C上公布的所有职位. 因变量: Popular = 1 如果该职位被访问了至少20次, Popular = 0 其余 (该职位被访问次数小于20次).,自变量: 职位类型,职位行业,职位水平,资格要求,工作经验数据分割: 训练数据集 70%, 验证数据集 30%缺失值: 工作经验和资格要求的缺失值分别用 0 和 3 (高中毕业) 替代.,提升图受欢迎职位模型(logistic regression )重要的因变量:1. 资格要求越高(越有可能)2. 水平越高(越有
12、可能) 3. 职位行业: 会计,银行,建筑,(越有可能)4. 职位类型: 艺术/设计/创意,工程,销售 (可能性小),V. 访问次数的分布模型,访问次数 (r) 012345 访问的用户数 (fr) f0f1f2f3f4f5 102076 5859 2610 1404 837 534确定一个分布 使用 Ur 散点图To plot Ur = (r*fr)/fr-1 against r,对数级数分布 (logarithmic series distribution, LSD),Ur 散点图的直线截距为负值表明可以使用对数级数分布来拟合数据 PrX=x = x/x-ln(1- ) x=1,2,3,在
13、本例 =0.85,理论背景,网站的访问服从泊松过程(Poisson Process)访问次数服从参数为的泊松分布由于个体的多样性,服从伽马分布 (gamma distribution)结合起来是一个参数为k和p的负二项分布 (negative binomial distribution) 一个截断(truncated)的负二项分布,当k非常小时是一个对数级数分布 (LSD),一些结论,新用户的平均访问次数 /ln(1+) (1.38)重复访问者占有的访问量 (0.85)重复访问者占有的用户数 1+ln(1+)/ln(1-) (0.68)至少访问了r 次的用户占有的访问量 (0.85r-1),网页设计 a.开发协同过滤系统 b.包含人气指数,建议,2. 营销战略,a. 采用适当的营销战略保留用户,b. 开发C自己的网页监视系统,