1、广东工业大学考试试卷 ( A卷 )课程名称: 数据挖掘 试卷满分 100 分考试时间: 2013 年 7 月 3 日 (第 19 周 星期 三 )题 号一二三四五六七八九十总分评卷得分评卷签名复核得分复核签名一、请写出遗传算法的主要算法流程。(5分)二、请创建一个matlab函数,用于绘制出在0, 1区间内的函数图像。(5分)三、超级市场的销售系统记录了顾客购物的情况,下表中记录了5个顾客的购物单。记录号所购物品清单1啤酒、尿布,婴儿爽身粉,面包,雨伞2尿布,婴儿爽身粉,牛奶3啤酒、尿布,牛奶4尿布,啤酒,洗衣粉5啤酒,牛奶,可乐饮料超市经理想知道商品之间的关联,要求列出那些同时购买的、且支持
2、度60%(即在5行中至少出现3次)的商品名称,然后找出置信度不低于70%的有用规则。(15分)学 院: 专 业: 班级 学 号: 姓 名: 装 订 线四、在对某位观众进行电影喜好的调查研究中,收集到如下问卷的结果:(15分)电影序号电影来源故事背景放映时间总评1欧美历史剧白天好2大陆现代剧晚上差3港台现代剧晚上中4欧美历史剧白天差5大陆历史剧晚上好6大陆历史剧白天中7港台现代剧晚上中现在影院准备上映一部新的大陆、历史剧,并选择晚上放映,请用朴素贝叶斯方法判断此观众对新电影的评价。(20分)五、假定公司收集了下表数据,那么对于任意给定的客人(测试样例),你能帮助公司将这位客人归类吗?请采用ID3
3、算法对给定的数据集生成决策树,用于判断顾客对电脑的购买意愿,画出相应的决策树。(20分)顾客编号年龄收入信誉度是否购买1青高良否2青高优否3中高良是4老中良是5老低良是6老低优否7中低优是8青低良是六、现有、,请用K-means方法对其进行聚类,样本间的距离公式采用函数计算,将所有点聚成和两类,计算过程中每类的中心点用和表示,用样本均值计算类中心,以和作为初始聚类中心,须写清每次迭代的结果。(20分)七、请将下列用matlab实现KNN算法的代码补充完整。(每小空2分,共20分)function c=knn(X,Y,t,k) % 主函数n, m=_(1) ; % 取得样本集X的行数和列数N=z
4、eros(k,2); % 用于存放k个近邻for i=1:k N(i,1)=i; %记录样本序号 N(i,2)= _(2) ; %计算样本与目标的距离end;i_max=find_max(N); %找出最远的近邻for i= (3) , d=dist(X(i,:),t); if d (4) %如果条件成立,则替换最远近邻 N(i_max,1)=i; N(i_max,2)= (5) ; i_max= (6) ; endendYN=Y(N(:,1); % 记录最终k个近邻的分类编号(7)=max(YN); cn=0;for i=1:q %找出近邻数最多的类编号 if cnlength(find(YN=i) c=i; cn= (8) ; end;end; (9) d=dist(x,y) % 用于计算样本间的距离的函数d=sqrt(sum(x.*y); function i_max=find_max(N) % 找出最远近邻的编号i_max=1; % 用于存放最远近邻的编号k=size(N,1);for i=2:k if (10) i_max=i; end;end;(全卷结束) 广东工业大学试卷用纸,共3页,第3页