收藏 分享(赏)

基于演员信息调查结果的数据挖掘.doc

上传人:dreamzhangning 文档编号:2241547 上传时间:2018-09-07 格式:DOC 页数:18 大小:576KB
下载 相关 举报
基于演员信息调查结果的数据挖掘.doc_第1页
第1页 / 共18页
基于演员信息调查结果的数据挖掘.doc_第2页
第2页 / 共18页
基于演员信息调查结果的数据挖掘.doc_第3页
第3页 / 共18页
基于演员信息调查结果的数据挖掘.doc_第4页
第4页 / 共18页
基于演员信息调查结果的数据挖掘.doc_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、1商务智能与数据挖掘数据挖掘技术在电影行业中的应用基于演员信息调查结果的研究2目录1 商业理解 11.1 研究背景与目的 .11.2 研究对象 .11.3 研究方法 .12 数据理解 .12.1 数据的收集 .12.2.数据预处理 .23 数据准备 23.1 数据输入 .23.2 数据编码 .34.建立模型 54.1 决策树模型 .54.2 关联规则模型 .94.3 BRP 神经网络模型 .124.3.1 训练 .124.3.2 测试 .145. 总结 1531 商业理解1.1 研究背景与目的在当今的电影行业中,导演在选取演员时很多都是凭感觉和推荐,很好去挖掘演员信息来确定,在薪酬方面也不合理

2、,有些导演为了提高电影票房,一味的去选取知名度较高的明星及所谓的大腕,付予高报酬,大大地增加了其制作成本。本文通过对演员调查信息的分析,找出与收入有关的因素,并分析其规则。为导演在选取演员和决定所付薪水时提供依据,有效地减少制作成本。1.2 研究 对象本文主要以 Movie Survey 中所调查的演员为研究对象来对演员的 Income 进行分析,找出其有关因素。1.3 研究 方法主要采用的是决策树技术、关联规则、神经网络3种数据挖掘方法,对大量的演员信息调查数据进行分析与挖掘,最后形成相关数据模型。2 数据理解2.1 数据的收集本文主要是以MovieSurvey.mdb中所调查的演员为研究对

3、象,由于所调查的演员数量较多有3500多条,并且某些演员信息不全,经筛选后这里只取了信息完整的,所在国家为United States的Female演员,一共有310条记录。将前200条记录作为训练集,后面110条数据作为测试集。2.2.数据预处理由于准备用于挖掘的演员信息表中的属性个数较多,有22个。为了便于决策树模型的建立,选择其中与Income属性相关性较大的Age ,Education Level, Marital Status, Home Ownership, Num Children, Num Cars, Theater Freq 4七个属性作为建立Income分类决策树模型的依据,

4、生成新的演员信息基本数据表。3 数据准备3.1 数据输入(1)在数据窗口,选择菜单“文件新建数据窗口”,建立一个新的数据文件。如图 3-1。图 3-1 进入数据窗口(2)在数据窗口,点击工具栏上的变量设置按钮,切换到变量窗口。并进行变量设置如下:图 3-3 变量设置(3)数据录入53.2 数据编码编码规则:1. 变量 Age 属性:2030 用 “1”表示,3040 用“2” 表示,4050 用“3”表示,5060用“4”表示2. 变量 Education level 属性:masters degree 用“1”表示,Post-Doc 用“2”表示,Bachelors degree 用“3”表

5、示,some college 用“4”表示,Doctorate 用“5”表示,Associates degree 用“6”表示,Grade School 用“7”表示,high school 用“8”表示。3. 变量 Home Ownership 属性:Own 用“1”表示,Rent 用“2”表示4. 变量 Marital Status 属性:Married 用“1”表示,Never Ma 用“2”表示,Separate 用“3”表示,Other 用“4”表示5. 变量 Num Children 属性:用 0、1、2、3 表示实际个数6. 变量 Num Cars 属性:用 0、1、2、3、4

6、表示实际个数7. 变量 Theater Freq 属性:Rarely 用“1”表示,weekly 用“2”表示,Monthly 用“3”表示,Never 用“4”表示6编码后结果如下7图 3-4 编码后数据表(图中为一部分)4.建立模型4.1 决策树模型用决策树方法进行挖掘的步骤和结果如下所示:1.选择数据挖掘决策树图 4-1 选择数据源2.选择决策树方法8图 4-23.数据源、决策树相关设置其相关设置如图 4-4 和图 4-5 所示。图 4-3 数据源设置图 4-4 变量设置9图 4-5 决策树设置4.得出统计信息(1)决策树描述: 所处理记录个数:200;丢弃的记录个数:2;决策树正确率:

7、100.0,(分裂时一个分支的最小样本数大于 2 ,连续值分叉结点的最大分叉数 3;生成树方法为信息熵 ;树剪枝的方法:深度剪枝,最大深度为 5) (2)决策树结果见图 4-610图4-6 决策树(3) 决策树变量分类重要性决策树变量分类重要性变量名称 重要性Education Level 87.22Home Ownership 55.91Marital Status 100.00Theater Freq 58.12Customer ID 62.26Age 58.02Num Children 29.32Num Cars 58.78表4-7决策树变量分类重要性(4)相关规则有决策树结果信息和变量

8、属性的表示方法可以得到 65 条规则.由于规则较多,下面选取的是可信度为 100%的规则一共 19 条规则 4如果: Marital Status 属于 Married并且: Education Level 属于 Bachelors Degree并且: Customer ID 属于 884765.99 ,891464.40)并且: Theater Freq 属于 Never那么: Income = 150000(可信度 100.00%)规则 9如果: Marital Status 属于 Married并且: Education Level 属于 Bachelors Degree并且: Cust

9、omer ID 属于 =904861.20并且: Home Ownership 属于 Rent那么: Income = 60000(可信度 100.00%)规则 15如果: Marital Status 属于 Married并且: Education Level 属于 Masters Degree并且: Age 属于 32.00 ,37.40)并且: Num Cars 属于 =2.20那么: Income = 150000(可信度 100.00%)规则 17如果: Marital Status 属于 Married并且: Education Level 属于 Masters Degree并且:

10、 Age 属于 =37.40并且: Customer ID 属于 890003.33 ,900478.00)那么: Income = 100000(可信度 100.00%)规则 24如果: Marital Status 属于 Married并且: Education Level 属于 Associates Degree并且: Customer ID 属于 =892014.2711那么: Income = 75000(可信度 100.00%)规则 26如果: Marital Status 属于 Married并且: Education Level 属于 Doctorate并且: Theater

11、Freq 属于 Weekly那么: Income = 120000(可信度 100.00%)规则 28如果: Marital Status 属于 Married并且: Education Level 属于 Doctorate并且: Theater Freq 属于 Never那么: Income = 100000(可信度 100.00%)规则 29如果: Marital Status 属于 Married并且: Education Level 属于 Grade School那么: Income = 70000(可信度 100.00%)规则 44如果: Marital Status 属于 Neve

12、r Ma并且: Education Level 属于 Masters Degree并且: Age 属于 =36.40并且: Theater Freq 属于 Monthly那么: Income = 60000(可信度 100.00%)规则 49如果: Marital Status 属于 Never Ma并且: Education Level 属于 Doctorate那么: Income = 100000(可信度 100.00%)规则 50如果: Marital Status 属于 Never Ma并且: Education Level 属于 High School那么: Income = 800

13、00(可信度 100.00%)规则 51如果: Marital Status 属于 Separate并且: Education Level 属于 Bachelors Degree那么: Income = 200000(可信度 50.00%)规则 52如果: Marital Status 属于 Separate并且: Education Level 属于 Doctorate那么: Income = 135000(可信度 100.00%)规则 53如果: Marital Status 属于 Separate并且: Education Level 属于 Post-Doc那么: Income = 10

14、0000(可信度 100.00%)规则 58如果: Marital Status 属于 Divorced并且: Education Level 属于 Bachelors Degree并且: Home Ownership 属于 Own并且: Customer ID 属于 =890170.80那么: Income = 75000(可信度 100.00%)规则 59如果: Marital Status 属于 Divorced并且: Education Level 属于 Bachelors Degree并且: Home Ownership 属于 Rent那么: Income = 45000(可信度 1

15、00.00%)规则 60如果: Marital Status 属于 Divorced并且: Education Level 属于 Masters Degree并且: Theater Freq 属于 Rarely那么: Income = 80000(可信度 100.00%)规则 62如果: Marital Status 属于 Divorced并且: Education Level 属于 Masters Degree并且: Theater Freq 属于 Monthly那么: Income = 65000(可信度 100.00%)规则 65如果: Marital Status 属于 Divorce

16、d并且: Education Level 属于 Post-Doc那么: Income = 67000(可信度 100.00%)124.2 关联规则模型用关联规则方法进行挖掘的步骤和结果如下所示:1选择数据源这步操作与决策树中一致.2选择多维关联规则方法3关联规则相关设置见图 4-8 和 4-9.图 4-8 变量描述图 4-9 参数设置4得出统计信息(1)1项频繁集1项频繁集13频繁项集 频 数Education Level(Bachelors Degree) 101Home Ownership(Own) 114Income(400000) 114Marital Status(Married)

17、90Num Children(2) 90Num Cars(4) 90Theater Freq(Rarely) 69Customer ID(884789) 69Age(26) 69Home Ownership(Rent) 84Income(44000) 84Marital Status(Never Ma) 79Num Children(0) 79Num Cars(1) 79Theater Freq(Weekly) 37Customer ID(884951) 37Age(32) 37Education Level(Masters Degree) 58Theater Freq(Monthly) 90

18、Customer ID(885001) 89Age(38) 89(2)部分2项频繁集14(3)部分3项频繁集(4)强规则15根据上面得出的频繁项集和变量属性的表示方法可以得到以下的强规则.,下图为部分强规则4.3 BRP 神经网络模型4.3.1 训练用 BRP 神经网络模型方法进行挖掘的步骤和结果如下所示:1 选择数据源及相关配置162训练精度训练样本目标值和 RBF 神经网络输出值的均方误差(标准化值)=0.013355训练样本目标值和 RBF 神经网络输出值的均方误差(实际值)=1858080344.1913943训练结果174.3.2 测试测试样本目标值和 RBF 神经网络输出值的均方误

19、差(标准化值)=0.021850测试样本目标值和 RBF 神经网络输出值的均方误差(实际值)=3039954544.774530测试部分结果185. 总结在本次试验中,在选题方面,我们小组讨论了很久都没有讨论出结果来,后来就决定找一份数据来做数据挖掘。在多份数据中我们选择了该文中的数据,即对演员信息调查的数据,因为在现在的社会,人们几乎已经离不开电影。不管是那个年龄段的人都有自己喜欢类型的电影,所以我们选择了这份数据。在选用数据挖掘软件方面,起初我们是打算用 SQL2005 来做,因为教材上就是用的这种软件,但是我们在实际的操作中遇到了一定的问题,所以我们又选择了weka,在利用 weka 进行数据导入的时候又出现了数据导入失败的问题,后来问了几个小组所选取的软件,最后我们决定用了马克威分析系统软件来对数据进行分析。虽然我们利用软件挖掘出了一定的信息,但我们无法对其加以解释,不知怎样去对不同的方法加以评价。从而不知道怎样将结果应用到实际中去。所以我们小组就只做到了这里。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报