1、一、计算题 (共 4 题,100 分) 1、通过分析关于二手车的相关变量,研究这些变量怎么影响二手车的交易价格。二手车抽样 - 预处理.csv收集的数据包含:变量名 代表含义 数据类型 备注yuanjia 原价连续变量 汽车原价baojia 报价连续变量 汽车报价licheng 里程连续变量累计里程数(单位:万公里)pailiang 排量.L.连续变量发动机单位时间内释放的能量mali 最大马力.Ps.连续变量 最大动力输出changshang 厂商离散变量十一分类排名前十的厂商分别用 1-10 表示,以及前十以外的其他水平cheshen_type 车身结构-车类型离散变量四分类“SUV”、“
2、两厢”、“三厢”、“MPV”pengzhuang 排除重大碰撞离散变量排除重大碰撞(0)&存在重大碰撞(1)waiguan_xiufu 外观修复检查离散变量排除外观修复(0)&存在外观修复(1)waiguan_quexian 外观缺陷检查离散变量排除外观缺陷(0)&存在外观缺陷(1)neishi_quexian 内饰缺陷检查离散变量排除内饰缺陷(0)&存在内饰缺陷(1)shangpaishijian 上牌时间连续变量与 2017 年 2 月之间的时间差(单位:月)对数据进行预处理,分析应采用的模型,写出详细的思路和数据分析过程,用多种方法检验和解释模型,说明模型的实际意义。答案解析:因变量采用
3、车辆报价数据,自变量选择除车辆报价数据之外的其他变量,进行线性回归分析可以看到删除了三个变量,R 方和调整 R 方都接近 1,模型拟合度很好。由于自变量中真皮座椅、外观缺陷、车身类型未通过 t 检验,因此需要将这三个变量删除后再做线性回归分析,可得: Y=1.1036-0.0646shangpaishijian-0.1064licheng-0.4235biansu+0.8482zhouju-1.0036pailiang+0.0154mali-0.1729tianchuang1+0.7581tianchuan2+0.3974daocheyingxiang-0.5061GPS-0.2864waig
4、uan_xiufu+0.5156yuanjia+0.1665paifang-0.0199changshang模型拟合效果很好,且通过了 F 检验和 t 检验,(常数项的 t 检验可以不通过)可以根据此模型对二手车进行价格评估2、利用 Apriori 算法,写出下列购物篮数据的频繁项集和强关联规则(设定支持度为 2,置信度为 0.7)若此购物篮数据为某超市随机选取的 7 位顾客的交易数据,请结合之前得到的结果为该超市提一些建议。答案解析:先将给定的数据整理成 datahoop 关联分析可识别的格式,导入 datahoop 平台,对变量牛肉、鸡肉、牛奶、奶酪、靴子、衣服进行关联分析。设置最小支持度
5、为 2/7=0.286,最小置信度为 0,可以得到频繁项集(删除重复)。设置最小支持数为 2/7=0.286、最小置信度=0.7,可以得到提升度1 的有效强关联规则(删除单项)解答:首先对原数据进行预处理至然后再处理至导入 datahoop 平台,设置支持度为 0.286,置信度为 0删除重复项一项频繁项集:(e)、(a)、(d)、(b)、(c)二项频繁项集:(a,e)、(d,e)、(b,e)再将支持度和置信度的值分别设置成 0.286 和 0.7,导入 datahoop 平台二项的有效强关联规则:aee ad eb e三项的强关联规则:(a,d) e(d,e) a(a,b) e从上面数据可以
6、看出牛肉和鸡肉等肉食产品可以放在一起,方便客户选择,牛奶和奶酪则要放在附近的走道旁,让需要的顾客更方便拿取3、以下数据是 31 个省市各行业的工资情况,各行业工资难免相关,因此,请先进行降维处理再进行聚类分析。降维、聚类.xls答案解析:分析数据发现无缺失值,且不需要进行其他处理。本案例采用 k-means 算法进行聚类,因此还需考虑异常值和共线性。由于数据量太少,单独一个数据也可能是一个特殊的类,因此这里不做异常值处理。由相关系数矩阵分析发现变量之间存在共线性,所以不能直接进行聚类,接下来用主成分分析对变量进行降维处理。设置主成分个数为 2 时发现累计贡献率为 0.9557,效果很好,可以用
7、 PC1 和 PC2 进行聚类分析。(这里 PC1 和 PC2 是由标准化后的变量求得的,很小,且没有量纲差距,所以聚类分析时不再进行标准化)。接下来用 k-means 算法对 PC1 和 PC2 进行聚类分析,分别选 3,4 ,5 个类别进行聚类,发现聚成三类时效果最好。解答:先将数据导入 datahoop 平台,进行降维处理得出的贡献率和累计贡献率值均在 0 至 1 之间将数据进行聚类分析因为之前已进行降维处理所以不再进行标准化,设置聚类个数为 3,初始中心点选择次数为 10,最大迭代次数为 300, 样本个数依次为2452再将聚类个数设置成 4,其他数值不变样本个数为22261可以看出样
8、本存在不均衡因此聚类分为 3 类时分类效果最好4、为了研究影响泰坦尼克号生还与否的影响因素有哪些,收集如下数据:train.csvtrain-原始.csv收集变量包括:PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,EmbarkedPassengerId = 乘客 IDSurvived = 是否生还Pclass = 乘客等级(1/2/3 等舱位)Name = 乘客姓名Sex = 性别Age = 年龄SibSp = 堂兄弟/妹个数Parch = 父母与小孩个数Ticket = 船票信息Fare = 票价Cabin
9、 = 客舱Embarked = 登船港口对收集进行预处理,选择适当的算法进行分析,并评价和解释模型,要求写出具体的思路过程。答案解析:本次分析选取变量包括:Survived= 是否生还、Pclass = 乘客等级(1/2/3 等舱位)、Sex = 性别、Age = 年龄、SibSp = 堂兄弟/妹个数、Parch = 父母与小孩个数、 Fare = 票价本案例研究以上选取的变量对于乘客是否获救的影响。通过原始数据截图可以看到,性别属于定性的变量,因此对此进行研究需要对这些变量进行前期数值转换。本次处理把性别进行 0 和 1 处理,female(女)转换成 0,male(男)转换成 1。本案例选取的变量中,年龄 Age 存在缺失值,因此对于年龄的缺失值需要进行处理,本次对年龄的缺失值用所有年龄数据的平均值进行填充。原始数据中不存在类别不均衡的问题,为了进行分类模型的构建和检验,将数据分为训练集和测试集。选取前 594 条数据作为训练数据,后 297 条数据作为测试数据。这里我们选择逻辑回归来进行分析。逻辑回归要考虑异常值的影响,以及变量是否存在共线性,因此我们进行异常值分析和相关性分析。异常值分析发现异常值较多,猜测可能是分类的影响,因此不做处理。由相关矩阵可看出变量之间虽然也有相关,但不是很强,因此可以进行逻辑回归。: