收藏 分享(赏)

cda level 1 经典练习题及详解.pdf

上传人:kuailexingkong 文档编号:1601956 上传时间:2018-08-10 格式:PDF 页数:31 大小:587.60KB
下载 相关 举报
cda level 1 经典练习题及详解.pdf_第1页
第1页 / 共31页
cda level 1 经典练习题及详解.pdf_第2页
第2页 / 共31页
cda level 1 经典练习题及详解.pdf_第3页
第3页 / 共31页
cda level 1 经典练习题及详解.pdf_第4页
第4页 / 共31页
cda level 1 经典练习题及详解.pdf_第5页
第5页 / 共31页
点击查看更多>>
资源描述

1、CDA数据分析研究院 CDA LEVEL 1经典练习题及详解 源自: CDA数据分析师大纲解析 一、 数据分析概览 ( 1) 每月例会报告的经营指标 汇总 , 属于哪类数据分析 。() A.客户行为的数据挖掘报告。 B.描述性数据分析报告。 C.产品和行为倾向报告。 D.以上都不对。 答案: B 分析: 按照惯例 经营指标 汇总,通常是报告业绩指标的数量、金额、百分比或排名等信息,这类分析多数归属于描述性数据分析,而且是单变量分析的内容。AC项涉及行为特点和商品特征的关系,属于多变量分析的内容。 ( 2)单择题: 下列场景中哪项是数据挖掘发现知识的过程? () A.快递员及时反馈客户满意度 。

2、 B.数据挖掘模型分析结果与所有人的观点一致 。 C.使用 excel发现商品的时段投入量不合理 。 D.老板“一拍脑袋”做出决策 。 答案: C 分析: 同样为概念测试题,需要大家清楚数据挖掘的概念,数据挖掘强调与项目有用的知识发现过程,如 B选项,很具有疑惑,如果数据挖掘分析的结果,是大家已经知道的结论,严格意义上说数据挖掘失去了其价值。 (3) 数据分析级别包括以下哪几种() A.即席查询 . B.多维分析(又称为钻取或者 OLAP) . C.统计分析与警报 . D.与业务人员协商知识点 答案: ABC CDA数据分析研究院 分析: 考察数据分析的八个 层次 ,需要在理解的基础上加以记忆

3、。 ( 4) 统计模型主要用于解决哪几类问题() A.预测分类问题 B.OLAP分析问题 C.相关分析 D.市场细分问题 答案: ACD 分析: A项、 C项和 D项是统计模型的典型问题,但 OLAP分析问题并不是统计模型。 ( 5) 下列情境中,数据分析师不正确的做法是( B) A.客户行为分析中决策数据化均需谨慎 B.数据挖掘分析中势必强调模型的精确性,模型都不精确谈何决策支持 C.数据分析师需要具备建构模型和数据展示的能力 D.业务问题的洞察与模型的理解同样重要 答案: B 分析: 本题 A和 B产生疑惑, A项决策数据化均需谨慎不仅仅在客户行为分析中,在其他数据分析中也是同样, B项“

4、数据挖掘分析中,模型都不精确谈何决策支持”模型的精确性是一个很模糊的字眼,况且使用“势必”显然不合适。在不同行业中,对精确性的要求不同,此外如果模型精确度不够,但却能发现有用的商业知识也是可以接受。 ( 6) 数据分析流程中表达不正确的是() A.方法论 CRISP-DM与 SEMMA是业内公认的权威流程,严格按照步骤做数据分析总不会出错的。 B.CRISP-DM(译为“跨行业”数据挖掘)在任何数据分析行业中均适用。 C.我的数据比较整 洁,不需要预分析,可以直接从建模开始。 D.数据预分析在是分析师了解数据的一个很重要的途径。 答案: ABC 分析: AB两项都犯同一类错误,就是过于迷信方法

5、论的权威性, C项的跳跃性太大,数据分析的一般性描述是很重要的预分析过程。 CDA数据分析研究院 二、 描述性统计分析 ( 1) 传统数据分析与数据挖掘模型对字段的计量方式上的要求 正确的是 () A.传统数据分析 对计量方式没有特别严格的要求。 B.传统数据分析与数据挖掘模型 对计量方式都有自身严格的要求。 C.数据挖掘模型 涉及数据量比较大,计量方式可以忽略。 D.以上都不对。 答案: B 分析: 尽管 不同领域使用的模型不同,但对字段的计量形式都有非常严格的要求,因为这会决定算法的使用,即算法能在字段中获得什么样的数据信息 。 ( 2) 作为电商企业,以下哪个图可以有效地提供 不同 商品

6、的销售和趋势情况() A.饼图 B.分组直方图 C.气泡图 D.条形图和线图的组合 图 答案: D 分析: 不同 商品的销售 状况,一般是通过数量或金额的排名获得,条形图的计数和百分比可以表达这个信息,而 趋势 通常看折线图,所有选 D。 饼图 只能解决一个问题,直方图用于观测字段分布, 气泡图 用于观测字段间的相关。 ( 3) 对于方差的理解正确的是 () A.一组身高数据中,方差越大说明高个和矮个的身高相差越大。 B.一组身高数据中,方差越大说明高个距离均值与矮个距离均值的距离一样远。 C.一组身高数据中,方差越大说明均值提供的信息就越多。 D.一组身高数据中,方差越大说明均值被虚高的可能

7、就越大。 答案: A 分析: BCD都错在不理解均值与方差的关系上,方差大有三种情况,左偏、右偏( D项说明此项)和分布对称并峰度平缓( BC项说明此项), 其中 C项说法错误的原因是均值在此刻已经是虚假的统计量了,故错误。 所以 A项中的说法在三种情况下都成立 。 CDA数据分析研究院 ( 4) 数据挖掘项目分析中,有关模型参数的设定,以下不正确的是() A.只考虑一阶矩的问题。 B.视数据量大小、数据精确性以及分析结论在业务支持的价值判断上而定。 C.根据数据质量通常需要考虑到三阶矩的问题。 D.主要看模型的运行速度,数据质量通常不需要考虑。 答案: ACD 分析: A项“只考虑一阶矩的问

8、题”,应改为“通常考虑一阶矩的问题”, C项考虑的阶数太多, D项通常需要考虑数据质量问题。 ( 5) 对于一个右偏的频数分布,一般情况下( )的值最大。 A. 中位数 B .众数 C .算术平均数 D .无法判断 分析: 选 C, 如下图 ( 6)现有甲、乙两组数据,如果甲的方差远大于乙的方差,那么我们就可以认为() A. 甲的离散程度高于乙的离散程度 B .乙的离散程度高于甲的离散程度 C .甲乙的离散程度没有区别 D .无法比较甲乙的离散程度 分析 :选 D, 方差只能度量离散程度,不能用于比较两组不同数据的离散程度 ( 7)下列哪一类数字特征容易受到极端值影响( ) A 算数平均数 B

9、 中位数 C 极差 D 四分位差 CDA数据分析研究院 分析 : A、 C的计算用到了极端值 三、 概率统计基础 ( 1) 对于 正态分析的对称性而言,如果存在异常值,其分布形状不正确的是 () A.可能为左偏或也可能为右偏分布 B.可能是对称分布 C.不可能是对称分布 D.左偏分布、右偏分布和对称分布都有可能 答案: C 分析: 如果存在两边对称的异常值的话,也可以恰好对称的,如果仅仅一边有异常,就可能某方面的偏态分布,本题考查异常值对分布的影响 的理解 。 ( 2) 将班级平均分成 6组,然后随机挑选一组,对该组所有人的情况进行调查,上述情节属于哪种抽样方案 () A.简单随机抽样 B.两

10、段 集群 抽样 C.集 群 抽样 D.等距抽样 答案: C 分析: A项简单随机抽样不需要分组; B项 两段 集群 抽样 通过两次抽样; D项等距抽样是等距间隔抽样,因此 C项对。 ( 3) 抽样误差和样本数的 密切 关系 () A.样本量越大抽样误差就越大。 B.在 置信区间 既定的情况下,样本量越大,抽样误差就越大。 C.样本量越大,抽样误差不变。 D.样本量越大,抽样误差就越小。 答案: D 分析: B项有些迷惑, 置信区间 既定的情况下,看起来好像是对的,其实是干扰作用。 CDA数据分析研究院 ( 4) 在其他 条件不变的情况下,如果我们希望将误差降低 50%, 那么我们 的样本量需要

11、如何改变 ? () A.减少 50%的样本 。 B.增加 50%的样本 。 C.增加 100%的样本 。 D.增加 300%的样本 。 答案: D 分析: 根据误差 公式,由于 样本 量在分母的根号里面,所以需要是原来的 4倍, 也就是增加 3倍。 ( 5) 有关 抽样样本的选择,以下正确的是() A.抽样样本可以有效的降低分析成本。 B.抽样方法最终都是为了获取一组更好反应总体的数据。 C.由于数据和问题的复杂性,抽样方法可以考虑综合使用。 D.如果获取和分析总体数据的相关成本可控,可以不使用抽样方法。 答案: ABCD 分析: A项 B项这是抽样的最主要目的所在; C表达出了数据和业务环境

12、 的复杂性,有时需要多种抽样技术的结合使用; D项谈到了抽样与总体间的关系,实际上如果条件允许当然还是全样本最好了。 ( 6) 有关 置信区间不正确的是() A.100次独立抽样,产生的 区间估计,会有 95次的可能正确预测总体平均数。 B.1次独立抽样,产生的 区间估计,会有 95%的可能正确预测总体平均数。 C.100次独立抽样,产生的点 估计,会有 95个总体平均数一致。 D.100次独立抽样,产生的 区间估计,会有 95个正确地包含着总体平均数。 答案: ABC 分析: 熟悉置信区间的定义。 ( 7)在 其他条件都不变的情况下,提高置信水平 (或信赖度), 那么置信区间会() CDA数

13、据分析研究院 A.变大。 B.变小。 C.不会有变化。 D.有的情况 变大,有的情况变小 。 答案: A 分析:熟悉置信区间的定义。 四、 假设检验 ( 1) 如果没有理论、 业务向导 或也没有假设条件的情况下 () A.这样有违数据分析的逻辑,不能分析。 B.可以 进行探索性数据分析,了解数据情况。 C.需要选择比较准确的模型才可以做数据分析。 D.以上都不对。 答案: B 分析: 数据分析分为验证性数据分析和探索性数据分析,验证性数据分析是传统数据分析的主要分析方法论,但探索性数据分析在先验假设不明确的情况下使用。 ( 2) 对于传统数据分析而言,下列说法正确的是 () A.p值无用论。

14、B.遵循假设检验步骤是一种验证性数据分析的思路。 C.抽样的准确性无法判断。 D.探索性数据分析才是传统数据分析方法的主流。 答案: B 分析: A项“ p值无用论”一般在大型数据环境下被提到,其实即使在大型数据环境下,这种说法也是错误的。 C项抽样的准确性是可以判断的。 D项,验证性数据分析才是传统数据分析的主 流。 ( 3) t检验统计量的适用条件判断 () A.样本为小样本 ,并且总体方差已知 B.样本为大样本 ,并且总体方差已知 C.样本为小样本 ,并且总体方差未知 CDA数据分析研究院 D.样本为大样本 ,并且总体方差未知 答案: C 分析: C项符合,需要记住 t检验的适用条件。

15、( 4) 下列 适合用 t检验的有() A.比较某种化肥 改良后 , 能否有助于 提高 某种农作物 的 产量 。 B.判断商品质量(如添加剂)是否达标。 C.判断不同学历(如本科、硕士、博士)的收入差别。 D.检验不同性别的同学在英语成绩上是否有显著差异。 答案: ABD 分析: t检验的应用题, A项可以使用配对样本 t检验, B项可以使用单样本t检验, D项可以使用独立样本 t检验, C项需要使用方差分析。本题是需要将 t检验条件转化成实际问题加以解决。 ( 5) 某产品的次品率为 0.17,现对此产品进行新工艺试验,从中抽取 40件检验,发现有次品 56件,能否认为此项新工艺提高了产品的

16、质量 (=0.05)。 对于这个 问题,正确的原假设 H0是( ) 注 : p为 次品率 A P 0.17 B P0.17 D P=0.17 解析 : 选 A, 参照假设检验的基本原理 。 ( 6) 设某产品的指标服从正态分布,它的标准差 已知为 150,今抽了一个容量为 26的样本,计算得平均值为 1637。问在 5的显著水平下,能否认为这批产品的指标的期望值 为 1600? 该问题 的原假设为( ) A =160 B 1600 C 1600 D 5 C. select id , count( name) from t1 group by id having count( name) 5 o

17、rder by count( name) D. select id , count( name) from t1 where id 100 group by id 答案: A. 分析: id是发帖人的编号,是唯一的,我们想知道每个会员的发帖数, group by id-按照 id分组,就是必然选择。 count( name) 是对按照 id分组之后的结果计算 name的个数。 7、表 t1中有 id, name, salary三列,如果 t1是一个论坛的发帖信息表, id是发帖人的编号, name是帖子的标题, salary是每次发帖论坛奖励的分数。那么能显示发帖数超过 5个的语句是()。 C

18、DA数据分析研究院 A. select id , count( name) from t1 group by id B. select id , count( name) from t1 group by id having count( name) 5 C. select id , count( name) from t1 group by id having count( name) 5 order by count( name) D. select id , count( name) from t1 where id 100 group by id 答案: B. 分析:每个分组计算发帖个

19、数( count( name)之后,我们希望输出结 果大于 5( count( name) 5)。 这里还是比较好理解的,难度在于对 having的理解。我们平时用到条件子句时,它前面的关键词都是 where,而这里用的是 having。在使用 GROUP BY对数据进行分组时需要使用 HAVING作为限制条件的关键词。 8、表 t1, t2中都有 id, name, salary三列,表示两个表内连接的语句是()。 A. select t1.id,t1.name,t2.id,t2.name from t1 inner join t2 on t1.id=t2.id B. select t1.i

20、d,t1.name,t2.id,t2.name from t1 left outer join t2 on t1.id=t2.id C. select t1.id,t1.name,t2.id,t2.name from t1 right outer join t2 on t1.id=t2.id D. select t1.id,t1.name,t2.id,t2.name from t1 full outer join t2 on t1.id=t2.id 答案: A. 分析:内连接是使用最广泛的链接。 使用 INNER JOIN进行两表的内连接,内连接的查询结果为两张表里都拥有的信息。 B选项为左连

21、接, C选项为右连接, D选项为全连接。每种连接的查询结果都不一样,需要根据需求选择正确的表连接方法。 9、表 t1中有 id, name, salary三列,创建一个包含 t1表的 id、 name两个字段的视图的正确语句是()。 A. create table t1( id int, name char( 30), salary int) B. create index ind_id on t1(id) C. create view v_t1 as select id,name from t1 CDA数据分析研究院 D. insert into t1 values(100, xiaomin

22、g ,80) 答案: C. 分析:视图是表中数据在内存中的映射。使用 CREATE VIEW创建视图。 10、表 t1中有 id, name, salary三列,表示更新 t1表中字段内容的语句是()。 A. create table t1( id int, name char( 30), salary int) B. drop table t1 C. create view v_t1 as select id,name from t1 D. update t1 set name= lixiaoming where id=100 答案: D. 分析: UPDATESET语句用于修改表中字段内容

23、 。 九、 SQL语句中的常用关键字、运算符及函数 1、以下哪个关键字用来查找非空值()。 A. IS NOT NULL B. IS NULL C. LIKE NULL D. LIKE NOT NULL 答案: A. 分析:查找空值的关键字为 IS NUL, NOT为否定,所以 IS NOT NUL为查找非空值。 2、以下哪个语句可以用来限定数值范围()。 A. BETWEEN math0 OR math0 AND math0 OR math0 AND math50 答案: B. CDA数据分析研究院 分析:用 BETWEENAND语句限定数值范围。 3、以下哪个语句可以在 student表中

24、查找出 id=0以及 id=1的信息。 A. SELECT * FROM student WHERE id = 0 OR id = 1; B. SELECT * FROM student WHERE id = 0 AND id = 1; C. SELECT * FROM student WHERE AND(id = 0,id = 1); D. SELECT * FROM student WHERE OR(id = 0,id = 1); 答案: A. 分析:选项 C与 D的语法错误,选项 B使用 AND关键字用来求 id即等于 0又等于 1的交集信息,条件不成立,只有 OR关键字是求 id=0或

25、 id=1的并集信息。所以答案为 A。 4、以下哪个关键字用来消除重复信息()。 A. LIKE B. DISTINCT C. DROP D. DELETE 答案: DISTINCT. 分析:可以用 DISTINCT来消除字段中的重复信息,只在查询结果中显示不重复的信息。 5、以下哪个语句可以求出 x与 y相除之后的余数()。 A. SELECT x/y; B. SELECT x MOD y; C. SELECT MOD(x/y); D. SELECT MOD(x,y); 答案: D. 分析: MOD函数可以用来求两数相除的余数, MOD函数的语法为 MOD(变量 1,变量 2),所以答案为

26、D。 CDA数据分析研究院 6、以下哪个函数用来返回当前的日期及时间()。 A. NOW B. TIME C. DATE D. TIMENOW 答案: A. 分析: NOW函数用来返回当前的日期及时间信息。 7、以下哪个语句可以输出“我会用 SQL”()。 A. SELECT “我会用”,“ SQL”; B. SELECT CONCAT(“我会用” , “ SQL” ); C. SELECT CONCAT(我会用 , SQL); D. SELECT (我会用, SQL); 答案: B. 分析: CONCAT函数用来连接不同的字符串信息, CONCAT函数的语法为CONCAT(字符串 1,字符串

27、 2,字符串 ),除引用字符串变量时输入的变量名外其他字符串信息应用单引号或双引号引起使用。所以 B为正确答案。 8、以下哪个函数用来返回 x的绝对值()。 A. ABS(x) B. LOG(x) C. RAND(x) D. ROUND(x) 答案: D. 分析: ABS函数用来求变量的绝对值。 ABS函数的语法为 ABS(变量名 )。所以 A为正确答案。 9、 以下哪个语句可以输出以下内容()。 stuname id CDA数据分析研究院 张三 a01,a06 李二 a02 王五 a04 A. SELECT stuname, GROUP_CONCAT(id) FROM student; B.

28、 SELECT stuname, GROUP_CONCAT(id) FROM student GROUP BY stuname; C. SELECT stuname, id FROM student GROUP BY stuname; D. SELECT stuname, id FROM student; 答案: B. 分析: GROUP_CONCAT()函数常与关键字 GROUP BY一起使用,能够将分组后指定的字段值都显示出来。所以正确答案为 B。 10、以下哪个函数用来更改变量的数据类型()。 A. CAST B. CHANGE C. MODIFY D. TO 答案: A. 分析: CA

29、ST函数可以用来更改数据类型,例如使用 SELECT CAST(12 AS int)语句可以将字符串型的 12 转换为整数型的 12。所以正确答案为 A。 十、数据采集方法 ( 1) 用简单随机重复抽样方法抽取样本单位,如果要使抽样平均误差降低 50%,则样本容量需要扩大到原来的( )倍。 A 0.5 B 不变 C 2 D 4 答案: D. 解析:根据简单随机抽样的样本量确定公式,22/22()ZnEas= ,各参数的具体含义可参考统计学书籍,得出误差降低 50%,样本量需要扩大到原来的 4倍。CDA数据分析研究院 22/22()ZnEas= ( 2)某 公司希望 估计其 生产的某种 面向 企

30、业用户的产品在市场上的 占有率 ,请问下面哪种抽样方法是不合理的 ( ) A 从 公司客户 数据库中随机抽取 1000家 企业用户进行调研。 B 调研市场上 的所有上市公司对于这类产品的使用情况 。 C 从市场中 的企业中 随机 抽取 调研 企业 。 D 针对熟悉 的企业,派出调研员上门调研。 答案 : ABD 解析 :只有 C是 随机抽样 十一、市场调研 以问题“平均每次通话时间(分)”,从方便数据处理的角度,下列方法最适宜的是() A 需要编码为数值变量 B 需要编码为字符变量 C 需要编码为二分变量 D 需要编码为分类变量 答案: A. 解析,平均每次通话时间是个连续变量,为方便后续处理

31、,编码为数值型是最适宜的。 十二、数据预处理方法 ( 1) 关于 Z-score标准化 说法正确的是 () A 变换后变量的取值范围为 -1,1 B变换后变量的取值范围为 ( -1,1) C消除了量纲的影响 D 改变了数据的偏度 答案: C. 解析:标准化的公式为:xzs-= 。 ( 2) 下面 那些方法可以用于异常值的识别 A 分位数 判断 CDA数据分析研究院 B 转化为 Z-score判断 C 聚类 D 计算 峰度 答案: ABC。 异常值的判断 可以使用均值、 分位数来判断,可以使用对称分布的经验法则或切比雪夫不等式,还可以使用聚类 十三、主成分分析 ( 1) 主成分分析计算 在 选择

32、相关系数计算法时,确定主成分个数的大致原则包括() A.特征根值大于 1 B.特征根值大于 0.5 C.累积特征根值加总占总特征根值的 80%以上 D.累积特征根值加总占总特征根值的 50%以上 答案: AC 分析: 主成分分析主要考核得到软件的计算结果后如何选择主成分个数,由于主成分一般不具有明确的意义,因此不考核主成分的解释,这会放在因子分析考核 。 该题是一个很标准的题目,答案可以从任何一本教科书上找到。请注意题干中的“大致原则”,说明该原则在不同的运用场合下选择标准会略有改变。 ( 2)主成分分析计算分为根据相关系数和协方差矩阵两种方式,以下哪种情况适合用相关系数计算() A.变量的量

33、纲不同 B.变量的方差不同 C.变量的标准差不同 D.变量的均值不同 答案: A. 分析:主成分是通过最大化线性组合的方差来得到的,所以它对变量的测量尺度非常敏感。比如,若输入变量是“企业销售额(元)”,最大观测和最小观测可以相差几千万,而另一个变量是“企业雇员数”,最 大观测和最小观测只相差几千。因为“企业销售额”的方差比“企业雇员数”的方差大得多,所以它会主CDA数据分析研究院 导主成分分析的结果,使得第一个主成分可能几乎等于“企业销售额”,而忽略了输入变量之间的关系。又比如,使用“万元”作为测量单位和使用“元”作为测量单位,得到的主成分分析的结果会相差很大。在实际应用中,通常首先将各个输

34、入变量进行标准化,使每个变量均值为零,方差为 1,这等价于使用相关系数矩阵 R 替代方差 -协方差矩阵来进行主成分分析。 十四、因子分析 ( 1)下列关于因子分析说法正确的是:() A.主成分法 是常用的因子 载荷矩阵的估计方法 B.最大方差旋转是应用最广泛的因子旋转方法 ,这是一种斜交旋转 C.在选择合适的因子数量时,可以适当放宽对于特征根大小的选择要求,大于 0.7时就可以考虑保留 D.因子分析作为维度分析的手段,是构造合理的聚类模型和稳健的分类模型的必然步骤 答案: ACD 分析:主成分法的得分系数矩阵中,每个分量与相应特征值的平方根进行乘积,组成的新矩阵可以作为因子载荷矩阵的估计,这种

35、方法称为主成分法,因此A正确;因子旋转时采用最大方差旋转是一种正交旋转,也是最常用的因子旋转方法,因此 B错误; C结论为经验结论 ,因子分析中一般可以放宽对特征根大小的选择要求,因此正确;聚类模型往往要保证每个聚类变量权重的平衡,因此事先经常采用因子分析对变量进行降维,分类模型中解释变量的共线性会导致模型不稳定,因此也经常事先对解释变量进行因子分析。因此 D正确。 ( 2)关于主成分与因子分析阐述正确的是() A 因子分析中是把因子表示成各个变量的线性组合 B 主成分分析中是把主成分表示成各个变量的线性组合 C 因子分析需要构造因子模型:用潜在的假想变量和随机影响变量的线性组合表示原始变量。

36、 D 因子分析和主成分分析只有在线性表示上是一致的。 答案 BC 分析 :核对两种 方法 的定义 CDA数据分析研究院 十五、聚类分析 ( 1)以下哪种聚类方法可以提供聚类树形图() A.层次聚类 B.K均值聚类 C.基于密度的聚类 D.基于网格的聚类 答案 :A. 分析:层次聚类指的是形成类相似度层次图谱,便于直观的确定类之间的划分, 聚类过程可做成聚类谱系图。聚类谱系图的基本思路就在于按照两点之间的距离,按照由小到大的顺序依次进行连接。 ( 2) 以下哪个是 K均值聚类法的缺陷() A.对初始点位置敏感,导致聚类结果与数据真实分类出现差异 B.无法通过分析方法确定聚类个数 C.容易受异常值

37、的影响 D.容易受到变量量纲的影响 答案 : ABC 分析: 这部分试题主要考核层次聚类和 K均值快速聚类的优缺点和适用范围。当样本量超过 50个时,一般采用 K均值聚类法,其优点是计算速度快,但是缺点就是 AB答案列出的那样。 ( 3)某 电商 分析人员希望通过聚类方法定位代商家刷信用级别的违规者,以下那种操作不应该进行 :() A. 对变量进行标准化 B. 对变量进行百分位秩转换 C. 对变量进行因子分析或变量聚类 D. 对变量进行分箱处理 答案: BD 分析:刷信用级别的违规者的行为会与正常消费行为在消费频次、平均消费金额等方面差异比较大,对其进行定位相当于发现异常点,因此要求对变量的转

38、CDA数据分析研究院 换不能改变其原有分布形态。常用的标准化方法如中心标准化、极差标准化不会改变分布形态,而且在聚类前往往需要使用标准化来消除变量的量纲,因此 A不是答案;取百分位秩会将原变量变化为均匀分布,进行分箱处理也会改变原变量的分布,因此 BD是答案;因子分析、变量聚类用于数据降维,可以使聚类结果更合理。 十六、对应分析 ( 1)在对两个分类变量进行分析时,列联表是常用的方式,但如果变量分类水平较多,往往很难直观地发现分类水平之间的相互联系,为此会使用()方法来处理这个问题 A.因子分析 B.对应分析 C.多重对应分析 D.聚类分析 答案: B 分析:本题考查对集中多维分析方法适用性的

39、熟悉程度,其中因子分析用于多元连续型变量的降维,聚类分析对样本按距离进行归类,对应分析符合题干要求,多重对应分析用于变量超过两个时的情况,因此答案 B正确。 ( 2)对应分析 是一种在 () 基础上发展而来的多元统计分析方法 A.主成分分析 B.因子分析 C.聚类分析 D.卡方检验 答案: A 分析:本题考查对对应分析算法的了解程度。对应分析算法是对矩阵形式的列联表进行指定的变换后,保证行与列具有相同的特征根,在此基础上,分别对行与列进行主成分提取,并以特征根的平方根对特征向量进行加权,这样可以使得行与列是同一尺度下可比较的。因此 A是正确答案。 十七、多维度分析 CDA数据分析研究院 ( 1

40、)以下关于“距离”的说法正确的是:() A.数值型数据可以使用 Minkowski/欧式距离 进行衡量 B.分类数据可以使用 block距离进行衡量 C.定距数据可以使用卡方距离进行衡量 D.有序分类数据可以使用余弦相似度进行距离的衡量 答案: A 分析: Minkowski距离一般用于连续型数据的测量,欧氏距离与 block距离是其特殊形式,因此 A是正确的,其它答案皆为干扰项。 ( 2)多维尺度分析是用于对样本间的距离或相似性进行分析的技术,最终结果往往可以展示在二维感知图中进行解读,关于感知图的解读正确的是:() A.如果分析的数据是品牌相似度评分矩阵,可以根据业务的理解对图中各坐标轴代

41、表的含义进行解读 B.假如两个样本点各自到中心原点的距离分别为 di和 dj,则 di和 dj越接近说明两个样本越相似 C.样本向量的余弦相似度比样本间距离更能代表两个样本的相似(相异)程度 D.如果分析的数据是品牌相似度评分矩阵,那可以根据二维图中各品牌之间的距离判断潜在竞争对手 答案: D 分析:通过多维尺度分析将样本点在二维图中进行表示,通常是根据两个样本之间的直线距离来判断他们的相似度,因此可以排除 B和 C。如果分析的是类似品牌相似度这样的评分矩阵,因为不了解每个调研用户的主观评判标准,因此基本无法对图中坐标轴的含义进行解读,但可以根据样本点的距离来判断品牌之间的相似程度:越相似的品

42、牌,越可能是潜在的竞争对手,因此选 D。此外,在衡量样本间原始距离时可能采用不同的距离计算方法,但在最后感知图上展示降维后的样本时,一般使用欧式距离代表样本间的相似(相异度),因为这样最直观,也最容易解读,因此最可靠的还是从样本间直线距离来进行判断。 CDA数据分析研究院 十八、线性回归与模型诊断及优化 ( 1)工人月工资(元)依劳动生产率(千元)变化的回归直线方程为 y=60+90x,下列判断正确的是() A.劳动生产率为 1000元时,工资为 50元 B.劳动生产率提高 1000元时,工资提高 150元 C.劳动生产率提高 1000元时,工资提高 90元 D.劳动生产率为 1000元时,工

43、资为 90元 答案: C 分析:根据回归直线方程 y=60+90x得到,劳动生产率为 1千元时,工人月工资 =60+90*1=150元,劳动生产率提高 1千元时,工资提高 90元。 ( 2) 下面给出了 4个残差图,哪个图形表示误差序列是自相关的() ( 2) 下面给出了 4个残差图,哪个图形表示误差序列是自相关的() 答案: BC。 分析: 线性回归中,学会看残差图是进行后续分析的重点 。 首先认识不存在关系的图形,如 A所示;其次是异方差,如图 D所示;自相关分为正自相关,CDA数据分析研究院 如图 C所示和负自相关,如图 B所示。 ( 3) 以下哪个假设 不是 线性回归分析的前提假设 (

44、 ) A.解释变量 之间必须 严格独立 B.解释变量之间不能强线性相关 C.扰动项独立同分布 D.扰动项服从正态分布 答案: A。 分析: 回归分析的前提假设中, 包含 解释变量之间非线性相关、扰动项独立同分布,扰动项服从正态分。 十九、构造对二分类变量的预测模型 ( 1) 某客户为欺诈的概率为 0.4,则优势 odds为 () A. 0.4 B .2/3 C. 3/2 D. 0.6 答案: B. 分析:该题考核了二分类变量分析的基础知识。 Odds的定义是显性结果的概率比上非显性结果的概率,因此为 0.4/0.6,等于 2/3。 ( 2)建立逻辑回归时 ,为什么有时候需要对连续变量进行分箱处

45、理 ? A.避免变量的共线性 B.捕获原始连续变量和被解释变量之间非线性关系 C.避免异常值影响 D.修正残差非正态分布 答案: BC CDA数据分析研究院 分析:如果发现解释变量与反应变量之间相关,但又不呈现线性关系时,往往会对解释变量进行分箱,同时分箱也能够消除极端值。因此选 BC。 ( 3)逻辑回归中,被解释变量 Y的取值为 0( good)、 1( bad),解释变量X的系数为 -0.27,则下列说法正确的是() A.随着 X的增大, Y=1的概率在增大 B.X增大一个单位, Y=1的概率降低 27% C.X+1对 X的似然比为 e-0.27D.X增大时, Y=1的概率在减小 答案:

46、CD 分析:逻辑回归中,解释变量的系数的数值意义并不直观,根据回归方程 logit(p) Xoddspp10)ln()1ln( bb +=-= 可以推出: 27.0)1()1(11010-+= eeeeoddsoddsoddsratioxxXXbbbbb这即表明当 X增大一个单位时,其 odds 变化为原来的 e-0.27倍,因此 C正确。 X的系数为负值时, X的增大会导致 odds的下降,即 Y=1的概率下降; X的系数为正时则相反。因此 D也是正确的。需要注意,一般在逻辑回归中只关注系数的正负,一般不看大小,本题略有难度,但只要对似然比概念和逻辑回归方程的应用有了理解,还是可以解出的。 二十、时间序列 ( 1)一个时间序列模型为 ,其中 t是白噪声过程,则 Xt为:() A.宽平稳时间序列 B.自回归时间序列 C.非平稳时间序列 D.移动平均时间序列 011ttt mtmX be be be-=+ +

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报