2024年3月24日发(作者:晁温韦)
华为大数据HCIE-v2.0笔试题库及答案
华为大数据HCIE-v2.0笔试题库及答案
1.( 判断 ) 数据挖掘是通过对大量的数据进行分析,以发现和提取
隐含在其中的具有价值的信息和知识的过程
( 正确答案 )
2. 数据挖掘的开发工具除了 Python 以外,还包含以下哪些工具 ?
A. Spark MLlib ( 正确答案 )
( 机器学习服务 ) ( 正确答案 )
SPSS Modeler ( 正确答案 )
Data Mining ( 正确答案 )
3. 以下哪些属于 Python 运算符 ?
A. 算数运算符 ( 正确答案 )
B. 推理运算符
C. 逻辑运算符 ( 正确答案 )
D. 比较运算符 ( 正确答案 )
4.( 单选 ) 假设 A , B.C 是三个矩阵, A 是 2X2 , B 是 2X2 阶,
C 是 3x 2 阶,以下哪一个矩阵的运算是有意义的 ?
A.A+B ( 正确答案 )
+AC
D.B+C
5. 以下关于 Python 列表的描述正确的是 ?
中的列表可以随时进行元素的添加和删除。 ( 正确答案 )
中的列表是可变的,定的元素可以是任何的数据类型。
( 正确答案 )
中的列表由个括号包裹住元素,元素用逗号隔开。( 正
确答案 )
中的列表企形式上类似于数组,是一个有序的序列。
6.( 单选 ) 以下哪个选项不是矩阵乘法对向量的变换 ?
A. 投影
B. 伸缩
C. 曲线化 ( 正确答案 )
D. 旋转
7.( 单选 ) 若随机变量 X 服从正态分布 N(u,o^2) ,则随机变量
Y=aX+b 服从以下哪个正态分布 ?
A.N(a^2 u+b,a^2 o^2)
B.N(a u+b,a^2 o^2) ( 正确答案 )
C.N(a u+b,a^2 o^2+b)
D.N(a u,a^2 o^2)
8. 与面向过程相比,以下哪些是面向对象的特点 ?
A. 程序可拓展性没有明显的变化
B. 提高代码复用性 ( 正确答案 )
C. 增加了开发效率 ( 正确答案 )
D. 使程序的编码更加灵活,提高了代码的可维护性 ( 正确答
案 )
9.( 单选 ) 以下哪个措施属于反爬措施 ?
A. 字体
B. 滑块验证码
C. 数据收费
D. 以上全部正确 ( 正确答案 )
10.( 判断 ) 数据的 ETL ,其中 E 为 Extract , T 为Transform ,
L 为 Load 。
( 正确答案 )
B. FALSE
11.( 单选 ) 以下哪些选项不属于数值特征离散化的必要性 ?
A. 数值高散化实际是一个数据简化机制,通过数值离散化过程,
一个完整的数
据集变成一个个按照某种规则分类的子集,增强了模型的稳定性。
B. 离散化数值在提高建模速度和提高模型精度上有显著作用。
C. 离散化过程并没有带来信息丢失 ( 正确答案 )
D. 离散化后的特征对异常数据有很强的鲁棒性,能减少噪音节
点对数据的影响。
12.( 判断 ) 不要在整个数据集上做归一化处理,要区分训练集和测
试集。
( 正确答案 )
13. 数据挖掘中用于解决预测问题的模型主要包括哪几大类 ?
A. 分类 ( 正确答案 )
B. 流行
C. 回归 ( 正确答案 )
D. 复变
14.( 判断 ) 可以利用 Python 中的 KNN 算法进行数据缺失值的处
理。
( 正确答案 )
15.( 单选 )" 点击率问题 " 是这样一个预测问题, 99% 的人不会
点击,而 1% 的人会点击,所以这是一个非常不平衡的数据集。假设,
现在我们已经建了一个模型来分类,而且有了 99% 的预测准确率,我
们可以下的结论是 ?
A. 模型预测准确率已经很高了,我们不需要做什么了。
B. 模型预测准确率不高,我们需要做点什么改进模型。 ( 正确答
案 )
C. 无法下结论
D. 以上都不对
16. 机器学习中做特征选择时,以下哪种技术属于 Filter( 过滤法 )
A. 方差选择法
B.B. 互信息法
C.C. 卡方检验
D. 相关系数法
E. 以上全都正确 ( 正确答案 )
17.( 单选 ) 我们可以使用 Python 中 scikit-learn 库的 ( ) 函数,
来对样本集进 feature_selection( 特征选择 ) 和dimensionality
reduction( 降维 )?
n. neighbors
n. feature_selection ( 正确答案 )
model
n. cluster
18. 当数据预处理完成后,我们需要选择有意义的特征输入算
法和模型进行训练。通常来说,可以从哪些方面考虑来如何进行
特
征选择 ?
A. 特征是否发散 ( 正确答案 )
B. 特征与目标的相关性 ( 正确答案 )
C. 特征的名称
D. 以上全都正对
19. 对于特征选择中的互信息法,以下理解正确的是 ?
A. 互信息法是从信息嫡的角度分析特征和输出值之间的关系评分 .
( 正确答案 )
B. 在 Python 工具的 sklearn 模块中,可使用
mutual_info_classif( 分类 ) ( 正确答案 )
和 mutual_info_regression( 回归 ) 来计算各个输入行征和输出值
之间的互信息。
C. 互信息的结果对离散化的方式不敏感
D. 互信息值越大,说明该特征和输出值之间的相关性越大,越需
要保留。 ( 正确答案 )
20.( 单选 ) 以下关于 Trapper( 包装法 ) 和 FiLter( 过滤法 ) 的描述
不正确的是 ?
r 方法由于每次对子集的评价都要进行分类器的训练和
2024年3月24日发(作者:晁温韦)
华为大数据HCIE-v2.0笔试题库及答案
华为大数据HCIE-v2.0笔试题库及答案
1.( 判断 ) 数据挖掘是通过对大量的数据进行分析,以发现和提取
隐含在其中的具有价值的信息和知识的过程
( 正确答案 )
2. 数据挖掘的开发工具除了 Python 以外,还包含以下哪些工具 ?
A. Spark MLlib ( 正确答案 )
( 机器学习服务 ) ( 正确答案 )
SPSS Modeler ( 正确答案 )
Data Mining ( 正确答案 )
3. 以下哪些属于 Python 运算符 ?
A. 算数运算符 ( 正确答案 )
B. 推理运算符
C. 逻辑运算符 ( 正确答案 )
D. 比较运算符 ( 正确答案 )
4.( 单选 ) 假设 A , B.C 是三个矩阵, A 是 2X2 , B 是 2X2 阶,
C 是 3x 2 阶,以下哪一个矩阵的运算是有意义的 ?
A.A+B ( 正确答案 )
+AC
D.B+C
5. 以下关于 Python 列表的描述正确的是 ?
中的列表可以随时进行元素的添加和删除。 ( 正确答案 )
中的列表是可变的,定的元素可以是任何的数据类型。
( 正确答案 )
中的列表由个括号包裹住元素,元素用逗号隔开。( 正
确答案 )
中的列表企形式上类似于数组,是一个有序的序列。
6.( 单选 ) 以下哪个选项不是矩阵乘法对向量的变换 ?
A. 投影
B. 伸缩
C. 曲线化 ( 正确答案 )
D. 旋转
7.( 单选 ) 若随机变量 X 服从正态分布 N(u,o^2) ,则随机变量
Y=aX+b 服从以下哪个正态分布 ?
A.N(a^2 u+b,a^2 o^2)
B.N(a u+b,a^2 o^2) ( 正确答案 )
C.N(a u+b,a^2 o^2+b)
D.N(a u,a^2 o^2)
8. 与面向过程相比,以下哪些是面向对象的特点 ?
A. 程序可拓展性没有明显的变化
B. 提高代码复用性 ( 正确答案 )
C. 增加了开发效率 ( 正确答案 )
D. 使程序的编码更加灵活,提高了代码的可维护性 ( 正确答
案 )
9.( 单选 ) 以下哪个措施属于反爬措施 ?
A. 字体
B. 滑块验证码
C. 数据收费
D. 以上全部正确 ( 正确答案 )
10.( 判断 ) 数据的 ETL ,其中 E 为 Extract , T 为Transform ,
L 为 Load 。
( 正确答案 )
B. FALSE
11.( 单选 ) 以下哪些选项不属于数值特征离散化的必要性 ?
A. 数值高散化实际是一个数据简化机制,通过数值离散化过程,
一个完整的数
据集变成一个个按照某种规则分类的子集,增强了模型的稳定性。
B. 离散化数值在提高建模速度和提高模型精度上有显著作用。
C. 离散化过程并没有带来信息丢失 ( 正确答案 )
D. 离散化后的特征对异常数据有很强的鲁棒性,能减少噪音节
点对数据的影响。
12.( 判断 ) 不要在整个数据集上做归一化处理,要区分训练集和测
试集。
( 正确答案 )
13. 数据挖掘中用于解决预测问题的模型主要包括哪几大类 ?
A. 分类 ( 正确答案 )
B. 流行
C. 回归 ( 正确答案 )
D. 复变
14.( 判断 ) 可以利用 Python 中的 KNN 算法进行数据缺失值的处
理。
( 正确答案 )
15.( 单选 )" 点击率问题 " 是这样一个预测问题, 99% 的人不会
点击,而 1% 的人会点击,所以这是一个非常不平衡的数据集。假设,
现在我们已经建了一个模型来分类,而且有了 99% 的预测准确率,我
们可以下的结论是 ?
A. 模型预测准确率已经很高了,我们不需要做什么了。
B. 模型预测准确率不高,我们需要做点什么改进模型。 ( 正确答
案 )
C. 无法下结论
D. 以上都不对
16. 机器学习中做特征选择时,以下哪种技术属于 Filter( 过滤法 )
A. 方差选择法
B.B. 互信息法
C.C. 卡方检验
D. 相关系数法
E. 以上全都正确 ( 正确答案 )
17.( 单选 ) 我们可以使用 Python 中 scikit-learn 库的 ( ) 函数,
来对样本集进 feature_selection( 特征选择 ) 和dimensionality
reduction( 降维 )?
n. neighbors
n. feature_selection ( 正确答案 )
model
n. cluster
18. 当数据预处理完成后,我们需要选择有意义的特征输入算
法和模型进行训练。通常来说,可以从哪些方面考虑来如何进行
特
征选择 ?
A. 特征是否发散 ( 正确答案 )
B. 特征与目标的相关性 ( 正确答案 )
C. 特征的名称
D. 以上全都正对
19. 对于特征选择中的互信息法,以下理解正确的是 ?
A. 互信息法是从信息嫡的角度分析特征和输出值之间的关系评分 .
( 正确答案 )
B. 在 Python 工具的 sklearn 模块中,可使用
mutual_info_classif( 分类 ) ( 正确答案 )
和 mutual_info_regression( 回归 ) 来计算各个输入行征和输出值
之间的互信息。
C. 互信息的结果对离散化的方式不敏感
D. 互信息值越大,说明该特征和输出值之间的相关性越大,越需
要保留。 ( 正确答案 )
20.( 单选 ) 以下关于 Trapper( 包装法 ) 和 FiLter( 过滤法 ) 的描述
不正确的是 ?
r 方法由于每次对子集的评价都要进行分类器的训练和