华为大数据HCIE-v2.0笔试题库及答案-USB迷|专注于互联网分享

2024年3月24日发(作者：晁温韦)

华为大数据HCIE-v2.0笔试题库及答案

1.( 判断 ) 数据挖掘是通过对大量的数据进行分析，以发现和提取

隐含在其中的具有价值的信息和知识的过程

( 正确答案 )

2. 数据挖掘的开发工具除了 Python 以外，还包含以下哪些工具 ?

A. Spark MLlib ( 正确答案 )

( 机器学习服务 ) ( 正确答案 )

SPSS Modeler ( 正确答案 )

Data Mining ( 正确答案 )

3. 以下哪些属于 Python 运算符 ?

A. 算数运算符 ( 正确答案 )

B. 推理运算符

C. 逻辑运算符 ( 正确答案 )

D. 比较运算符 ( 正确答案 )

4.( 单选 ) 假设 A ， B.C 是三个矩阵， A 是 2X2 ， B 是 2X2 阶，

C 是 3x 2 阶，以下哪一个矩阵的运算是有意义的 ?

A.A+B ( 正确答案 )

+AC

D.B+C

5. 以下关于 Python 列表的描述正确的是 ?

中的列表可以随时进行元素的添加和删除。 ( 正确答案 )

中的列表是可变的，定的元素可以是任何的数据类型。

( 正确答案 )

中的列表由个括号包裹住元素，元素用逗号隔开。( 正

确答案 )

中的列表企形式上类似于数组，是一个有序的序列。

6.( 单选 ) 以下哪个选项不是矩阵乘法对向量的变换 ?

A. 投影

B. 伸缩

C. 曲线化 ( 正确答案 )

D. 旋转

7.( 单选 ) 若随机变量 X 服从正态分布 N(u,o^2) ，则随机变量

Y=aX+b 服从以下哪个正态分布 ?

A.N(a^2 u+b,a^2 o^2)

B.N(a u+b,a^2 o^2) ( 正确答案 )

C.N(a u+b,a^2 o^2+b)

D.N(a u,a^2 o^2)

8. 与面向过程相比，以下哪些是面向对象的特点 ?

A. 程序可拓展性没有明显的变化

B. 提高代码复用性 ( 正确答案 )

C. 增加了开发效率 ( 正确答案 )

D. 使程序的编码更加灵活，提高了代码的可维护性 ( 正确答

案 )

9.( 单选 ) 以下哪个措施属于反爬措施 ?

A. 字体

B. 滑块验证码

C. 数据收费

D. 以上全部正确 ( 正确答案 )

10.( 判断 ) 数据的 ETL ，其中 E 为 Extract ， T 为Transform ，

L 为 Load 。

( 正确答案 )

B. FALSE

11.( 单选 ) 以下哪些选项不属于数值特征离散化的必要性 ?

A. 数值高散化实际是一个数据简化机制，通过数值离散化过程，

一个完整的数

据集变成一个个按照某种规则分类的子集，增强了模型的稳定性。

B. 离散化数值在提高建模速度和提高模型精度上有显著作用。

C. 离散化过程并没有带来信息丢失 ( 正确答案 )

D. 离散化后的特征对异常数据有很强的鲁棒性，能减少噪音节

点对数据的影响。

12.( 判断 ) 不要在整个数据集上做归一化处理，要区分训练集和测

试集。

( 正确答案 )

13. 数据挖掘中用于解决预测问题的模型主要包括哪几大类 ?

A. 分类 ( 正确答案 )

B. 流行

C. 回归 ( 正确答案 )

D. 复变

14.( 判断 ) 可以利用 Python 中的 KNN 算法进行数据缺失值的处

理。

( 正确答案 )

15.( 单选 )" 点击率问题 " 是这样一个预测问题， 99% 的人不会

点击，而 1% 的人会点击，所以这是一个非常不平衡的数据集。假设，

现在我们已经建了一个模型来分类，而且有了 99% 的预测准确率，我

们可以下的结论是 ?

A. 模型预测准确率已经很高了，我们不需要做什么了。

B. 模型预测准确率不高，我们需要做点什么改进模型。 ( 正确答

案 )

C. 无法下结论

D. 以上都不对

16. 机器学习中做特征选择时，以下哪种技术属于 Filter( 过滤法 )

A. 方差选择法

B.B. 互信息法

C.C. 卡方检验

D. 相关系数法

E. 以上全都正确 ( 正确答案 )

17.( 单选 ) 我们可以使用 Python 中 scikit-learn 库的 ( ) 函数，

来对样本集进 feature_selection( 特征选择 ) 和dimensionality

reduction( 降维 )?

n. neighbors

n. feature_selection ( 正确答案 )

model

n. cluster

18. 当数据预处理完成后，我们需要选择有意义的特征输入算

法和模型进行训练。通常来说，可以从哪些方面考虑来如何进行

特

征选择 ?

A. 特征是否发散 ( 正确答案 )

B. 特征与目标的相关性 ( 正确答案 )

C. 特征的名称

D. 以上全都正对

19. 对于特征选择中的互信息法，以下理解正确的是 ?

A. 互信息法是从信息嫡的角度分析特征和输出值之间的关系评分 .

( 正确答案 )

B. 在 Python 工具的 sklearn 模块中，可使用

mutual_info_classif( 分类 ) ( 正确答案 )

和 mutual_info_regression( 回归 ) 来计算各个输入行征和输出值

之间的互信息。

C. 互信息的结果对离散化的方式不敏感

D. 互信息值越大，说明该特征和输出值之间的相关性越大，越需

要保留。 ( 正确答案 )

20.( 单选 ) 以下关于 Trapper( 包装法 ) 和 FiLter( 过滤法 ) 的描述

不正确的是 ?

r 方法由于每次对子集的评价都要进行分类器的训练和

2024年3月24日发(作者：晁温韦)

华为大数据HCIE-v2.0笔试题库及答案

1.( 判断 ) 数据挖掘是通过对大量的数据进行分析，以发现和提取

隐含在其中的具有价值的信息和知识的过程

( 正确答案 )

2. 数据挖掘的开发工具除了 Python 以外，还包含以下哪些工具 ?

A. Spark MLlib ( 正确答案 )

( 机器学习服务 ) ( 正确答案 )

SPSS Modeler ( 正确答案 )

Data Mining ( 正确答案 )

3. 以下哪些属于 Python 运算符 ?

A. 算数运算符 ( 正确答案 )

B. 推理运算符

C. 逻辑运算符 ( 正确答案 )

D. 比较运算符 ( 正确答案 )

4.( 单选 ) 假设 A ， B.C 是三个矩阵， A 是 2X2 ， B 是 2X2 阶，

C 是 3x 2 阶，以下哪一个矩阵的运算是有意义的 ?

A.A+B ( 正确答案 )

+AC

D.B+C

5. 以下关于 Python 列表的描述正确的是 ?

中的列表可以随时进行元素的添加和删除。 ( 正确答案 )

中的列表是可变的，定的元素可以是任何的数据类型。

( 正确答案 )

中的列表由个括号包裹住元素，元素用逗号隔开。( 正

确答案 )

中的列表企形式上类似于数组，是一个有序的序列。

6.( 单选 ) 以下哪个选项不是矩阵乘法对向量的变换 ?

A. 投影

B. 伸缩

C. 曲线化 ( 正确答案 )

D. 旋转

7.( 单选 ) 若随机变量 X 服从正态分布 N(u,o^2) ，则随机变量

Y=aX+b 服从以下哪个正态分布 ?

A.N(a^2 u+b,a^2 o^2)

B.N(a u+b,a^2 o^2) ( 正确答案 )

C.N(a u+b,a^2 o^2+b)

D.N(a u,a^2 o^2)

8. 与面向过程相比，以下哪些是面向对象的特点 ?

A. 程序可拓展性没有明显的变化

B. 提高代码复用性 ( 正确答案 )

C. 增加了开发效率 ( 正确答案 )

D. 使程序的编码更加灵活，提高了代码的可维护性 ( 正确答

案 )

9.( 单选 ) 以下哪个措施属于反爬措施 ?

A. 字体

B. 滑块验证码

C. 数据收费

D. 以上全部正确 ( 正确答案 )

10.( 判断 ) 数据的 ETL ，其中 E 为 Extract ， T 为Transform ，

L 为 Load 。

( 正确答案 )

B. FALSE

11.( 单选 ) 以下哪些选项不属于数值特征离散化的必要性 ?

A. 数值高散化实际是一个数据简化机制，通过数值离散化过程，

一个完整的数

据集变成一个个按照某种规则分类的子集，增强了模型的稳定性。

B. 离散化数值在提高建模速度和提高模型精度上有显著作用。

C. 离散化过程并没有带来信息丢失 ( 正确答案 )

D. 离散化后的特征对异常数据有很强的鲁棒性，能减少噪音节

点对数据的影响。

12.( 判断 ) 不要在整个数据集上做归一化处理，要区分训练集和测

试集。

( 正确答案 )

13. 数据挖掘中用于解决预测问题的模型主要包括哪几大类 ?

A. 分类 ( 正确答案 )

B. 流行

C. 回归 ( 正确答案 )

D. 复变

14.( 判断 ) 可以利用 Python 中的 KNN 算法进行数据缺失值的处

理。

( 正确答案 )

15.( 单选 )" 点击率问题 " 是这样一个预测问题， 99% 的人不会

点击，而 1% 的人会点击，所以这是一个非常不平衡的数据集。假设，

现在我们已经建了一个模型来分类，而且有了 99% 的预测准确率，我

们可以下的结论是 ?

A. 模型预测准确率已经很高了，我们不需要做什么了。

B. 模型预测准确率不高，我们需要做点什么改进模型。 ( 正确答

案 )

C. 无法下结论

D. 以上都不对

16. 机器学习中做特征选择时，以下哪种技术属于 Filter( 过滤法 )

A. 方差选择法

B.B. 互信息法

C.C. 卡方检验

D. 相关系数法

E. 以上全都正确 ( 正确答案 )

17.( 单选 ) 我们可以使用 Python 中 scikit-learn 库的 ( ) 函数，

来对样本集进 feature_selection( 特征选择 ) 和dimensionality

reduction( 降维 )?

n. neighbors

n. feature_selection ( 正确答案 )

model

n. cluster

18. 当数据预处理完成后，我们需要选择有意义的特征输入算

法和模型进行训练。通常来说，可以从哪些方面考虑来如何进行

特

征选择 ?

A. 特征是否发散 ( 正确答案 )

B. 特征与目标的相关性 ( 正确答案 )

C. 特征的名称

D. 以上全都正对

19. 对于特征选择中的互信息法，以下理解正确的是 ?

A. 互信息法是从信息嫡的角度分析特征和输出值之间的关系评分 .

( 正确答案 )

B. 在 Python 工具的 sklearn 模块中，可使用

mutual_info_classif( 分类 ) ( 正确答案 )

和 mutual_info_regression( 回归 ) 来计算各个输入行征和输出值

之间的互信息。

C. 互信息的结果对离散化的方式不敏感

D. 互信息值越大，说明该特征和输出值之间的相关性越大，越需

要保留。 ( 正确答案 )

20.( 单选 ) 以下关于 Trapper( 包装法 ) 和 FiLter( 过滤法 ) 的描述

不正确的是 ?

r 方法由于每次对子集的评价都要进行分类器的训练和

USB迷 | 专注于互联网分享

华为大数据HCIE-v2.0笔试题库及答案

与本文相关的文章

评论列表 (0)