2024年3月11日发(作者:后飞昂)
华为大数据测试试题及答案
HCIP_81
您的姓名: [填空题] *
_________________________________
1. Flume 支持采集静态目录下数据的 source 类型是? [单选题]
A、http source
B、spooling directory source(正确答案)
C、exec source
D、syslog source
2. 关于 Kafka 磁盘容量不足的告警,对于可能的原因以下不正确的是? [单选题]
A、用于存储 Kafka 数据的磁盘配置(如磁盘数目磁盘大小等),无法满足当前业
务数据流量,导致磁盘使用 率达到上限
B、数据保存时间配置过长,数据累积达到磁盘使用率上限
C、业务规划不合理,导致数据分配不均,使部分磁盘达到使用率上限
D、Broker 节点故障导致(正确答案)
3. 查看 Kafka 某 Topic 的 Partition 详细信息时,使用如下哪个命令? [单选题]
A、bin/ --create
B、bin/ –list
C、bin/ –delete
D、bin/ –describe(正确答案)
4. 关于 Kafka 组件部署说法不正确的是? [单选题]
A、Kafka 强依赖于 ZooKeeper,安装 Kafka 必须安装 ZooKeeper
B、Kafka 部署的实例个数不得小于 2
C、Kafka 服务端可以产生消息(正确答案)
D、Consumer 作为 Kafka 的客户端角色专门进行消息的消费
5. 在 redis 中,下面哪个是操作 Hash 数据类型的命令? [单选题]
A、strlen
B、hexists(正确答案)
C、smembers
D、Ltrim
6. 关于 Schema 和 Database,下面说法正确的是()。 [单选题]
A、二者都能实现资源隔离
B、schema 和用户强相关的,通过权限控制语法可以实现不同用户对各 Schema 的
权限(正确答案)
C、Database 之间无法直接访问,但通过权限授予可以访问数据
D、相比于 Database,Schema 的隔离更加的彻底
7. 下面哪个数据类型不是 GaussDB 200 支持的数据类型()。 [单选题]
A、XML 类型(正确答案)
B、数值类型
C、JSON 类型
D、货币类型
8. GaussDB 200 在创建表时,需要注意以下哪个事项()? [单选题]
A、创建列存表时压缩级别默认为 LOW(正确答案)
B、创建列存表时压缩级别默认为 HIGH
C、创建列存表时压缩级别默认为 NO
D、创建列存表之后,后续可以修改为行存表
9. 下列关于存储过程的特点说法正确的是()? [单选题]
A、编写的 SQL 存储在数据库中,因此执行速度快
B、创建时编译,执行时调用,因此开发效率高
C、用户创建的存储过程或自定义函数可以重复调用,因此数据传输量少
D、通过指定存储过程的访问权限,因此安全系数高(正确答案)
10. 下列关于 GaussDB 200 的局部聚簇技术说法正确的是()? [单选题]
A、局部聚簇技术可以应用在 GaussDB 200 的所有表中
B、局部聚簇在某些场景下可以提交检索效率,所以在创建表时根据业务场景应创
建多个 PCK
C、PCK 对应的列尽量不要为空值
D、PCK 通过 min/max 稀疏索引实现事实表快速过滤扫描(正确答案)
11. 从数据库架构设计来看,主要有以下哪些设计思路? [单选题]
A、Shard-Disk
B、Shard-Everying
C、Shard-Nothing
D、以上都是(正确答案)
12. 语句 number = 0 的意思是()? [单选题]
A、修改变量 number 的值为 0
B、判断 number 的值是否为 0
C、比较 number 和 0 的大小
D、声明一个变量 number,并初始化值为 0(正确答案)
13. GaussDB 200 支持几种数据并行导入策略? [单选题]
A、4
B、3(正确答案)
C、2
D、1
14. ElasticSearch 架构中包含哪些? [单选题]
A、A. 以上说法全都正确(正确答案)
B、Client
C、ESMaster
D、ESNode
15. .以下哪个不是 RDD 的创建方式? [单选题]
A、从子的 RDD 转换到新的 RDD(正确答案)
B、从数据集合转换而来
C、从 HDFS 输入创建
D、从父的 RDD 转换的到新的 RDD
16. 以下哪个不是 SparkSQL 的使用场景? [单选题]
A、A. 需要处理 PB 级的大容量数据
B、对数据处理的实时性要求不高的场景
C、实时数据查询(正确答案)
D、结构化数据处理
17. 以下哪个不是离线批处理的核心诉求? [单选题]
A、处理数据量巨大
B、处理数据格式多样
C、处理时间要求不高(正确答案)
D、支持 SQL 类作业和自定义作业
18. HBase 架构中包含哪些? [单选题]
A、Zookeeper
B、以上说法全都正确(正确答案)
C、Hmaster
D、HRegionServer
19. 某项目小组接到一个大数据实时分析项目,且对实时性要求很高。请问以下哪
种大数据计算 框架最合适? [单选题]
A、Hbase
B、MapReduce
C、Spark
D、Flink(正确答案)
20. 以下关于 Hive 内置函数描述正确的是? [单选题]
A、desc functions upper:查看系统自带的函数
B、trim():去除空字符串(正确答案)
C、to_date():获取当前日期
D、substr():求字符串长度
21. Gremlin 中查询单个点的信息该用什么命令? [单选题]
A、g.V(13464736).valueMap()(正确答案)
B、g.V().hasLabel("test").values("age")
C、g.V().hasLabel("test")
D、g.V().hasLabel("test").valueMap("String_list","age")
22. 考虑以下场景,当公安人员需要根据某犯罪人员发现其犯罪同伙时,最适合使
用下列哪个工 具? [单选题]
A、ElasticSearch
B、GraphBase(正确答案)
C、Hbase
D、HDFS
23. HBase 使用 get 方法读取数据时,下列哪个选项是需要的? [单选题]
A、Delete delete = new Delete(rowKey)
B、hing(1000)
C、byte[] rowKey = s("")(正确答案)
D、List
24. Flink 不包含以下哪些数据处理场景? [单选题]
A、高并发
B、毫秒级低时延
C、高可靠性
D、图形分析(正确答案)
25. 关于 GaussDB 200 的逻辑架构,下列说法正确的是()? [单选题]
A、DN 是实际数据节点,所以只负责存储数据。
B、CM 是集群的管理模块,那么负责集群的日常管理和运维。
C、CN 是协调节点,协助 CM 管理整个集群。
D、GTM 是全局事务控制器,负责生成和维护全局事务 ID 等全局唯一信息。(正
确答案)
26. 用户 Region 和 Region Server 之间的路由信息,保存在哪个模块中? [单选题]
A、Zookeeper
B、B HDFS
C、Master
D、Meta 表(正确答案)
27. Hbase 的物理存储单元是什么? [单选题]
A、Region
B、Columnfamily(正确答案)
C、Column
D、Row
28. Redis 中适合存储对象的数据类型是? [单选题]
A、Hash(正确答案)
B、List
C、String
D、Set
29. GAUSSDB200 数据并行导入 Shared 策略支持的数据格式是? [单选题]
A、CSV
B、Text(正确答案)
C、FIXED
D、seq
30. Flume 支持第三方过滤器对数据进行过滤操作。 [判断题]
对(正确答案)
错
31. 多个 Flume 可以连接起来从部署节点上采集数据。 [判断题]
对(正确答案)
错
32. Flume 传输数据时,sink 如果出现下一跳故障,可以将数据发给其他的下一
跳。 [判断题]
对(正确答案)
错
33. Kafka 集群中,Kafka 服务端角色是 Consumer。 [判断题]
对
错(正确答案)
34. Kafka 集群中,Kafka 部署的实例个数不得小于 2。 [判断题]
对(正确答案)
错
35. Checkpoint 机制是 Flink 运行过程中容错的重要手段。 [判断题]
对(正确答案)
错
36. Flink 程序是由 DataSet 和 DataStream 组成。 [判断题]
对
错(正确答案)
37. Structured Streaming 的外部存储系统的 Append Mode 方式表示只有在 Result
Table 中被更新的数据才会被写入到外部存储系统。 [判断题]
对
错(正确答案)
38. Redis 可以做排行榜的应用场景。 [判断题]
对(正确答案)
错
39. Redis 的 flushall 命令表示清空 Redis 实例下所有数据库的数据。 [判断题]
对(正确答案)
错
40. 数据库架构设计 Shard-Everying 是指服务器的所有资源(包括磁盘、CPU、显
卡、网络)都共享。 [判断题]
对
错(正确答案)
41. CTID 的值是增量增加的。 [判断题]
对(正确答案)
错
42. 物理集群包含逻辑集群。 [判断题]
对(正确答案)
错
43. SQL on Anywhere 的意思是 SQL 可以在任何地方使用。 [判断题]
对
错(正确答案)
44. GaussDB 200 的自适应调度和大数据的 Yarn 调度是类似的,都是根据作业的所
耗资源, 按照作业优先级,并优先满足损耗资源少的作业,保证资源的充分利
用。 [判断题]
对
错(正确答案)
2024年3月11日发(作者:后飞昂)
华为大数据测试试题及答案
HCIP_81
您的姓名: [填空题] *
_________________________________
1. Flume 支持采集静态目录下数据的 source 类型是? [单选题]
A、http source
B、spooling directory source(正确答案)
C、exec source
D、syslog source
2. 关于 Kafka 磁盘容量不足的告警,对于可能的原因以下不正确的是? [单选题]
A、用于存储 Kafka 数据的磁盘配置(如磁盘数目磁盘大小等),无法满足当前业
务数据流量,导致磁盘使用 率达到上限
B、数据保存时间配置过长,数据累积达到磁盘使用率上限
C、业务规划不合理,导致数据分配不均,使部分磁盘达到使用率上限
D、Broker 节点故障导致(正确答案)
3. 查看 Kafka 某 Topic 的 Partition 详细信息时,使用如下哪个命令? [单选题]
A、bin/ --create
B、bin/ –list
C、bin/ –delete
D、bin/ –describe(正确答案)
4. 关于 Kafka 组件部署说法不正确的是? [单选题]
A、Kafka 强依赖于 ZooKeeper,安装 Kafka 必须安装 ZooKeeper
B、Kafka 部署的实例个数不得小于 2
C、Kafka 服务端可以产生消息(正确答案)
D、Consumer 作为 Kafka 的客户端角色专门进行消息的消费
5. 在 redis 中,下面哪个是操作 Hash 数据类型的命令? [单选题]
A、strlen
B、hexists(正确答案)
C、smembers
D、Ltrim
6. 关于 Schema 和 Database,下面说法正确的是()。 [单选题]
A、二者都能实现资源隔离
B、schema 和用户强相关的,通过权限控制语法可以实现不同用户对各 Schema 的
权限(正确答案)
C、Database 之间无法直接访问,但通过权限授予可以访问数据
D、相比于 Database,Schema 的隔离更加的彻底
7. 下面哪个数据类型不是 GaussDB 200 支持的数据类型()。 [单选题]
A、XML 类型(正确答案)
B、数值类型
C、JSON 类型
D、货币类型
8. GaussDB 200 在创建表时,需要注意以下哪个事项()? [单选题]
A、创建列存表时压缩级别默认为 LOW(正确答案)
B、创建列存表时压缩级别默认为 HIGH
C、创建列存表时压缩级别默认为 NO
D、创建列存表之后,后续可以修改为行存表
9. 下列关于存储过程的特点说法正确的是()? [单选题]
A、编写的 SQL 存储在数据库中,因此执行速度快
B、创建时编译,执行时调用,因此开发效率高
C、用户创建的存储过程或自定义函数可以重复调用,因此数据传输量少
D、通过指定存储过程的访问权限,因此安全系数高(正确答案)
10. 下列关于 GaussDB 200 的局部聚簇技术说法正确的是()? [单选题]
A、局部聚簇技术可以应用在 GaussDB 200 的所有表中
B、局部聚簇在某些场景下可以提交检索效率,所以在创建表时根据业务场景应创
建多个 PCK
C、PCK 对应的列尽量不要为空值
D、PCK 通过 min/max 稀疏索引实现事实表快速过滤扫描(正确答案)
11. 从数据库架构设计来看,主要有以下哪些设计思路? [单选题]
A、Shard-Disk
B、Shard-Everying
C、Shard-Nothing
D、以上都是(正确答案)
12. 语句 number = 0 的意思是()? [单选题]
A、修改变量 number 的值为 0
B、判断 number 的值是否为 0
C、比较 number 和 0 的大小
D、声明一个变量 number,并初始化值为 0(正确答案)
13. GaussDB 200 支持几种数据并行导入策略? [单选题]
A、4
B、3(正确答案)
C、2
D、1
14. ElasticSearch 架构中包含哪些? [单选题]
A、A. 以上说法全都正确(正确答案)
B、Client
C、ESMaster
D、ESNode
15. .以下哪个不是 RDD 的创建方式? [单选题]
A、从子的 RDD 转换到新的 RDD(正确答案)
B、从数据集合转换而来
C、从 HDFS 输入创建
D、从父的 RDD 转换的到新的 RDD
16. 以下哪个不是 SparkSQL 的使用场景? [单选题]
A、A. 需要处理 PB 级的大容量数据
B、对数据处理的实时性要求不高的场景
C、实时数据查询(正确答案)
D、结构化数据处理
17. 以下哪个不是离线批处理的核心诉求? [单选题]
A、处理数据量巨大
B、处理数据格式多样
C、处理时间要求不高(正确答案)
D、支持 SQL 类作业和自定义作业
18. HBase 架构中包含哪些? [单选题]
A、Zookeeper
B、以上说法全都正确(正确答案)
C、Hmaster
D、HRegionServer
19. 某项目小组接到一个大数据实时分析项目,且对实时性要求很高。请问以下哪
种大数据计算 框架最合适? [单选题]
A、Hbase
B、MapReduce
C、Spark
D、Flink(正确答案)
20. 以下关于 Hive 内置函数描述正确的是? [单选题]
A、desc functions upper:查看系统自带的函数
B、trim():去除空字符串(正确答案)
C、to_date():获取当前日期
D、substr():求字符串长度
21. Gremlin 中查询单个点的信息该用什么命令? [单选题]
A、g.V(13464736).valueMap()(正确答案)
B、g.V().hasLabel("test").values("age")
C、g.V().hasLabel("test")
D、g.V().hasLabel("test").valueMap("String_list","age")
22. 考虑以下场景,当公安人员需要根据某犯罪人员发现其犯罪同伙时,最适合使
用下列哪个工 具? [单选题]
A、ElasticSearch
B、GraphBase(正确答案)
C、Hbase
D、HDFS
23. HBase 使用 get 方法读取数据时,下列哪个选项是需要的? [单选题]
A、Delete delete = new Delete(rowKey)
B、hing(1000)
C、byte[] rowKey = s("")(正确答案)
D、List
24. Flink 不包含以下哪些数据处理场景? [单选题]
A、高并发
B、毫秒级低时延
C、高可靠性
D、图形分析(正确答案)
25. 关于 GaussDB 200 的逻辑架构,下列说法正确的是()? [单选题]
A、DN 是实际数据节点,所以只负责存储数据。
B、CM 是集群的管理模块,那么负责集群的日常管理和运维。
C、CN 是协调节点,协助 CM 管理整个集群。
D、GTM 是全局事务控制器,负责生成和维护全局事务 ID 等全局唯一信息。(正
确答案)
26. 用户 Region 和 Region Server 之间的路由信息,保存在哪个模块中? [单选题]
A、Zookeeper
B、B HDFS
C、Master
D、Meta 表(正确答案)
27. Hbase 的物理存储单元是什么? [单选题]
A、Region
B、Columnfamily(正确答案)
C、Column
D、Row
28. Redis 中适合存储对象的数据类型是? [单选题]
A、Hash(正确答案)
B、List
C、String
D、Set
29. GAUSSDB200 数据并行导入 Shared 策略支持的数据格式是? [单选题]
A、CSV
B、Text(正确答案)
C、FIXED
D、seq
30. Flume 支持第三方过滤器对数据进行过滤操作。 [判断题]
对(正确答案)
错
31. 多个 Flume 可以连接起来从部署节点上采集数据。 [判断题]
对(正确答案)
错
32. Flume 传输数据时,sink 如果出现下一跳故障,可以将数据发给其他的下一
跳。 [判断题]
对(正确答案)
错
33. Kafka 集群中,Kafka 服务端角色是 Consumer。 [判断题]
对
错(正确答案)
34. Kafka 集群中,Kafka 部署的实例个数不得小于 2。 [判断题]
对(正确答案)
错
35. Checkpoint 机制是 Flink 运行过程中容错的重要手段。 [判断题]
对(正确答案)
错
36. Flink 程序是由 DataSet 和 DataStream 组成。 [判断题]
对
错(正确答案)
37. Structured Streaming 的外部存储系统的 Append Mode 方式表示只有在 Result
Table 中被更新的数据才会被写入到外部存储系统。 [判断题]
对
错(正确答案)
38. Redis 可以做排行榜的应用场景。 [判断题]
对(正确答案)
错
39. Redis 的 flushall 命令表示清空 Redis 实例下所有数据库的数据。 [判断题]
对(正确答案)
错
40. 数据库架构设计 Shard-Everying 是指服务器的所有资源(包括磁盘、CPU、显
卡、网络)都共享。 [判断题]
对
错(正确答案)
41. CTID 的值是增量增加的。 [判断题]
对(正确答案)
错
42. 物理集群包含逻辑集群。 [判断题]
对(正确答案)
错
43. SQL on Anywhere 的意思是 SQL 可以在任何地方使用。 [判断题]
对
错(正确答案)
44. GaussDB 200 的自适应调度和大数据的 Yarn 调度是类似的,都是根据作业的所
耗资源, 按照作业优先级,并优先满足损耗资源少的作业,保证资源的充分利
用。 [判断题]
对
错(正确答案)