华为大数据练习(试卷编号141)-USB迷|专注于互联网分享

2024年3月11日发(作者：次银)

华为大数据练习(试卷编号141)

1.[单选题]以下关于DWS数据库透明加密的特点，错误的是：（）。

A)支持行存表数据加密，不支持列存表加密

B)支持集群级别配置

C)使用KMS服务加密

D)加密密钥层次结构有三层

答案:A

解析:

2.[单选题]对于 Elastic Search 描述不正确的是?（）

A)对 Lucene 进行了扩展

B)不支持结构化数据存储

C)能够水平扩展

D)基于 Lucene 的全文检索服务

答案:B

解析:

3.[单选题]以下（）文件格式为纯行式存储。

A)ORC File

B)Parquet File

C)Sequence File

D)RC File

答案:C

解析:

4.[单选题]MVCC用于解决（）事务冲突。

A)读读

B)写写

C)读写

D)上述都包括

答案:C

解析:

5.[单选题]Redis 中 List 列表是什么数据结构实现的?()

A)红黑树

B)循环链表

C)平衡二叉树

D)双向链表

答案:D

解析:

6.[单选题]以下哪个选项对 Red is 数据读写流程描述是正确的?（）

A)Server A 节点返回集群拓扑―一客户端选择集群任意一个 Server A 节点连接――客户端计算

Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果

B)客户端选择集群任意一个 Server A 节点连接――Server A 节点返回集群拓扑―一客户端计算

Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果

C)Server A 节点返回集群拓扑--客户端计算 Key 归属的槽位以及对应 Server B 节点并连接

――客户端选择集群任意一个 Server A 节点连接--Server B 节点返回业务操作结果

D)客户端选择集群任意一个Server A节点连接――客户端计算Key 归属的槽位以及对应Server B 节

点并连接――Server A 节点返回集群拓扑――Server B 节点返回业务操作结果

答案:B

解析:

7.[单选题]CREATE TABLE AS创建表，后面需要添加查询语句类型是：（）。

A)INSERT

B)UPDATE

C)SELECT

D)DELETE

答案:C

解析:

8.[单选题]下面关于 GaussDB 200 的跨集群协同分析，说法正确的是（）？

A)跨集群所指的集群是 GaussDB 集群。

B)跨集群过程中只需要输入集群 IP 地址和端口就可以访问其他集群的数据。

C)跨集群协同分析支持 SQL 算子下推。

D)跨集群协同分析时其他集群会将要查询的数据移动到目标集群，供目标集群查询。

答案:C

解析:

9.[单选题]Yam中（）角色是管理单个节点资源（CPU/Memory）的。

A)NodeManager

B)Resource Manager

C)Data Node

D)NameNode

答案:A

解析:

10.[单选题]安全Kafka集群中，关于Kafka组的说法错误的是（）

A)kafka admin组拥有Topic的所有权限

B)kafka组用户被授予Topic相关权限后，只有使用新API才能访问；

C)Kafka super组用户默认具有所有的Topic的读写权限

D)kafka组用户被授予Topic相关权限后，一定可以访问

答案:D

解析:

11.[单选题]关于Kerberos的TGT以下说法错误的是:（）。

A)TGT全称为票据授权服务票据，主要由KDC服务器生成

B)TGT一次生成之后，可以无限期使用。

C)TGT在客户端的存在方式可以是在内存中存储，也可以在本地以文件的形式存储。

D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及分发给的客户端名称。

答案:B

解析:

12.[单选题]数据湖探索（Data Lake Insight，简称DLI）是支持以下（）形式的大数据计算分析

服务。

A)流式处理

B)批处理

C)流批一体

D)都不支持

答案:C

解析:

13.[单选题]在线迁移同步过程中可能因数据冲突、数据加工、异构类型转化、对象缺失等因素导致

数据异常，用户可以通过“异常数据”页签查看，以帮助异常写入的排查。下列同步过程中，支持

异常诊断的是:（）。

A)Postgres->GaussDB

B)Oracle->RDS for MySQL

C)Mysql->GaussDB(for MySQL)

D)Postgres->GaussDB

答案:B

解析:

14.[单选题]在FusionInsight产品中，关于创建Kafka的Topic，以下描述正确的是:（）。

A)在创建Kafka的Topic时，必须设置Partition

B)在创建Kafka的Topic时，必须设置Partition副本数

C)设置多副本可以增强Kafka服务的容灾能力

D)以上全部正确

答案:C

解析:

15.[单选题]Kafka 中数据从 Producer 到 Broker 和 Broker 到 Consumer 分别是哪种传递方式

()

A)push，push

B)pull，pull

C)pull，push

D)push，pull

答案:D

解析:

16.[单选题]Hive 是基于 Hadoop 的数据仓库软件，最大可以查询和管理( )级别的分布式数据。()

A)GB

B)PB

C)TB

D)MB

答案:B

解析:

17.[单选题]HBase 使用 get 方法读取数据时，下列哪个选项是需要的?（）

A) Caching(1000)

B)Delete delete=new Delete(rowKey)

C)Listputs=new ArrayList()

D)byte[] rowKey=s (” ”)

答案:D

解析:

18.[单选题]修改资源的化导入excel的操作列应该填写（）。

A)插入

B)更新

C)删除

D)追加

答案:B

解析:

19.[单选题]Loader 特点不包含?（）

A)图形化

B)实时性

C)高性能

D)安全

答案:B

解析:

20.[单选题]元数据采集任务的启动方式不包括：（）。

A)循环执行

B)定时执行

C)手动执行

D)定时立即执行

答案:A

解析:

21.[单选题]以下哪项不提供交互式查询服务？()

A)Presto

B)Impala

C)Echart

D)Kylin

答案:C

解析:Presto是一个facebook开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到

PB字节。

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和

HBase中的PB级大数据。

Echarts 是一个由百度开源的数据可视化，凭借着良好的交互性，精巧的图表设计，得到了众多开

发者的认可。

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能

力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的

Hive表。

22.[单选题]当前传统关系型数据库主要面临的挑战是()?

A)数据量爆炸式增长，要求数据处理平台具备弹性扩展能力。

B)数据处理时效性需求提高，要求数据处理平台速度够快。

C)多类型数据融合，要求数据处理平台功能更加强大。

D)以上全都正确。

答案:D

解析:

23.[单选题]TOP N 操作最适合采用哪种 Redis 数据结构?（）

A)Set

B)Hash

C)List

D)Sorted Set

答案:D

解析:

24.[单选题]ume 中的 JDBC Channel 内置数据库是哪个？()

A)MySql

B)SqlServer

C)Derby

D)Oracle

答案:C

解析:

25.[单选题]下列选项中，关于Zookeeper可靠性含义说法正确的是:（）。

A)可靠性通过主备部署模式实现

B)可靠性是指更新只能成功或者失败，没有中间状态

C)可靠性是指无论哪一个server，对外展示的均是同一个视图

D)可靠性是指一个消息被一个server接受，它将被所有的server 接受

答案:D

解析:

26.[单选题]MapReduce任务最终是在下列（）中被执行的。

A)NodeManager

B)container

C)ResourceManager

D)AppMaster

答案:B

解析:

27.[单选题]在WebHCat架构中，用户能够通过安全的HTTPS协议执行以下（）操作。

A)执行HiveDDL操作

B)运行MapReduce任务

C)运行Hive SQL任务

D)以上全部正确

答案:D

解析:

28.[单选题]以下关于Zookeeper关键特性中的原子性说法正确的是:（）。

A)客户端发送的更新会按照他们发送的顺序进行应用

B)鞥新只能全部完成或失败，不会部分完成

C)一条消息被一个server接受，将会被所有的server接受

D)集群中无论那台服务器，对外展示的均是统一视图

答案:B

解析:

29.[单选题]当 ElasticSearch 集群有节点加入或退出时，集群数据会发生什么动作?()

A)数据重载

B)数据分布

C)数据更新

D)数据重建

答案:B

解析:

30.[单选题]某工程师正在开发 Elastic Search 应用，下面这些代码可以帮助他做什么?()

Mapparams=ton Map(“pretty”,“true”); Response

rsp=mRequest(”GET”，”/”+index+”/”+type+”/”+id，params) ；

Equals( StatusLine() .get StatusCode() ，Http _OK) ；

A)查询指定文档分片信息

B)查询指定 index、type、id 下的文档信息

C)查询指定 index、type 下的文档信息

D)维护指定文档信息

答案:B

解析:

31.[单选题]通过createTable方法来创建一张表，必须传入的参数为（）？

A)表名

B)表名和列

C)表名和Family

D)可以为空

答案:C

解析:Family是必须在建表的时候就指定的，但是列可以动态添加。

32.[单选题]Gauss DB 200 支持几种数据并行导入策略?()

A)2

B)1

C)4

D)3

答案:D

解析:为了使得数据能够正确、不重复地分配给各DN，保证入库数据的唯一性， GaussDB 200对应提

供了三种策略：

1、Normal策略：

利用高斯数据服务工具GDS(Gauss Data Service)来管理用户数据，将集群之外主机上的数据导入

到集群中。

2、Shared策略：

利用网络文件系统NFS(Network File System)服务，将存放用户数据的服务器统一挂载到各 DN所在

主机的相同路径下，将集群之外主机上的数据导入到集群中。

3、Private策略：

用户自行将数据文件上传到各DN所在主机。

33.[单选题]以下不是EXPLAIN命令选项的是：（）。

A)performance

B)pretty

C)analyze

D)verbose

答案:B

解析:

34.[单选题]以下关于Kafka消息消费者Consumer读取消息描述错误的是:（）。

A)consumer使用offset来记录读取位置

B)Kafka的一个Topic可以理解为一个队列，即一个消息

C)生产者产生的消息逐条放到Topic尾部

D)消费者从右至左读取消息

答案:D

解析:

35.[单选题]下面（）不是二进制类型。

A)BLOB

B)RAW

C)BYTEA

D)TEXT

答案:D

解析:

36.[单选题]Action 是 RDD 的算子的一个类型，不可以将结果写入（）

A)磁盘

B)HDFS

C)数据库

D)CPU

答案:C

解析:Action（执行）：触发Spark作业运行，真正触发转换算子的计算； Action操作会对 RDD 计

算出一个结果，并把结果返回到驱动器程序Driver中，或把结果存储到外部存储系统（如 HDFS，磁

盘，cpu等）中。

37.[单选题]以下（）能力不属于数据中台能力架构中存储计算能力。

A)分布式数据仓库

B)分布式关系数据库

C)流计算

D)任务调度

答案:D

解析:

38.[单选题]以下哪项不属于批量数据采集工具?（）

A)MapReduce

B)Flume

C)Sqoop

D)其他ETL工具

答案:A

解析:

39.[单选题]Gauss DB 200 在创建表时，需要注意以下哪些事项() ?

A)创建列存表之后，后续可以修改为行存表。

B)创建列存表时压缩级别默认为 HIGH。

C)如果指定表空间为普通表空间，创建表时默认是行式存储。

D)创建一个行存表之后，后续可以修改为列存表。

答案:C

解析:

40.[单选题]以下关于常见数据库描述正确的是?（）

A)HBase：基于 ZooKeeper， Hadoop，适合非结构化数据存储，是高可靠性、高性能、面向行、

可伸缩的分布式存储系统。

B)Oracle：关系型数据库，行式存储，支持 SQL，中量级数据分析、存储、不可分布式，开源

软件。

C)Redis：开源 key-value 数据库，读写性能极高，数据类型丰富，可以与 Storm 结合进行实时

查询分析。

D)Mysql：关系型数据库，列式存储，支持 SQL，轻量级数据分析、存储，仅有商业版本。

答案:C

解析:

41.[单选题]一般情况下，若要提高 ElasticSearch 检索效率，可以采取什么操作?()

A)使用 Hive 做底层存储

B)调整索引分片数

C)压缩索引

D)增加 EsMaster 节点

答案:B

解析:

42.[单选题]Redis 中 String 数据类型不含以下哪种操作?()

A)mget

B)size

C)strlen

D)append

答案:B

解析:

43.[单选题]关于表连接算子的说法错误的是() ?

A)聚合操作如 group by 会触发 NergeJoin.

B)表连接算子主要有 Nestloop、MergeJoin、 MinorJoin、 HashJoin.

C)算子的选择是 SQL 根据逻辑自行选择的，与人为无关。

D)默认情况下，执行效率来说 HashJoin 最高。

答案:D

解析:

44.[单选题]ElasticSearch 存放所有关键词的地方是()

A)字典

B)关键词

C)词典

D)索引

答案:C

解析:

45.[单选题]部署FusionInsight HD时，同一集群内的Flume Server节点建议至少部署（）个。

A)1

B)3

C)4

D)2

答案:D

解析:

46.[单选题]下面关于 ACID 解释错误的是:（）。

A)A-atomictty 原子性：事务的所有操作要么全部完成，要么全部不完成

B)C-consistency 一致性：事务始终保证系统处于一致性的状态，不影响一致性

C)I-Isolation 隔离性：事务执行是隔离的，3 个隔离级别

D)D-Durability 持久性：事务的结果是持久的

答案:C

解析:

47.[单选题]华为8.0数据中台架构贴源层数据存储产品是：（）。

A)MRS

B)GBase 8A

C)DWS

D)DAYU

答案:A

解析:

48.[单选题]以下两种描述分别对应:（）两种分类算法的评价标准。

A)Precision，Recall

B)Recall，Precision

C)Precision，Roc

D)Recall，Roc

答案:A

解析:

49.[单选题]Elasticsearch 中构建一个 query 需要用到下列哪个代码?()

A)Query()

B)ry()

C)ry()

D)uery()

答案:D

解析:

50.[单选题]离线批处理方案的应用场景不包括?()

A)占用计算存储资源多

B)快速高效，实时的数据处理

C)数据处理格式多样

D)处理大规模数据

答案:B

解析:

51.[单选题]下来（）Redis命令属于原子操作。

A)INCR （将储存的数字值增一）

B)HINCRBY （为哈希表key中的域field的值加上增量increment）

C)LPUSH （对链表的push操作）

D)以上都是

答案:D

解析:

52.[单选题]如果需要由数据生产者决定数据发送给目标Blot的某一个确定的Task，应该选择以下（

）消息发布策略。

A)局部字段分组

B)广播分组

C)直接分组

D)全局分组

答案:C

解析:

53.[单选题]创建一个存储过程 proc_add CREATE OR REPLACE PROCEDURE proc_add(param 1 in

INTEGER，param 2 out INTEGER，param 3 in INTEGER) AS BEGIN Param 2：=param 1+param 3;

END; ,创建一个存储过程 proc_test CREATE OR REPLACE PROCEDURE proc_test(result out

INTEGER) As DECLARE Input 1 INTEGER ：= 1; Input 2 INTEGER ：= 2; Statement VARCHAR

2(200) ： Param2 INTEGER： BEGIN --声明调用语句 Statement ：=’call proc_add(：co 1_1，

：co 1_2，：co 1_3)’； --执行语句 EXECUTE IMMEDIATE statement USING IN input 1， OUT

param 2， IN input 2; Result：=param 2; END; 执行语句 call proc_test(10) ，结果是() 。

A)3

B)无返回值

C)4

D)2

答案:A

解析:

54.[单选题]下列选项不支持创建采集元数据任务时添加数据分类，实现自动识别的为:（）。

A)RDS(Mysql)

B)DWS

C)DLI

D)MRS Hive

答案:A

解析:

55.[单选题]FusionInsight HD中Loader从SFTP服务器导入文件时，不需要做编码转换和数据转换且

速度最快的文件类型是:（）。

A)graph-file

B)binary-file

C)text-file

D)sequence-file

答案:B

解析:

56.[单选题]HDFS中Namenode的主备仲裁，是由：（）组件控制的。

A)HDFS Client

B)Node Manager

C)ResourceManager

D)ZooKeeper FailoverController

答案:D

解析:

57.[单选题]HDFS的副本放置策略中，同一机架不同的服务器之间的距离是：（）。

A)3

B)2

C)1

D)4

答案:B

解析:

58.[单选题]传统处理数据的数据规模的单位是:（）。

A)TB

B)EB

C)PB

D)GB

答案:D

解析:

59.[单选题]存储过程的调用有几种方式()?

A)3

B)1

C)4

D)2

答案:D

解析:

60.[单选题]在Flink框架中，下列（）是流处理和批处理的计算引擎。

A)standalone

B)Runtime

C)FlinkCore

D)DataStream

答案:B

解析:

61.[单选题]在很多小文件场景下，Spark会起很多Task，当SQL逻辑中存在shuffle操作时，会大大

增加hash分桶数，严重影响性能，FusionInsight中，针对小文件的场景通常采用（）算子来对

Table中的小文件生成的Partition进行合并，减少partition数，从而避免在shuffle的时候，生成

过多的hash分桶，提升形成。

A)group by

B)coalosce

C)connect

D)join

答案:D

解析:

62.[单选题]HDFS中的主备仲裁，是由:（）组件控制的。

A)Zookeeper Failover Controller

B)NodeManager

C)ResourceManager

D)HDFS Client

答案:A

解析:

63.[单选题]关于HIVE的描述不正确的是:（）。

A)Hive最佳使用场景是大数据集的批处理作业

B)Hive可以实现在大规模集群上实现低延迟快速查询

C)Hive构建在基于静态批量处理的Hadoop之上，Hadoop通常有较高的延迟并且在提交作业和调度的

时候需要大量的开销

D)Hive查询操作过程严格遵循Hadoop MapReduce的作用执行模型，Hive将用户的HiveSQL语句通过解

释器转换为MapReduce Hadoop集群上

答案:B

解析:

64.[单选题]在用户验证权限时，应当在“服务列表”中选择数据复制服务，进入DRS主界面，单击

右上角（），尝试购创建迁移任务。

A)修改迁移任务

B)创建迁移任务

C)查阅权限

D)删除迁移任务

答案:B

解析:

65.[单选题]MULTIXACT日志存储的内容针对的是记录（）。

A)xmin

B)xmax

C)data

D)cid

答案:B

解析:

66.[单选题]哪个是实时检索解决方案的数据源?（）

A)流数据

B)以上都是

C)文件数据

D)图数据

答案:B

解析:

67.[单选题]创建Loader作业时，可以在以下（）步骤中设置Map数。

A)输出

B)输入设置

C)转换

D)基本信息

答案:A

解析:

68.[单选题]下列关于 FusionInsight LibrA 数据均匀分布的存储描述错误的是:（）。

A)解析器从客户端应用获取输入的数据

B)解析器对数据解析后，将数据分发诶各个处理单元进行处理

C)各个处理单元把接受到的数据存储到各自的逻辑磁盘中

D)每一个处理单元的逻辑磁盘只能是服务器自带的物理磁盘

答案:D

解析:

69.[单选题]下列关于Flink barrieer描述错误的是：（）。

A)一个barrier将本周期快快照的数据与下一个周期快照的数据分隔开来

B)barrier是Flink快照的核心

C)在插入barrier的时候，会暂时阻断数据流

D)barrier周期性插入到数据流中，并作为数据流的一部分随之流动

答案:C

解析:

70.[单选题]FusionInsight Manager对服务的管理操作，下面说法错误的是:（）。

A)可以设置不常用的服务隐藏显示

B)可以添加和卸载服务

C)可以对服务进行启停操作

D)可以查看服务的当前状态

答案:A

解析:

71.[单选题]在有N个节点FusionInsight HD集群中部署HBase时、推荐部署（）个H Master进程

，（）个Region Server进程。

A)3、N

B)N、N

C)2、N

D)2、2

答案:C

解析:

72.[单选题]下列代码的作用是?() String graphName=“graphbase”; Graph(graph

Name) ；

A)创建图

B)获得图

C)删除图

D)修改图

答案:A

解析:

73.[单选题]哪个不是 Structured Streaming 中 OutPut 可以定义的存储方式?（）

A)Update Mode

B)JDBC Mode

C)Complete Mode

D)Append Mode

答案:B

解析:

74.[单选题]关于 Spark 中 RDD 的描述不正确的是？()

A)RDD 可以从 HDFS 输入创建，或从与 Hadoop 兼容的其他存储系统中输入创建

B)当前 RDD 默认是存储于内存，当内存不足时，RDD 也不会溢出到磁盘中。

C)Spark 的所有 Transform 操作都是基于 RDD 来实现的。

D)RDD 是只读和可区分的。要想对 RDD 进行操作，只能重新生成一个新的 RDD

答案:B

解析:RDD 具有容错机制，并且只读不能修改，可以执行确定的转换操作创建新的 RDD。具体来讲

，RDD 具有以下几个属性。

只读：不能修改，只能通过转换操作生成新的 RDD。

分布式：可以分布在多台机器上进行并行处理。

弹性：计算过程中内存不够时它会和磁盘进行数据交换。

基于内存：可以全部或部分缓存在内存中，在多次计算间重用。

75.[单选题]以下选项不属于 Flume 的特点的是?()

A)支持定制各类方数据发送

B)支持结构化、非结构化数据源

C)支持多级联操作

D)支持数据实时检索

答案:D

解析:

76.[单选题]离线批处理工具不包含以下哪项? （）

A)MapReduce

B)SQL

C)Storm

D)Spark

答案:C

解析:

77.[单选题]Flink中的（）接口属于流数据处理，（）接口用于批处理。

A)DataBatch API，DataStream API

B)Stream API，Batch API

C)DataStream API，DataSet API

D)Batch API，Stream API

答案:C

解析:

78.[单选题]大数据最显著的特征是:（）。

A)数据规模大

B)数据类型多样

C)数据处理速度快

D)数据价值密度高

答案:A

解析:

79.[单选题]硬件故障被认为是常态，为了解决这个问题，HDFS设计了副本机制，默认情况下，一份

文件，HDFS会存放（）份。

A)3

B)5

C)2

D)1

答案:A

解析:

80.[单选题]以下（）组件负责接收来自应用的访问请求，并向客户端返回执行结果。

A)GTM

B)WLM

C)CN

D)DN

答案:C

解析:

81.[单选题]以下不属于事务上层系统状态的是：（）。

A)started

B)begin

C)commit

D)inprogress

答案:C

解析:

82.[单选题]以下（）组件不是华为产品的。

A)CDM

B)DRS

C)RDS

D)SG-ETL

答案:D

解析:

83.[单选题]离线批处理常用的组件不包括哪个？（）

A)Flume

B)Hive

C)Spark

D)Storm

答案:D

解析:

84.[单选题]Fusionlnsiht HD中，Oozie客户端的JAVA API在运行任务时会调用OozieClient类的（

）方法。

A)suspend

B)getJobInfo

C)submit

D)run

答案:D

解析:

85.[单选题]以下哪个选项属于大数据消息系统?（）

A)Spark

B)Kafka

C)HBase

D)Zookeeper

答案:B

解析:

86.[单选题]Flink 不包含以下哪些数据处理场景?（）

A)高可靠性

B)图形分析

C)毫秒级低时延

D)高并发

答案:B

解析:

87.[单选题]数据中台在汇聚生产库的结构化数据时，最多的数据处理操作是：（）。

A)统计

B)删除

C)新增

D)修改

答案:C

解析:

88.[单选题]进行场景迁移的前提条件说法错误的是:（）。

A)该用户必须拥有管理员权限

B)已获取待连接数据源的用户名

C)已获取待连接数据源的密码

D)已获取待连接数据源的地址

答案:A

解析:

89.[单选题]以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是:（

）。

A)仅写入内存

B)同时写入硬盘和内存

C)先写入内存再写入硬盘

D)先写入硬盘再写入内存

答案:D

解析:

90.[单选题]下面哪个数据类型不是 Gauss DB 200 支持的数据类型()?

A)JSON 类型

B)货币类型

C)数值类型

D)XML 类型

答案:D

解析:

91.[单选题]用户 Region 和 Region Server 之间的路由信息，保存在哪个模块中?（）

A)Master

B)HDFS

C)Meta 表

D)Zookeeper

答案:C

解析:

92.[单选题]以下关于FusionInsight CTBase的描述不正确的是:（）。

A)CTBase的读写接口，统一封装了行定义的接口，自动进行冷字段的合并和解析，不需要在应用程

序中进行合并和解析

B)CTBase是基于Hbase的聚簇表开发框架

C)CTBase提供了一套WebUI进行元数据定义，提供了只管医用的表设计工具，降低表设计的难度

D)CTBase的java API提供了一套Hbase连接池管理的接口，内部连接共享，减少客户端应用开发的难

度

答案:B

解析:

93.[单选题]Spark 的中间数据放在() 中，对于迭代运算的效率更高，进行批处理时更高效.（）

A)Spark Core

B)磁盘

C)HDFS

D)内存

答案:D

解析:

94.[单选题]HDFS客户端所在节点的系统时间与Fusioninsight HD集群的系统时间要保持一致，若有

时间差, 那么时间差应小于（）分钟。

A)5

B)10

C)20

D)30

答案:A

解析:

95.[单选题]Flume 中基于 WAL(预写式日志 Write-Ahead Log) 实现 Channel 持久化的是?()

A)Memory Channel

B)Kafka Channel

C)File Channel

D)JDBC Channel

答案:C

解析:channel可以理解为一种临时的存储，source将event放入channel ,sink取走它。flume提供了

四种可以用于生产环境的channel。

1、Memory Channel

基于内存的channel，实际就是将event存放于内存中一个固定大小的队列中。其优点是速度快，缺

点是可能丢失数据。

2、JDBC Channel

将event存放于一个支持JDBC连接的数据库中，目前官方推荐的是Derby库，其优点是数据可以恢复

。

3、File Channel

在磁盘上指定一个目录用于存放event，同时也可以指定目录的大小。优点是数据可持久化，可恢复

，相对于memory channel来说缺点是要频繁的读取磁盘，速度较慢。

4、Kafka Channel

在使用flume对接Kafka时，我们往往使用TailFileSource->MemoryChannel->KafkaSink的这种方式

，然后将数据输送到Kafka集群中。

96.[多选题]下列哪些组件可以对外提供SQL接口？（）

A)HBase

B)Hive

C)SparkSQL

2024年3月11日发(作者：次银)

华为大数据练习(试卷编号141)

1.[单选题]以下关于DWS数据库透明加密的特点，错误的是：（）。

A)支持行存表数据加密，不支持列存表加密

B)支持集群级别配置

C)使用KMS服务加密

D)加密密钥层次结构有三层

答案:A

解析:

2.[单选题]对于 Elastic Search 描述不正确的是?（）

A)对 Lucene 进行了扩展

B)不支持结构化数据存储

C)能够水平扩展

D)基于 Lucene 的全文检索服务

答案:B

解析:

3.[单选题]以下（）文件格式为纯行式存储。

A)ORC File

B)Parquet File

C)Sequence File

D)RC File

答案:C

解析:

4.[单选题]MVCC用于解决（）事务冲突。

A)读读

B)写写

C)读写

D)上述都包括

答案:C

解析:

5.[单选题]Redis 中 List 列表是什么数据结构实现的?()

A)红黑树

B)循环链表

C)平衡二叉树

D)双向链表

答案:D

解析:

6.[单选题]以下哪个选项对 Red is 数据读写流程描述是正确的?（）

A)Server A 节点返回集群拓扑―一客户端选择集群任意一个 Server A 节点连接――客户端计算

Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果

B)客户端选择集群任意一个 Server A 节点连接――Server A 节点返回集群拓扑―一客户端计算

Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果

C)Server A 节点返回集群拓扑--客户端计算 Key 归属的槽位以及对应 Server B 节点并连接

――客户端选择集群任意一个 Server A 节点连接--Server B 节点返回业务操作结果

D)客户端选择集群任意一个Server A节点连接――客户端计算Key 归属的槽位以及对应Server B 节

点并连接――Server A 节点返回集群拓扑――Server B 节点返回业务操作结果

答案:B

解析:

7.[单选题]CREATE TABLE AS创建表，后面需要添加查询语句类型是：（）。

A)INSERT

B)UPDATE

C)SELECT

D)DELETE

答案:C

解析:

8.[单选题]下面关于 GaussDB 200 的跨集群协同分析，说法正确的是（）？

A)跨集群所指的集群是 GaussDB 集群。

B)跨集群过程中只需要输入集群 IP 地址和端口就可以访问其他集群的数据。

C)跨集群协同分析支持 SQL 算子下推。

D)跨集群协同分析时其他集群会将要查询的数据移动到目标集群，供目标集群查询。

答案:C

解析:

9.[单选题]Yam中（）角色是管理单个节点资源（CPU/Memory）的。

A)NodeManager

B)Resource Manager

C)Data Node

D)NameNode

答案:A

解析:

10.[单选题]安全Kafka集群中，关于Kafka组的说法错误的是（）

A)kafka admin组拥有Topic的所有权限

B)kafka组用户被授予Topic相关权限后，只有使用新API才能访问；

C)Kafka super组用户默认具有所有的Topic的读写权限

D)kafka组用户被授予Topic相关权限后，一定可以访问

答案:D

解析:

11.[单选题]关于Kerberos的TGT以下说法错误的是:（）。

A)TGT全称为票据授权服务票据，主要由KDC服务器生成

B)TGT一次生成之后，可以无限期使用。

C)TGT在客户端的存在方式可以是在内存中存储，也可以在本地以文件的形式存储。

D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及分发给的客户端名称。

答案:B

解析:

12.[单选题]数据湖探索（Data Lake Insight，简称DLI）是支持以下（）形式的大数据计算分析

服务。

A)流式处理

B)批处理

C)流批一体

D)都不支持

答案:C

解析:

13.[单选题]在线迁移同步过程中可能因数据冲突、数据加工、异构类型转化、对象缺失等因素导致

数据异常，用户可以通过“异常数据”页签查看，以帮助异常写入的排查。下列同步过程中，支持

异常诊断的是:（）。

A)Postgres->GaussDB

B)Oracle->RDS for MySQL

C)Mysql->GaussDB(for MySQL)

D)Postgres->GaussDB

答案:B

解析:

14.[单选题]在FusionInsight产品中，关于创建Kafka的Topic，以下描述正确的是:（）。

A)在创建Kafka的Topic时，必须设置Partition

B)在创建Kafka的Topic时，必须设置Partition副本数

C)设置多副本可以增强Kafka服务的容灾能力

D)以上全部正确

答案:C

解析:

15.[单选题]Kafka 中数据从 Producer 到 Broker 和 Broker 到 Consumer 分别是哪种传递方式

()

A)push，push

B)pull，pull

C)pull，push

D)push，pull

答案:D

解析:

16.[单选题]Hive 是基于 Hadoop 的数据仓库软件，最大可以查询和管理( )级别的分布式数据。()

A)GB

B)PB

C)TB

D)MB

答案:B

解析:

17.[单选题]HBase 使用 get 方法读取数据时，下列哪个选项是需要的?（）

A) Caching(1000)

B)Delete delete=new Delete(rowKey)

C)Listputs=new ArrayList()

D)byte[] rowKey=s (” ”)

答案:D

解析:

18.[单选题]修改资源的化导入excel的操作列应该填写（）。

A)插入

B)更新

C)删除

D)追加

答案:B

解析:

19.[单选题]Loader 特点不包含?（）

A)图形化

B)实时性

C)高性能

D)安全

答案:B

解析:

20.[单选题]元数据采集任务的启动方式不包括：（）。

A)循环执行

B)定时执行

C)手动执行

D)定时立即执行

答案:A

解析:

21.[单选题]以下哪项不提供交互式查询服务？()

A)Presto

B)Impala

C)Echart

D)Kylin

答案:C

解析:Presto是一个facebook开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到

PB字节。

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和

HBase中的PB级大数据。

Echarts 是一个由百度开源的数据可视化，凭借着良好的交互性，精巧的图表设计，得到了众多开

发者的认可。

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能

力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的

Hive表。

22.[单选题]当前传统关系型数据库主要面临的挑战是()?

A)数据量爆炸式增长，要求数据处理平台具备弹性扩展能力。

B)数据处理时效性需求提高，要求数据处理平台速度够快。

C)多类型数据融合，要求数据处理平台功能更加强大。

D)以上全都正确。

答案:D

解析:

23.[单选题]TOP N 操作最适合采用哪种 Redis 数据结构?（）

A)Set

B)Hash

C)List

D)Sorted Set

答案:D

解析:

24.[单选题]ume 中的 JDBC Channel 内置数据库是哪个？()

A)MySql

B)SqlServer

C)Derby

D)Oracle

答案:C

解析:

25.[单选题]下列选项中，关于Zookeeper可靠性含义说法正确的是:（）。

A)可靠性通过主备部署模式实现

B)可靠性是指更新只能成功或者失败，没有中间状态

C)可靠性是指无论哪一个server，对外展示的均是同一个视图

D)可靠性是指一个消息被一个server接受，它将被所有的server 接受

答案:D

解析:

26.[单选题]MapReduce任务最终是在下列（）中被执行的。

A)NodeManager

B)container

C)ResourceManager

D)AppMaster

答案:B

解析:

27.[单选题]在WebHCat架构中，用户能够通过安全的HTTPS协议执行以下（）操作。

A)执行HiveDDL操作

B)运行MapReduce任务

C)运行Hive SQL任务

D)以上全部正确

答案:D

解析:

28.[单选题]以下关于Zookeeper关键特性中的原子性说法正确的是:（）。

A)客户端发送的更新会按照他们发送的顺序进行应用

B)鞥新只能全部完成或失败，不会部分完成

C)一条消息被一个server接受，将会被所有的server接受

D)集群中无论那台服务器，对外展示的均是统一视图

答案:B

解析:

29.[单选题]当 ElasticSearch 集群有节点加入或退出时，集群数据会发生什么动作?()

A)数据重载

B)数据分布

C)数据更新

D)数据重建

答案:B

解析:

30.[单选题]某工程师正在开发 Elastic Search 应用，下面这些代码可以帮助他做什么?()

Mapparams=ton Map(“pretty”,“true”); Response

rsp=mRequest(”GET”，”/”+index+”/”+type+”/”+id，params) ；

Equals( StatusLine() .get StatusCode() ，Http _OK) ；

A)查询指定文档分片信息

B)查询指定 index、type、id 下的文档信息

C)查询指定 index、type 下的文档信息

D)维护指定文档信息

答案:B

解析:

31.[单选题]通过createTable方法来创建一张表，必须传入的参数为（）？

A)表名

B)表名和列

C)表名和Family

D)可以为空

答案:C

解析:Family是必须在建表的时候就指定的，但是列可以动态添加。

32.[单选题]Gauss DB 200 支持几种数据并行导入策略?()

A)2

B)1

C)4

D)3

答案:D

解析:为了使得数据能够正确、不重复地分配给各DN，保证入库数据的唯一性， GaussDB 200对应提

供了三种策略：

1、Normal策略：

利用高斯数据服务工具GDS(Gauss Data Service)来管理用户数据，将集群之外主机上的数据导入

到集群中。

2、Shared策略：

利用网络文件系统NFS(Network File System)服务，将存放用户数据的服务器统一挂载到各 DN所在

主机的相同路径下，将集群之外主机上的数据导入到集群中。

3、Private策略：

用户自行将数据文件上传到各DN所在主机。

33.[单选题]以下不是EXPLAIN命令选项的是：（）。

A)performance

B)pretty

C)analyze

D)verbose

答案:B

解析:

34.[单选题]以下关于Kafka消息消费者Consumer读取消息描述错误的是:（）。

A)consumer使用offset来记录读取位置

B)Kafka的一个Topic可以理解为一个队列，即一个消息

C)生产者产生的消息逐条放到Topic尾部

D)消费者从右至左读取消息

答案:D

解析:

35.[单选题]下面（）不是二进制类型。

A)BLOB

B)RAW

C)BYTEA

D)TEXT

答案:D

解析:

36.[单选题]Action 是 RDD 的算子的一个类型，不可以将结果写入（）

A)磁盘

B)HDFS

C)数据库

D)CPU

答案:C

解析:Action（执行）：触发Spark作业运行，真正触发转换算子的计算； Action操作会对 RDD 计

算出一个结果，并把结果返回到驱动器程序Driver中，或把结果存储到外部存储系统（如 HDFS，磁

盘，cpu等）中。

37.[单选题]以下（）能力不属于数据中台能力架构中存储计算能力。

A)分布式数据仓库

B)分布式关系数据库

C)流计算

D)任务调度

答案:D

解析:

38.[单选题]以下哪项不属于批量数据采集工具?（）

A)MapReduce

B)Flume

C)Sqoop

D)其他ETL工具

答案:A

解析:

39.[单选题]Gauss DB 200 在创建表时，需要注意以下哪些事项() ?

A)创建列存表之后，后续可以修改为行存表。

B)创建列存表时压缩级别默认为 HIGH。

C)如果指定表空间为普通表空间，创建表时默认是行式存储。

D)创建一个行存表之后，后续可以修改为列存表。

答案:C

解析:

40.[单选题]以下关于常见数据库描述正确的是?（）

A)HBase：基于 ZooKeeper， Hadoop，适合非结构化数据存储，是高可靠性、高性能、面向行、

可伸缩的分布式存储系统。

B)Oracle：关系型数据库，行式存储，支持 SQL，中量级数据分析、存储、不可分布式，开源

软件。

C)Redis：开源 key-value 数据库，读写性能极高，数据类型丰富，可以与 Storm 结合进行实时

查询分析。

D)Mysql：关系型数据库，列式存储，支持 SQL，轻量级数据分析、存储，仅有商业版本。

答案:C

解析:

41.[单选题]一般情况下，若要提高 ElasticSearch 检索效率，可以采取什么操作?()

A)使用 Hive 做底层存储

B)调整索引分片数

C)压缩索引

D)增加 EsMaster 节点

答案:B

解析:

42.[单选题]Redis 中 String 数据类型不含以下哪种操作?()

A)mget

B)size

C)strlen

D)append

答案:B

解析:

43.[单选题]关于表连接算子的说法错误的是() ?

A)聚合操作如 group by 会触发 NergeJoin.

B)表连接算子主要有 Nestloop、MergeJoin、 MinorJoin、 HashJoin.

C)算子的选择是 SQL 根据逻辑自行选择的，与人为无关。

D)默认情况下，执行效率来说 HashJoin 最高。

答案:D

解析:

44.[单选题]ElasticSearch 存放所有关键词的地方是()

A)字典

B)关键词

C)词典

D)索引

答案:C

解析:

45.[单选题]部署FusionInsight HD时，同一集群内的Flume Server节点建议至少部署（）个。

A)1

B)3

C)4

D)2

答案:D

解析:

46.[单选题]下面关于 ACID 解释错误的是:（）。

A)A-atomictty 原子性：事务的所有操作要么全部完成，要么全部不完成

B)C-consistency 一致性：事务始终保证系统处于一致性的状态，不影响一致性

C)I-Isolation 隔离性：事务执行是隔离的，3 个隔离级别

D)D-Durability 持久性：事务的结果是持久的

答案:C

解析:

47.[单选题]华为8.0数据中台架构贴源层数据存储产品是：（）。

A)MRS

B)GBase 8A

C)DWS

D)DAYU

答案:A

解析:

48.[单选题]以下两种描述分别对应:（）两种分类算法的评价标准。

A)Precision，Recall

B)Recall，Precision

C)Precision，Roc

D)Recall，Roc

答案:A

解析:

49.[单选题]Elasticsearch 中构建一个 query 需要用到下列哪个代码?()

A)Query()

B)ry()

C)ry()

D)uery()

答案:D

解析:

50.[单选题]离线批处理方案的应用场景不包括?()

A)占用计算存储资源多

B)快速高效，实时的数据处理

C)数据处理格式多样

D)处理大规模数据

答案:B

解析:

51.[单选题]下来（）Redis命令属于原子操作。

A)INCR （将储存的数字值增一）

B)HINCRBY （为哈希表key中的域field的值加上增量increment）

C)LPUSH （对链表的push操作）

D)以上都是

答案:D

解析:

52.[单选题]如果需要由数据生产者决定数据发送给目标Blot的某一个确定的Task，应该选择以下（

）消息发布策略。

A)局部字段分组

B)广播分组

C)直接分组

D)全局分组

答案:C

解析:

53.[单选题]创建一个存储过程 proc_add CREATE OR REPLACE PROCEDURE proc_add(param 1 in

INTEGER，param 2 out INTEGER，param 3 in INTEGER) AS BEGIN Param 2：=param 1+param 3;

END; ,创建一个存储过程 proc_test CREATE OR REPLACE PROCEDURE proc_test(result out

INTEGER) As DECLARE Input 1 INTEGER ：= 1; Input 2 INTEGER ：= 2; Statement VARCHAR

2(200) ： Param2 INTEGER： BEGIN --声明调用语句 Statement ：=’call proc_add(：co 1_1，

：co 1_2，：co 1_3)’； --执行语句 EXECUTE IMMEDIATE statement USING IN input 1， OUT

param 2， IN input 2; Result：=param 2; END; 执行语句 call proc_test(10) ，结果是() 。

A)3

B)无返回值

C)4

D)2

答案:A

解析:

54.[单选题]下列选项不支持创建采集元数据任务时添加数据分类，实现自动识别的为:（）。

A)RDS(Mysql)

B)DWS

C)DLI

D)MRS Hive

答案:A

解析:

55.[单选题]FusionInsight HD中Loader从SFTP服务器导入文件时，不需要做编码转换和数据转换且

速度最快的文件类型是:（）。

A)graph-file

B)binary-file

C)text-file

D)sequence-file

答案:B

解析:

56.[单选题]HDFS中Namenode的主备仲裁，是由：（）组件控制的。

A)HDFS Client

B)Node Manager

C)ResourceManager

D)ZooKeeper FailoverController

答案:D

解析:

57.[单选题]HDFS的副本放置策略中，同一机架不同的服务器之间的距离是：（）。

A)3

B)2

C)1

D)4

答案:B

解析:

58.[单选题]传统处理数据的数据规模的单位是:（）。

A)TB

B)EB

C)PB

D)GB

答案:D

解析:

59.[单选题]存储过程的调用有几种方式()?

A)3

B)1

C)4

D)2

答案:D

解析:

60.[单选题]在Flink框架中，下列（）是流处理和批处理的计算引擎。

A)standalone

B)Runtime

C)FlinkCore

D)DataStream

答案:B

解析:

61.[单选题]在很多小文件场景下，Spark会起很多Task，当SQL逻辑中存在shuffle操作时，会大大

增加hash分桶数，严重影响性能，FusionInsight中，针对小文件的场景通常采用（）算子来对

Table中的小文件生成的Partition进行合并，减少partition数，从而避免在shuffle的时候，生成

过多的hash分桶，提升形成。

A)group by

B)coalosce

C)connect

D)join

答案:D

解析:

62.[单选题]HDFS中的主备仲裁，是由:（）组件控制的。

A)Zookeeper Failover Controller

B)NodeManager

C)ResourceManager

D)HDFS Client

答案:A

解析:

63.[单选题]关于HIVE的描述不正确的是:（）。

A)Hive最佳使用场景是大数据集的批处理作业

B)Hive可以实现在大规模集群上实现低延迟快速查询

C)Hive构建在基于静态批量处理的Hadoop之上，Hadoop通常有较高的延迟并且在提交作业和调度的

时候需要大量的开销

D)Hive查询操作过程严格遵循Hadoop MapReduce的作用执行模型，Hive将用户的HiveSQL语句通过解

释器转换为MapReduce Hadoop集群上

答案:B

解析:

64.[单选题]在用户验证权限时，应当在“服务列表”中选择数据复制服务，进入DRS主界面，单击

右上角（），尝试购创建迁移任务。

A)修改迁移任务

B)创建迁移任务

C)查阅权限

D)删除迁移任务

答案:B

解析:

65.[单选题]MULTIXACT日志存储的内容针对的是记录（）。

A)xmin

B)xmax

C)data

D)cid

答案:B

解析:

66.[单选题]哪个是实时检索解决方案的数据源?（）

A)流数据

B)以上都是

C)文件数据

D)图数据

答案:B

解析:

67.[单选题]创建Loader作业时，可以在以下（）步骤中设置Map数。

A)输出

B)输入设置

C)转换

D)基本信息

答案:A

解析:

68.[单选题]下列关于 FusionInsight LibrA 数据均匀分布的存储描述错误的是:（）。

A)解析器从客户端应用获取输入的数据

B)解析器对数据解析后，将数据分发诶各个处理单元进行处理

C)各个处理单元把接受到的数据存储到各自的逻辑磁盘中

D)每一个处理单元的逻辑磁盘只能是服务器自带的物理磁盘

答案:D

解析:

69.[单选题]下列关于Flink barrieer描述错误的是：（）。

A)一个barrier将本周期快快照的数据与下一个周期快照的数据分隔开来

B)barrier是Flink快照的核心

C)在插入barrier的时候，会暂时阻断数据流

D)barrier周期性插入到数据流中，并作为数据流的一部分随之流动

答案:C

解析:

70.[单选题]FusionInsight Manager对服务的管理操作，下面说法错误的是:（）。

A)可以设置不常用的服务隐藏显示

B)可以添加和卸载服务

C)可以对服务进行启停操作

D)可以查看服务的当前状态

答案:A

解析:

71.[单选题]在有N个节点FusionInsight HD集群中部署HBase时、推荐部署（）个H Master进程

，（）个Region Server进程。

A)3、N

B)N、N

C)2、N

D)2、2

答案:C

解析:

72.[单选题]下列代码的作用是?() String graphName=“graphbase”; Graph(graph

Name) ；

A)创建图

B)获得图

C)删除图

D)修改图

答案:A

解析:

73.[单选题]哪个不是 Structured Streaming 中 OutPut 可以定义的存储方式?（）

A)Update Mode

B)JDBC Mode

C)Complete Mode

D)Append Mode

答案:B

解析:

74.[单选题]关于 Spark 中 RDD 的描述不正确的是？()

A)RDD 可以从 HDFS 输入创建，或从与 Hadoop 兼容的其他存储系统中输入创建

B)当前 RDD 默认是存储于内存，当内存不足时，RDD 也不会溢出到磁盘中。

C)Spark 的所有 Transform 操作都是基于 RDD 来实现的。

D)RDD 是只读和可区分的。要想对 RDD 进行操作，只能重新生成一个新的 RDD

答案:B

解析:RDD 具有容错机制，并且只读不能修改，可以执行确定的转换操作创建新的 RDD。具体来讲

，RDD 具有以下几个属性。

只读：不能修改，只能通过转换操作生成新的 RDD。

分布式：可以分布在多台机器上进行并行处理。

弹性：计算过程中内存不够时它会和磁盘进行数据交换。

基于内存：可以全部或部分缓存在内存中，在多次计算间重用。

75.[单选题]以下选项不属于 Flume 的特点的是?()

A)支持定制各类方数据发送

B)支持结构化、非结构化数据源

C)支持多级联操作

D)支持数据实时检索

答案:D

解析:

76.[单选题]离线批处理工具不包含以下哪项? （）

A)MapReduce

B)SQL

C)Storm

D)Spark

答案:C

解析:

77.[单选题]Flink中的（）接口属于流数据处理，（）接口用于批处理。

A)DataBatch API，DataStream API

B)Stream API，Batch API

C)DataStream API，DataSet API

D)Batch API，Stream API

答案:C

解析:

78.[单选题]大数据最显著的特征是:（）。

A)数据规模大

B)数据类型多样

C)数据处理速度快

D)数据价值密度高

答案:A

解析:

79.[单选题]硬件故障被认为是常态，为了解决这个问题，HDFS设计了副本机制，默认情况下，一份

文件，HDFS会存放（）份。

A)3

B)5

C)2

D)1

答案:A

解析:

80.[单选题]以下（）组件负责接收来自应用的访问请求，并向客户端返回执行结果。

A)GTM

B)WLM

C)CN

D)DN

答案:C

解析:

81.[单选题]以下不属于事务上层系统状态的是：（）。

A)started

B)begin

C)commit

D)inprogress

答案:C

解析:

82.[单选题]以下（）组件不是华为产品的。

A)CDM

B)DRS

C)RDS

D)SG-ETL

答案:D

解析:

83.[单选题]离线批处理常用的组件不包括哪个？（）

A)Flume

B)Hive

C)Spark

D)Storm

答案:D

解析:

84.[单选题]Fusionlnsiht HD中，Oozie客户端的JAVA API在运行任务时会调用OozieClient类的（

）方法。

A)suspend

B)getJobInfo

C)submit

D)run

答案:D

解析:

85.[单选题]以下哪个选项属于大数据消息系统?（）

A)Spark

B)Kafka

C)HBase

D)Zookeeper

答案:B

解析:

86.[单选题]Flink 不包含以下哪些数据处理场景?（）

A)高可靠性

B)图形分析

C)毫秒级低时延

D)高并发

答案:B

解析:

87.[单选题]数据中台在汇聚生产库的结构化数据时，最多的数据处理操作是：（）。

A)统计

B)删除

C)新增

D)修改

答案:C

解析:

88.[单选题]进行场景迁移的前提条件说法错误的是:（）。

A)该用户必须拥有管理员权限

B)已获取待连接数据源的用户名

C)已获取待连接数据源的密码

D)已获取待连接数据源的地址

答案:A

解析:

89.[单选题]以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是:（

）。

A)仅写入内存

B)同时写入硬盘和内存

C)先写入内存再写入硬盘

D)先写入硬盘再写入内存

答案:D

解析:

90.[单选题]下面哪个数据类型不是 Gauss DB 200 支持的数据类型()?

A)JSON 类型

B)货币类型

C)数值类型

D)XML 类型

答案:D

解析:

91.[单选题]用户 Region 和 Region Server 之间的路由信息，保存在哪个模块中?（）

A)Master

B)HDFS

C)Meta 表

D)Zookeeper

答案:C

解析:

92.[单选题]以下关于FusionInsight CTBase的描述不正确的是:（）。

A)CTBase的读写接口，统一封装了行定义的接口，自动进行冷字段的合并和解析，不需要在应用程

序中进行合并和解析

B)CTBase是基于Hbase的聚簇表开发框架

C)CTBase提供了一套WebUI进行元数据定义，提供了只管医用的表设计工具，降低表设计的难度

D)CTBase的java API提供了一套Hbase连接池管理的接口，内部连接共享，减少客户端应用开发的难

度

答案:B

解析:

93.[单选题]Spark 的中间数据放在() 中，对于迭代运算的效率更高，进行批处理时更高效.（）

A)Spark Core

B)磁盘

C)HDFS

D)内存

答案:D

解析:

94.[单选题]HDFS客户端所在节点的系统时间与Fusioninsight HD集群的系统时间要保持一致，若有

时间差, 那么时间差应小于（）分钟。

A)5

B)10

C)20

D)30

答案:A

解析:

95.[单选题]Flume 中基于 WAL(预写式日志 Write-Ahead Log) 实现 Channel 持久化的是?()

A)Memory Channel

B)Kafka Channel

C)File Channel

D)JDBC Channel

答案:C

解析:channel可以理解为一种临时的存储，source将event放入channel ,sink取走它。flume提供了

四种可以用于生产环境的channel。

1、Memory Channel

基于内存的channel，实际就是将event存放于内存中一个固定大小的队列中。其优点是速度快，缺

点是可能丢失数据。

2、JDBC Channel

将event存放于一个支持JDBC连接的数据库中，目前官方推荐的是Derby库，其优点是数据可以恢复

。

3、File Channel

在磁盘上指定一个目录用于存放event，同时也可以指定目录的大小。优点是数据可持久化，可恢复

，相对于memory channel来说缺点是要频繁的读取磁盘，速度较慢。

4、Kafka Channel

在使用flume对接Kafka时，我们往往使用TailFileSource->MemoryChannel->KafkaSink的这种方式

，然后将数据输送到Kafka集群中。

96.[多选题]下列哪些组件可以对外提供SQL接口？（）

A)HBase

B)Hive

C)SparkSQL

USB迷 | 专注于互联网分享

华为大数据练习(试卷编号141)

与本文相关的文章

评论列表 (0)