最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

华为大数据练习(试卷编号141)

IT圈 admin 49浏览 0评论

2024年3月11日发(作者:次银)

华为大数据练习(试卷编号141)

1.[单选题]以下关于DWS数据库透明加密的特点,错误的是:( )。

A)支持行存表数据加密,不支持列存表加密

B)支持集群级别配置

C)使用KMS服务加密

D)加密密钥层次结构有三层

答案:A

解析:

2.[单选题]对于 Elastic Search 描述不正确的是?()

A)对 Lucene 进行了扩展

B)不支持结构化数据存储

C)能够水平扩展

D)基于 Lucene 的全文检索服务

答案:B

解析:

3.[单选题]以下( )文件格式为纯行式存储。

A)ORC File

B)Parquet File

C)Sequence File

D)RC File

答案:C

解析:

4.[单选题]MVCC用于解决( )事务冲突。

A)读读

B)写写

C)读写

D)上述都包括

答案:C

解析:

5.[单选题]Redis 中 List 列表是什么数据结构实现的?()

A)红黑树

B)循环链表

C)平衡二叉树

D)双向链表

答案:D

解析:

6.[单选题]以下哪个选项对 Red is 数据读写流程描述是正确的?()

A)Server A 节点返回集群拓扑―一客户端选择集群任意一个 Server A 节点连接――客户端计 算

Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果

B)客户端选择集群任意一个 Server A 节点连接――Server A 节点返回集群拓扑―一客户端计 算

Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果

C)Server A 节点返回集群拓扑--客户端计算 Key 归属的槽位以及对应 Server B 节点并连 接

――客户端选择集群任意一个 Server A 节点连接--Server B 节点返回业务操作结果

D)客户端选择集群任意一个Server A节点连接――客户端计算Key 归属的槽位以及对应Server B 节

点并连接――Server A 节点返回集群拓扑――Server B 节点返回业务操作结果

答案:B

解析:

7.[单选题]CREATE TABLE AS创建表,后面需要添加查询语句类型是:( )。

A)INSERT

B)UPDATE

C)SELECT

D)DELETE

答案:C

解析:

8.[单选题]下面关于 GaussDB 200 的跨集群协同分析,说法正确的是()?

A)跨集群所指的集群是 GaussDB 集群。

B)跨集群过程中只需要输入集群 IP 地址和端口就可以访问其他集群的数据。

C)跨集群协同分析支持 SQL 算子下推。

D)跨集群协同分析时其他集群会将要查询的数据移动到目标集群,供目标集群查询。

答案:C

解析:

9.[单选题]Yam中( )角色是管理单个节点资源(CPU/Memory)的。

A)NodeManager

B)Resource Manager

C)Data Node

D)NameNode

答案:A

解析:

10.[单选题]安全Kafka集群中,关于Kafka组的说法错误的是()

A)kafka admin组拥有Topic的所有权限

B)kafka组用户被授予Topic相关权限后,只有使用新API才能访问;

C)Kafka super组用户默认具有所有的Topic的读写权限

D)kafka组用户被授予Topic相关权限后,一定可以访问

答案:D

解析:

11.[单选题]关于Kerberos的TGT以下说法错误的是:( )。

A)TGT全称为票据授权服务票据,主要由KDC服务器生成

B)TGT一次生成之后,可以无限期使用。

C)TGT在客户端的存在方式可以是在内存中存储,也可以在本地以文件的形式存储。

D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及分发给的客户端名称。

答案:B

解析:

12.[单选题]数据湖探索(Data Lake Insight,简称DLI)是支持以下( )形式的大数据计算分析

服务。

A)流式处理

B)批处理

C)流批一体

D)都不支持

答案:C

解析:

13.[单选题]在线迁移同步过程中可能因数据冲突、数据加工、异构类型转化、对象缺失等因素导致

数据异常,用户可以通过“异常数据”页签查看,以帮助异常写入的排查。下列同步过程中,支持

异常诊断的是:( )。

A)Postgres->GaussDB

B)Oracle->RDS for MySQL

C)Mysql->GaussDB(for MySQL)

D)Postgres->GaussDB

答案:B

解析:

14.[单选题]在FusionInsight产品中,关于创建Kafka的Topic,以下描述正确的是:( )。

A)在创建Kafka的Topic时,必须设置Partition

B)在创建Kafka的Topic时,必须设置Partition副本数

C)设置多副本可以增强Kafka服务的容灾能力

D)以上全部正确

答案:C

解析:

15.[单选题]Kafka 中数据从 Producer 到 Broker 和 Broker 到 Consumer 分别是哪种传递方式

()

A)push,push

B)pull,pull

C)pull,push

D)push,pull

答案:D

解析:

16.[单选题]Hive 是基于 Hadoop 的数据仓库软件,最大可以查询和管理( )级别的分布式数据。()

A)GB

B)PB

C)TB

D)MB

答案:B

解析:

17.[单选题]HBase 使用 get 方法读取数据时, 下列哪个选项是需要的?()

A) Caching(1000)

B)Delete delete=new Delete(rowKey)

C)Listputs=new ArrayList()

D)byte[] rowKey=s (” ”)

答案:D

解析:

18.[单选题]修改资源的化导入excel的操作列应该填写( )。

A)插入

B)更新

C)删除

D)追加

答案:B

解析:

19.[单选题]Loader 特点不包含?()

A)图形化

B)实时性

C)高性能

D)安全

答案:B

解析:

20.[单选题]元数据采集任务的启动方式不包括:( )。

A)循环执行

B)定时执行

C)手动执行

D)定时立即执行

答案:A

解析:

21.[单选题]以下哪项不提供交互式查询服务?()

A)Presto

B)Impala

C)Echart

D)Kylin

答案:C

解析:Presto是一个facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到

PB字节。

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和

HBase中的PB级大数据。

Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开

发者的认可。

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能

力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的

Hive表。

22.[单选题]当前传统关系型数据库主要面临的挑战是()?

A)数据量爆炸式增长,要求数据处理平台具备弹性扩展能力。

B)数据处理时效性需求提高,要求数据处理平台速度够快。

C)多类型数据融合,要求数据处理平台功能更加强大。

D)以上全都正确。

答案:D

解析:

23.[单选题]TOP N 操作最适合采用哪种 Redis 数据结构?()

A)Set

B)Hash

C)List

D)Sorted Set

答案:D

解析:

24.[单选题]ume 中的 JDBC Channel 内置数据库是哪个?()

A)MySql

B)SqlServer

C)Derby

D)Oracle

答案:C

解析:

25.[单选题]下列选项中,关于Zookeeper可靠性含义说法正确的是:( )。

A)可靠性通过主备部署模式实现

B)可靠性是指更新只能成功或者失败,没有中间状态

C)可靠性是指无论哪一个server,对外展示的均是同一个视图

D)可靠性是指一个消息被一个server接受,它将被所有的server 接受

答案:D

解析:

26.[单选题]MapReduce任务最终是在下列( )中被执行的。

A)NodeManager

B)container

C)ResourceManager

D)AppMaster

答案:B

解析:

27.[单选题]在WebHCat架构中,用户能够通过安全的HTTPS协议执行以下( )操作。

A)执行HiveDDL操作

B)运行MapReduce任务

C)运行Hive SQL任务

D)以上全部正确

答案:D

解析:

28.[单选题]以下关于Zookeeper关键特性中的原子性说法正确的是:( )。

A)客户端发送的更新会按照他们发送的顺序进行应用

B)鞥新只能全部完成或失败,不会部分完成

C)一条消息被一个server接受,将会被所有的server接受

D)集群中无论那台服务器,对外展示的均是统一视图

答案:B

解析:

29.[单选题]当 ElasticSearch 集群有节点加入或退出时,集群数据会发生什么动作?()

A)数据重载

B)数据分布

C)数据更新

D)数据重建

答案:B

解析:

30.[单选题]某工程师正在开发 Elastic Search 应用, 下面这些代码可以帮助他做什么?()

Mapparams=ton Map(“pretty”,“true”); Response

rsp=mRequest(”GET”,”/”+index+”/”+type+”/”+id,params) ;

Equals( StatusLine() .get StatusCode() ,Http _OK) ;

A)查询指定文档分片信息

B)查询指定 index、type、id 下的文档信息

C)查询指定 index、type 下的文档信息

D)维护指定文档信息

答案:B

解析:

31.[单选题]通过createTable方法来创建一张表,必须传入的参数为()?

A)表名

B)表名和列

C)表名和Family

D)可以为空

答案:C

解析:Family是必须在建表的时候就指定的,但是列可以动态添加。

32.[单选题]Gauss DB 200 支持几种数据并行导入策略?()

A)2

B)1

C)4

D)3

答案:D

解析:为了使得数据能够正确、不重复地分配给各DN,保证入库数据的唯一性, GaussDB 200对应提

供了三种策略:

1、Normal策略:

利用高斯数据服务工具GDS(Gauss Data Service)来管理用户数据,将集群之外主机上的数据 导入

到集群中。

2、Shared策略:

利用网络文件系统NFS(Network File System)服务,将存放用户数据的服务器统一挂载到各 DN所在

主机的相同路径下,将集群之外主机上的数据导入到集群中。

3、Private策略:

用户自行将数据文件上传到各DN所在主机。

33.[单选题]以下不是EXPLAIN命令选项的是:( )。

A)performance

B)pretty

C)analyze

D)verbose

答案:B

解析:

34.[单选题]以下关于Kafka消息消费者Consumer读取消息描述错误的是:( )。

A)consumer使用offset来记录读取位置

B)Kafka的一个Topic可以理解为一个队列,即一个消息

C)生产者产生的消息逐条放到Topic尾部

D)消费者从右至左读取消息

答案:D

解析:

35.[单选题]下面( )不是二进制类型。

A)BLOB

B)RAW

C)BYTEA

D)TEXT

答案:D

解析:

36.[单选题]Action 是 RDD 的算子的一个类型,不可以将结果写入()

A)磁盘

B)HDFS

C)数据库

D)CPU

答案:C

解析:Action(执行):触发Spark作业运行,真正触发转换算子的计算; Action操作会对 RDD 计

算出一个结果,并把结果返回到驱动器程序Driver中,或把结果存储到外部存储系统(如 HDFS,磁

盘,cpu等)中。

37.[单选题]以下( )能力不属于数据中台能力架构中存储计算能力。

A)分布式数据仓库

B)分布式关系数据库

C)流计算

D)任务调度

答案:D

解析:

38.[单选题]以下哪项不属于批量数据采集工具?()

A)MapReduce

B)Flume

C)Sqoop

D)其他ETL工具

答案:A

解析:

39.[单选题]Gauss DB 200 在创建表时, 需要注意以下哪些事项() ?

A)创建列存表之后,后续可以修改为行存表。

B)创建列存表时压缩级别默认为 HIGH。

C)如果指定表空间为普通表空间,创建表时默认是行式存储。

D)创建一个行存表之后,后续可以修改为列存表。

答案:C

解析:

40.[单选题]以下关于常见数据库描述正确的是?()

A)HBase:基于 ZooKeeper, Hadoop, 适合非结构化数据存储, 是高可靠性、高性能、面 向行、

可伸缩的分布式存储系统。

B)Oracle:关系型数据库, 行式存储, 支持 SQL,中量级数据分析、存储、不可分布式, 开 源

软件。

C)Redis:开源 key-value 数据库, 读写性能极高,数据类型丰富,可以与 Storm 结合进行实 时

查询分析。

D)Mysql:关系型数据库,列式存储,支持 SQL,轻量级数据分析、存储,仅有商业版本。

答案:C

解析:

41.[单选题]一般情况下,若要提高 ElasticSearch 检索效率,可以采取什么操作?()

A)使用 Hive 做底层存储

B)调整索引分片数

C)压缩索引

D)增加 EsMaster 节点

答案:B

解析:

42.[单选题]Redis 中 String 数据类型不含以下哪种操作?()

A)mget

B)size

C)strlen

D)append

答案:B

解析:

43.[单选题]关于表连接算子的说法错误的是() ?

A)聚合操作如 group by 会触发 NergeJoin.

B)表连接算子主要有 Nestloop、MergeJoin、 MinorJoin、 HashJoin.

C)算子的选择是 SQL 根据逻辑自行选择的,与人为无关。

D)默认情况下,执行效率来说 HashJoin 最高。

答案:D

解析:

44.[单选题]ElasticSearch 存放所有关键词的地方是()

A)字典

B)关键词

C)词典

D)索引

答案:C

解析:

45.[单选题]部署FusionInsight HD时,同一集群内的Flume Server节点建议至少部署( )个。

A)1

B)3

C)4

D)2

答案:D

解析:

46.[单选题]下面关于 ACID 解释错误的是:( )。

A)A-atomictty 原子性:事务的所有操作要么全部完成,要么全部不完成

B)C-consistency 一致性:事务始终保证系统处于一致性的状态,不影响一致性

C)I-Isolation 隔离性:事务执行是隔离的,3 个隔离级别

D)D-Durability 持久性:事务的结果是持久的

答案:C

解析:

47.[单选题]华为8.0数据中台架构贴源层数据存储产品是:( )。

A)MRS

B)GBase 8A

C)DWS

D)DAYU

答案:A

解析:

48.[单选题]以下两种描述分别对应:( )两种分类算法的评价标准。

A)Precision,Recall

B)Recall,Precision

C)Precision,Roc

D)Recall,Roc

答案:A

解析:

49.[单选题]Elasticsearch 中构建一个 query 需要用到下列哪个代码?()

A)Query()

B)ry()

C)ry()

D)uery()

答案:D

解析:

50.[单选题]离线批处理方案的应用场景不包括?()

A)占用计算存储资源多

B)快速高效,实时的数据处理

C)数据处理格式多样

D)处理大规模数据

答案:B

解析:

51.[单选题]下来( )Redis命令属于原子操作。

A)INCR (将储存的数字值增一)

B)HINCRBY (为哈希表key中的域field的值加上增量increment)

C)LPUSH (对链表的push操作)

D)以上都是

答案:D

解析:

52.[单选题]如果需要由数据生产者决定数据发送给目标Blot的某一个确定的Task,应该选择以下(

)消息发布策略。

A)局部字段分组

B)广播分组

C)直接分组

D)全局分组

答案:C

解析:

53.[单选题]创建一个存储过程 proc_add CREATE OR REPLACE PROCEDURE proc_add(param 1 in

INTEGER,param 2 out INTEGER,param 3 in INTEGER) AS BEGIN Param 2:=param 1+param 3;

END; ,创建一个存储过程 proc_test CREATE OR REPLACE PROCEDURE proc_test(result out

INTEGER) As DECLARE Input 1 INTEGER := 1; Input 2 INTEGER := 2; Statement VARCHAR

2(200) : Param2 INTEGER: BEGIN --声明调用语句 Statement :=’call proc_add(:co 1_1,

:co 1_2, :co 1_3)’; --执行语句 EXECUTE IMMEDIATE statement USING IN input 1, OUT

param 2, IN input 2; Result:=param 2; END; 执行语句 call proc_test(10) , 结果是() 。

A)3

B)无返回值

C)4

D)2

答案:A

解析:

54.[单选题]下列选项不支持创建采集元数据任务时添加数据分类,实现自动识别的为:( )。

A)RDS(Mysql)

B)DWS

C)DLI

D)MRS Hive

答案:A

解析:

55.[单选题]FusionInsight HD中Loader从SFTP服务器导入文件时,不需要做编码转换和数据转换且

速度最快的文件类型是:( )。

A)graph-file

B)binary-file

C)text-file

D)sequence-file

答案:B

解析:

56.[单选题]HDFS中Namenode的主备仲裁,是由:( )组件控制的。

A)HDFS Client

B)Node Manager

C)ResourceManager

D)ZooKeeper FailoverController

答案:D

解析:

57.[单选题]HDFS的副本放置策略中,同一机架不同的服务器之间的距离是:( )。

A)3

B)2

C)1

D)4

答案:B

解析:

58.[单选题]传统处理数据的数据规模的单位是:( )。

A)TB

B)EB

C)PB

D)GB

答案:D

解析:

59.[单选题]存储过程的调用有几种方式()?

A)3

B)1

C)4

D)2

答案:D

解析:

60.[单选题]在Flink框架中,下列( )是流处理和批处理的计算引擎。

A)standalone

B)Runtime

C)FlinkCore

D)DataStream

答案:B

解析:

61.[单选题]在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在shuffle操作时,会大大

增加hash分桶数,严重影响性能,FusionInsight中,针对小文件的场景通常采用( )算子来对

Table中的小文件生成的Partition进行合并,减少partition数,从而避免在shuffle的时候,生成

过多的hash分桶,提升形成。

A)group by

B)coalosce

C)connect

D)join

答案:D

解析:

62.[单选题]HDFS中的主备仲裁,是由:( )组件控制的。

A)Zookeeper Failover Controller

B)NodeManager

C)ResourceManager

D)HDFS Client

答案:A

解析:

63.[单选题]关于HIVE的描述不正确的是:( )。

A)Hive最佳使用场景是大数据集的批处理作业

B)Hive可以实现在大规模集群上实现低延迟快速查询

C)Hive构建在基于静态批量处理的Hadoop之上,Hadoop通常有较高的延迟并且在提交作业和调度的

时候需要大量的开销

D)Hive查询操作过程严格遵循Hadoop MapReduce的作用执行模型,Hive将用户的HiveSQL语句通过解

释器转换为MapReduce Hadoop集群上

答案:B

解析:

64.[单选题]在用户验证权限时,应当在“服务列表”中选择数据复制服务,进入DRS主界面,单击

右上角( ),尝试购创建迁移任务。

A)修改迁移任务

B)创建 迁移任务

C)查阅权限

D)删除迁移任务

答案:B

解析:

65.[单选题]MULTIXACT日志存储的内容针对的是记录( )。

A)xmin

B)xmax

C)data

D)cid

答案:B

解析:

66.[单选题]哪个是实时检索解决方案的数据源?()

A)流数据

B)以上都是

C)文件数据

D)图数据

答案:B

解析:

67.[单选题]创建Loader作业时,可以在以下( )步骤中设置Map数。

A)输出

B)输入设置

C)转换

D)基本信息

答案:A

解析:

68.[单选题]下列关于 FusionInsight LibrA 数据均匀分布的存储描述错误的是:( )。

A)解析器从客户端应用获取输入的数据

B)解析器对数据解析后,将数据分发诶各个处理单元进行处理

C)各个处理单元把接受到的数据存储到各自的逻辑磁盘中

D)每一个处理单元的逻辑磁盘只能是服务器自带的物理磁盘

答案:D

解析:

69.[单选题]下列关于Flink barrieer描述错误的是:( )。

A)一个barrier将本周期快快照的数据与下一个周期快照的数据分隔开来

B)barrier是Flink快照的核心

C)在插入barrier的时候,会暂时阻断数据流

D)barrier周期性插入到数据流中,并作为数据流的一部分随之流动

答案:C

解析:

70.[单选题]FusionInsight Manager对服务的管理操作,下面说法错误的是:( )。

A)可以设置不常用的服务隐藏显示

B)可以添加和卸载服务

C)可以对服务进行启停操作

D)可以查看服务的当前状态

答案:A

解析:

71.[单选题]在有N个节点FusionInsight HD集群中部署HBase时、推荐部署( )个H Master进程

,( )个Region Server进程。

A)3、N

B)N、N

C)2、N

D)2、2

答案:C

解析:

72.[单选题]下列代码的作用是?() String graphName=“graphbase”; Graph(graph

Name) ;

A)创建图

B)获得图

C)删除图

D)修改图

答案:A

解析:

73.[单选题]哪个不是 Structured Streaming 中 OutPut 可以定义的存储方式?()

A)Update Mode

B)JDBC Mode

C)Complete Mode

D)Append Mode

答案:B

解析:

74.[单选题]关于 Spark 中 RDD 的描述不正确的是?()

A)RDD 可以从 HDFS 输入创建,或从与 Hadoop 兼容的其他存储系统中输入创建

B)当前 RDD 默认是存储于内存,当内存不足时,RDD 也不会溢出到磁盘中。

C)Spark 的所有 Transform 操作都是基于 RDD 来实现的。

D)RDD 是只读和可区分的。要想对 RDD 进行操作,只能重新生成一个新的 RDD

答案:B

解析:RDD 具有容错机制,并且只读不能修改,可以执行确定的转换操作创建新的 RDD。具体来讲

,RDD 具有以下几个属性。

只读:不能修改,只能通过转换操作生成新的 RDD。

分布式:可以分布在多台机器上进行并行处理。

弹性:计算过程中内存不够时它会和磁盘进行数据交换。

基于内存:可以全部或部分缓存在内存中,在多次计算间重用。

75.[单选题]以下选项不属于 Flume 的特点的是?()

A)支持定制各类方数据发送

B)支持结构化、非结构化数据源

C)支持多级联操作

D)支持数据实时检索

答案:D

解析:

76.[单选题]离线批处理工具不包含以下哪项? ()

A)MapReduce

B)SQL

C)Storm

D)Spark

答案:C

解析:

77.[单选题]Flink中的( )接口属于流数据处理,( )接口用于批处理。

A)DataBatch API,DataStream API

B)Stream API,Batch API

C)DataStream API,DataSet API

D)Batch API,Stream API

答案:C

解析:

78.[单选题]大数据最显著的特征是:( )。

A)数据规模大

B)数据类型多样

C)数据处理速度快

D)数据价值密度高

答案:A

解析:

79.[单选题]硬件故障被认为是常态,为了解决这个问题,HDFS设计了副本机制,默认情况下,一份

文件,HDFS会存放( )份。

A)3

B)5

C)2

D)1

答案:A

解析:

80.[单选题]以下( )组件负责接收来自应用的访问请求,并向客户端返回执行结果。

A)GTM

B)WLM

C)CN

D)DN

答案:C

解析:

81.[单选题]以下不属于事务上层系统状态的是:( )。

A)started

B)begin

C)commit

D)inprogress

答案:C

解析:

82.[单选题]以下( )组件不是华为产品的。

A)CDM

B)DRS

C)RDS

D)SG-ETL

答案:D

解析:

83.[单选题]离线批处理常用的组件不包括哪个?()

A)Flume

B)Hive

C)Spark

D)Storm

答案:D

解析:

84.[单选题]Fusionlnsiht HD中,Oozie客户端的JAVA API在运行任务时会调用OozieClient类的(

)方法。

A)suspend

B)getJobInfo

C)submit

D)run

答案:D

解析:

85.[单选题]以下哪个选项属于大数据消息系统?()

A)Spark

B)Kafka

C)HBase

D)Zookeeper

答案:B

解析:

86.[单选题]Flink 不包含以下哪些数据处理场景?()

A)高可靠性

B)图形分析

C)毫秒级低时延

D)高并发

答案:B

解析:

87.[单选题]数据中台在汇聚生产库的结构化数据时,最多的数据处理操作是:( )。

A)统计

B)删除

C)新增

D)修改

答案:C

解析:

88.[单选题]进行场景迁移的前提条件说法错误的是:( )。

A)该用户必须拥有管理员权限

B)已获取待连接数据源的用户名

C)已获取待连接数据源的密码

D)已获取待连接数据源的地址

答案:A

解析:

89.[单选题]以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是:(

)。

A)仅写入内存

B)同时写入硬盘和内存

C)先写入内存再写入硬盘

D)先写入硬盘再写入内存

答案:D

解析:

90.[单选题]下面哪个数据类型不是 Gauss DB 200 支持的数据类型()?

A)JSON 类型

B)货币类型

C)数值类型

D)XML 类型

答案:D

解析:

91.[单选题]用户 Region 和 Region Server 之间的路由信息, 保存在哪个模块中?()

A)Master

B)HDFS

C)Meta 表

D)Zookeeper

答案:C

解析:

92.[单选题]以下关于FusionInsight CTBase的描述不正确的是:( )。

A)CTBase的读写接口,统一封装了行定义的接口,自动进行冷字段的合并和解析,不需要在应用程

序中进行合并和解析

B)CTBase是基于Hbase的聚簇表开发框架

C)CTBase提供了一套WebUI进行元数据定义,提供了只管医用的表设计工具,降低表设计的难度

D)CTBase的java API提供了一套Hbase连接池管理的接口,内部连接共享,减少客户端应用开发的难

答案:B

解析:

93.[单选题]Spark 的中间数据放在() 中, 对于迭代运算的效率更高,进行批处理时更高效.()

A)Spark Core

B)磁盘

C)HDFS

D)内存

答案:D

解析:

94.[单选题]HDFS客户端所在节点的系统时间与Fusioninsight HD集群的系统时间要保持一致,若有

时间差, 那么时间差应小于( )分钟。

A)5

B)10

C)20

D)30

答案:A

解析:

95.[单选题]Flume 中基于 WAL(预写式日志 Write-Ahead Log) 实现 Channel 持久化的是?()

A)Memory Channel

B)Kafka Channel

C)File Channel

D)JDBC Channel

答案:C

解析:channel可以理解为一种临时的存储,source将event放入channel ,sink取走它。flume提供了

四种可以用于生产环境的channel。

1、Memory Channel

基于内存的channel,实际就是将event存放于内存中一个固定大小的队列中。其优点是速度快,缺

点是可能丢失数据。

2、JDBC Channel

将event存放于一个支持JDBC连接的数据库中,目前官方推荐的是Derby库,其优点是数据可以恢复

3、File Channel

在磁盘上指定一个目录用于存放event,同时也可以指定目录的大小。优点是数据可持久化,可恢复

,相对于memory channel来说缺点是要频繁的读取磁盘,速度较慢。

4、Kafka Channel

在使用flume对接Kafka时,我们往往使用TailFileSource->MemoryChannel->KafkaSink的这种方式

,然后将数据输送到Kafka集群中。

96.[多选题]下列哪些组件可以对外提供SQL接口?()

A)HBase

B)Hive

C)SparkSQL

2024年3月11日发(作者:次银)

华为大数据练习(试卷编号141)

1.[单选题]以下关于DWS数据库透明加密的特点,错误的是:( )。

A)支持行存表数据加密,不支持列存表加密

B)支持集群级别配置

C)使用KMS服务加密

D)加密密钥层次结构有三层

答案:A

解析:

2.[单选题]对于 Elastic Search 描述不正确的是?()

A)对 Lucene 进行了扩展

B)不支持结构化数据存储

C)能够水平扩展

D)基于 Lucene 的全文检索服务

答案:B

解析:

3.[单选题]以下( )文件格式为纯行式存储。

A)ORC File

B)Parquet File

C)Sequence File

D)RC File

答案:C

解析:

4.[单选题]MVCC用于解决( )事务冲突。

A)读读

B)写写

C)读写

D)上述都包括

答案:C

解析:

5.[单选题]Redis 中 List 列表是什么数据结构实现的?()

A)红黑树

B)循环链表

C)平衡二叉树

D)双向链表

答案:D

解析:

6.[单选题]以下哪个选项对 Red is 数据读写流程描述是正确的?()

A)Server A 节点返回集群拓扑―一客户端选择集群任意一个 Server A 节点连接――客户端计 算

Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果

B)客户端选择集群任意一个 Server A 节点连接――Server A 节点返回集群拓扑―一客户端计 算

Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果

C)Server A 节点返回集群拓扑--客户端计算 Key 归属的槽位以及对应 Server B 节点并连 接

――客户端选择集群任意一个 Server A 节点连接--Server B 节点返回业务操作结果

D)客户端选择集群任意一个Server A节点连接――客户端计算Key 归属的槽位以及对应Server B 节

点并连接――Server A 节点返回集群拓扑――Server B 节点返回业务操作结果

答案:B

解析:

7.[单选题]CREATE TABLE AS创建表,后面需要添加查询语句类型是:( )。

A)INSERT

B)UPDATE

C)SELECT

D)DELETE

答案:C

解析:

8.[单选题]下面关于 GaussDB 200 的跨集群协同分析,说法正确的是()?

A)跨集群所指的集群是 GaussDB 集群。

B)跨集群过程中只需要输入集群 IP 地址和端口就可以访问其他集群的数据。

C)跨集群协同分析支持 SQL 算子下推。

D)跨集群协同分析时其他集群会将要查询的数据移动到目标集群,供目标集群查询。

答案:C

解析:

9.[单选题]Yam中( )角色是管理单个节点资源(CPU/Memory)的。

A)NodeManager

B)Resource Manager

C)Data Node

D)NameNode

答案:A

解析:

10.[单选题]安全Kafka集群中,关于Kafka组的说法错误的是()

A)kafka admin组拥有Topic的所有权限

B)kafka组用户被授予Topic相关权限后,只有使用新API才能访问;

C)Kafka super组用户默认具有所有的Topic的读写权限

D)kafka组用户被授予Topic相关权限后,一定可以访问

答案:D

解析:

11.[单选题]关于Kerberos的TGT以下说法错误的是:( )。

A)TGT全称为票据授权服务票据,主要由KDC服务器生成

B)TGT一次生成之后,可以无限期使用。

C)TGT在客户端的存在方式可以是在内存中存储,也可以在本地以文件的形式存储。

D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及分发给的客户端名称。

答案:B

解析:

12.[单选题]数据湖探索(Data Lake Insight,简称DLI)是支持以下( )形式的大数据计算分析

服务。

A)流式处理

B)批处理

C)流批一体

D)都不支持

答案:C

解析:

13.[单选题]在线迁移同步过程中可能因数据冲突、数据加工、异构类型转化、对象缺失等因素导致

数据异常,用户可以通过“异常数据”页签查看,以帮助异常写入的排查。下列同步过程中,支持

异常诊断的是:( )。

A)Postgres->GaussDB

B)Oracle->RDS for MySQL

C)Mysql->GaussDB(for MySQL)

D)Postgres->GaussDB

答案:B

解析:

14.[单选题]在FusionInsight产品中,关于创建Kafka的Topic,以下描述正确的是:( )。

A)在创建Kafka的Topic时,必须设置Partition

B)在创建Kafka的Topic时,必须设置Partition副本数

C)设置多副本可以增强Kafka服务的容灾能力

D)以上全部正确

答案:C

解析:

15.[单选题]Kafka 中数据从 Producer 到 Broker 和 Broker 到 Consumer 分别是哪种传递方式

()

A)push,push

B)pull,pull

C)pull,push

D)push,pull

答案:D

解析:

16.[单选题]Hive 是基于 Hadoop 的数据仓库软件,最大可以查询和管理( )级别的分布式数据。()

A)GB

B)PB

C)TB

D)MB

答案:B

解析:

17.[单选题]HBase 使用 get 方法读取数据时, 下列哪个选项是需要的?()

A) Caching(1000)

B)Delete delete=new Delete(rowKey)

C)Listputs=new ArrayList()

D)byte[] rowKey=s (” ”)

答案:D

解析:

18.[单选题]修改资源的化导入excel的操作列应该填写( )。

A)插入

B)更新

C)删除

D)追加

答案:B

解析:

19.[单选题]Loader 特点不包含?()

A)图形化

B)实时性

C)高性能

D)安全

答案:B

解析:

20.[单选题]元数据采集任务的启动方式不包括:( )。

A)循环执行

B)定时执行

C)手动执行

D)定时立即执行

答案:A

解析:

21.[单选题]以下哪项不提供交互式查询服务?()

A)Presto

B)Impala

C)Echart

D)Kylin

答案:C

解析:Presto是一个facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到

PB字节。

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和

HBase中的PB级大数据。

Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开

发者的认可。

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能

力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的

Hive表。

22.[单选题]当前传统关系型数据库主要面临的挑战是()?

A)数据量爆炸式增长,要求数据处理平台具备弹性扩展能力。

B)数据处理时效性需求提高,要求数据处理平台速度够快。

C)多类型数据融合,要求数据处理平台功能更加强大。

D)以上全都正确。

答案:D

解析:

23.[单选题]TOP N 操作最适合采用哪种 Redis 数据结构?()

A)Set

B)Hash

C)List

D)Sorted Set

答案:D

解析:

24.[单选题]ume 中的 JDBC Channel 内置数据库是哪个?()

A)MySql

B)SqlServer

C)Derby

D)Oracle

答案:C

解析:

25.[单选题]下列选项中,关于Zookeeper可靠性含义说法正确的是:( )。

A)可靠性通过主备部署模式实现

B)可靠性是指更新只能成功或者失败,没有中间状态

C)可靠性是指无论哪一个server,对外展示的均是同一个视图

D)可靠性是指一个消息被一个server接受,它将被所有的server 接受

答案:D

解析:

26.[单选题]MapReduce任务最终是在下列( )中被执行的。

A)NodeManager

B)container

C)ResourceManager

D)AppMaster

答案:B

解析:

27.[单选题]在WebHCat架构中,用户能够通过安全的HTTPS协议执行以下( )操作。

A)执行HiveDDL操作

B)运行MapReduce任务

C)运行Hive SQL任务

D)以上全部正确

答案:D

解析:

28.[单选题]以下关于Zookeeper关键特性中的原子性说法正确的是:( )。

A)客户端发送的更新会按照他们发送的顺序进行应用

B)鞥新只能全部完成或失败,不会部分完成

C)一条消息被一个server接受,将会被所有的server接受

D)集群中无论那台服务器,对外展示的均是统一视图

答案:B

解析:

29.[单选题]当 ElasticSearch 集群有节点加入或退出时,集群数据会发生什么动作?()

A)数据重载

B)数据分布

C)数据更新

D)数据重建

答案:B

解析:

30.[单选题]某工程师正在开发 Elastic Search 应用, 下面这些代码可以帮助他做什么?()

Mapparams=ton Map(“pretty”,“true”); Response

rsp=mRequest(”GET”,”/”+index+”/”+type+”/”+id,params) ;

Equals( StatusLine() .get StatusCode() ,Http _OK) ;

A)查询指定文档分片信息

B)查询指定 index、type、id 下的文档信息

C)查询指定 index、type 下的文档信息

D)维护指定文档信息

答案:B

解析:

31.[单选题]通过createTable方法来创建一张表,必须传入的参数为()?

A)表名

B)表名和列

C)表名和Family

D)可以为空

答案:C

解析:Family是必须在建表的时候就指定的,但是列可以动态添加。

32.[单选题]Gauss DB 200 支持几种数据并行导入策略?()

A)2

B)1

C)4

D)3

答案:D

解析:为了使得数据能够正确、不重复地分配给各DN,保证入库数据的唯一性, GaussDB 200对应提

供了三种策略:

1、Normal策略:

利用高斯数据服务工具GDS(Gauss Data Service)来管理用户数据,将集群之外主机上的数据 导入

到集群中。

2、Shared策略:

利用网络文件系统NFS(Network File System)服务,将存放用户数据的服务器统一挂载到各 DN所在

主机的相同路径下,将集群之外主机上的数据导入到集群中。

3、Private策略:

用户自行将数据文件上传到各DN所在主机。

33.[单选题]以下不是EXPLAIN命令选项的是:( )。

A)performance

B)pretty

C)analyze

D)verbose

答案:B

解析:

34.[单选题]以下关于Kafka消息消费者Consumer读取消息描述错误的是:( )。

A)consumer使用offset来记录读取位置

B)Kafka的一个Topic可以理解为一个队列,即一个消息

C)生产者产生的消息逐条放到Topic尾部

D)消费者从右至左读取消息

答案:D

解析:

35.[单选题]下面( )不是二进制类型。

A)BLOB

B)RAW

C)BYTEA

D)TEXT

答案:D

解析:

36.[单选题]Action 是 RDD 的算子的一个类型,不可以将结果写入()

A)磁盘

B)HDFS

C)数据库

D)CPU

答案:C

解析:Action(执行):触发Spark作业运行,真正触发转换算子的计算; Action操作会对 RDD 计

算出一个结果,并把结果返回到驱动器程序Driver中,或把结果存储到外部存储系统(如 HDFS,磁

盘,cpu等)中。

37.[单选题]以下( )能力不属于数据中台能力架构中存储计算能力。

A)分布式数据仓库

B)分布式关系数据库

C)流计算

D)任务调度

答案:D

解析:

38.[单选题]以下哪项不属于批量数据采集工具?()

A)MapReduce

B)Flume

C)Sqoop

D)其他ETL工具

答案:A

解析:

39.[单选题]Gauss DB 200 在创建表时, 需要注意以下哪些事项() ?

A)创建列存表之后,后续可以修改为行存表。

B)创建列存表时压缩级别默认为 HIGH。

C)如果指定表空间为普通表空间,创建表时默认是行式存储。

D)创建一个行存表之后,后续可以修改为列存表。

答案:C

解析:

40.[单选题]以下关于常见数据库描述正确的是?()

A)HBase:基于 ZooKeeper, Hadoop, 适合非结构化数据存储, 是高可靠性、高性能、面 向行、

可伸缩的分布式存储系统。

B)Oracle:关系型数据库, 行式存储, 支持 SQL,中量级数据分析、存储、不可分布式, 开 源

软件。

C)Redis:开源 key-value 数据库, 读写性能极高,数据类型丰富,可以与 Storm 结合进行实 时

查询分析。

D)Mysql:关系型数据库,列式存储,支持 SQL,轻量级数据分析、存储,仅有商业版本。

答案:C

解析:

41.[单选题]一般情况下,若要提高 ElasticSearch 检索效率,可以采取什么操作?()

A)使用 Hive 做底层存储

B)调整索引分片数

C)压缩索引

D)增加 EsMaster 节点

答案:B

解析:

42.[单选题]Redis 中 String 数据类型不含以下哪种操作?()

A)mget

B)size

C)strlen

D)append

答案:B

解析:

43.[单选题]关于表连接算子的说法错误的是() ?

A)聚合操作如 group by 会触发 NergeJoin.

B)表连接算子主要有 Nestloop、MergeJoin、 MinorJoin、 HashJoin.

C)算子的选择是 SQL 根据逻辑自行选择的,与人为无关。

D)默认情况下,执行效率来说 HashJoin 最高。

答案:D

解析:

44.[单选题]ElasticSearch 存放所有关键词的地方是()

A)字典

B)关键词

C)词典

D)索引

答案:C

解析:

45.[单选题]部署FusionInsight HD时,同一集群内的Flume Server节点建议至少部署( )个。

A)1

B)3

C)4

D)2

答案:D

解析:

46.[单选题]下面关于 ACID 解释错误的是:( )。

A)A-atomictty 原子性:事务的所有操作要么全部完成,要么全部不完成

B)C-consistency 一致性:事务始终保证系统处于一致性的状态,不影响一致性

C)I-Isolation 隔离性:事务执行是隔离的,3 个隔离级别

D)D-Durability 持久性:事务的结果是持久的

答案:C

解析:

47.[单选题]华为8.0数据中台架构贴源层数据存储产品是:( )。

A)MRS

B)GBase 8A

C)DWS

D)DAYU

答案:A

解析:

48.[单选题]以下两种描述分别对应:( )两种分类算法的评价标准。

A)Precision,Recall

B)Recall,Precision

C)Precision,Roc

D)Recall,Roc

答案:A

解析:

49.[单选题]Elasticsearch 中构建一个 query 需要用到下列哪个代码?()

A)Query()

B)ry()

C)ry()

D)uery()

答案:D

解析:

50.[单选题]离线批处理方案的应用场景不包括?()

A)占用计算存储资源多

B)快速高效,实时的数据处理

C)数据处理格式多样

D)处理大规模数据

答案:B

解析:

51.[单选题]下来( )Redis命令属于原子操作。

A)INCR (将储存的数字值增一)

B)HINCRBY (为哈希表key中的域field的值加上增量increment)

C)LPUSH (对链表的push操作)

D)以上都是

答案:D

解析:

52.[单选题]如果需要由数据生产者决定数据发送给目标Blot的某一个确定的Task,应该选择以下(

)消息发布策略。

A)局部字段分组

B)广播分组

C)直接分组

D)全局分组

答案:C

解析:

53.[单选题]创建一个存储过程 proc_add CREATE OR REPLACE PROCEDURE proc_add(param 1 in

INTEGER,param 2 out INTEGER,param 3 in INTEGER) AS BEGIN Param 2:=param 1+param 3;

END; ,创建一个存储过程 proc_test CREATE OR REPLACE PROCEDURE proc_test(result out

INTEGER) As DECLARE Input 1 INTEGER := 1; Input 2 INTEGER := 2; Statement VARCHAR

2(200) : Param2 INTEGER: BEGIN --声明调用语句 Statement :=’call proc_add(:co 1_1,

:co 1_2, :co 1_3)’; --执行语句 EXECUTE IMMEDIATE statement USING IN input 1, OUT

param 2, IN input 2; Result:=param 2; END; 执行语句 call proc_test(10) , 结果是() 。

A)3

B)无返回值

C)4

D)2

答案:A

解析:

54.[单选题]下列选项不支持创建采集元数据任务时添加数据分类,实现自动识别的为:( )。

A)RDS(Mysql)

B)DWS

C)DLI

D)MRS Hive

答案:A

解析:

55.[单选题]FusionInsight HD中Loader从SFTP服务器导入文件时,不需要做编码转换和数据转换且

速度最快的文件类型是:( )。

A)graph-file

B)binary-file

C)text-file

D)sequence-file

答案:B

解析:

56.[单选题]HDFS中Namenode的主备仲裁,是由:( )组件控制的。

A)HDFS Client

B)Node Manager

C)ResourceManager

D)ZooKeeper FailoverController

答案:D

解析:

57.[单选题]HDFS的副本放置策略中,同一机架不同的服务器之间的距离是:( )。

A)3

B)2

C)1

D)4

答案:B

解析:

58.[单选题]传统处理数据的数据规模的单位是:( )。

A)TB

B)EB

C)PB

D)GB

答案:D

解析:

59.[单选题]存储过程的调用有几种方式()?

A)3

B)1

C)4

D)2

答案:D

解析:

60.[单选题]在Flink框架中,下列( )是流处理和批处理的计算引擎。

A)standalone

B)Runtime

C)FlinkCore

D)DataStream

答案:B

解析:

61.[单选题]在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在shuffle操作时,会大大

增加hash分桶数,严重影响性能,FusionInsight中,针对小文件的场景通常采用( )算子来对

Table中的小文件生成的Partition进行合并,减少partition数,从而避免在shuffle的时候,生成

过多的hash分桶,提升形成。

A)group by

B)coalosce

C)connect

D)join

答案:D

解析:

62.[单选题]HDFS中的主备仲裁,是由:( )组件控制的。

A)Zookeeper Failover Controller

B)NodeManager

C)ResourceManager

D)HDFS Client

答案:A

解析:

63.[单选题]关于HIVE的描述不正确的是:( )。

A)Hive最佳使用场景是大数据集的批处理作业

B)Hive可以实现在大规模集群上实现低延迟快速查询

C)Hive构建在基于静态批量处理的Hadoop之上,Hadoop通常有较高的延迟并且在提交作业和调度的

时候需要大量的开销

D)Hive查询操作过程严格遵循Hadoop MapReduce的作用执行模型,Hive将用户的HiveSQL语句通过解

释器转换为MapReduce Hadoop集群上

答案:B

解析:

64.[单选题]在用户验证权限时,应当在“服务列表”中选择数据复制服务,进入DRS主界面,单击

右上角( ),尝试购创建迁移任务。

A)修改迁移任务

B)创建 迁移任务

C)查阅权限

D)删除迁移任务

答案:B

解析:

65.[单选题]MULTIXACT日志存储的内容针对的是记录( )。

A)xmin

B)xmax

C)data

D)cid

答案:B

解析:

66.[单选题]哪个是实时检索解决方案的数据源?()

A)流数据

B)以上都是

C)文件数据

D)图数据

答案:B

解析:

67.[单选题]创建Loader作业时,可以在以下( )步骤中设置Map数。

A)输出

B)输入设置

C)转换

D)基本信息

答案:A

解析:

68.[单选题]下列关于 FusionInsight LibrA 数据均匀分布的存储描述错误的是:( )。

A)解析器从客户端应用获取输入的数据

B)解析器对数据解析后,将数据分发诶各个处理单元进行处理

C)各个处理单元把接受到的数据存储到各自的逻辑磁盘中

D)每一个处理单元的逻辑磁盘只能是服务器自带的物理磁盘

答案:D

解析:

69.[单选题]下列关于Flink barrieer描述错误的是:( )。

A)一个barrier将本周期快快照的数据与下一个周期快照的数据分隔开来

B)barrier是Flink快照的核心

C)在插入barrier的时候,会暂时阻断数据流

D)barrier周期性插入到数据流中,并作为数据流的一部分随之流动

答案:C

解析:

70.[单选题]FusionInsight Manager对服务的管理操作,下面说法错误的是:( )。

A)可以设置不常用的服务隐藏显示

B)可以添加和卸载服务

C)可以对服务进行启停操作

D)可以查看服务的当前状态

答案:A

解析:

71.[单选题]在有N个节点FusionInsight HD集群中部署HBase时、推荐部署( )个H Master进程

,( )个Region Server进程。

A)3、N

B)N、N

C)2、N

D)2、2

答案:C

解析:

72.[单选题]下列代码的作用是?() String graphName=“graphbase”; Graph(graph

Name) ;

A)创建图

B)获得图

C)删除图

D)修改图

答案:A

解析:

73.[单选题]哪个不是 Structured Streaming 中 OutPut 可以定义的存储方式?()

A)Update Mode

B)JDBC Mode

C)Complete Mode

D)Append Mode

答案:B

解析:

74.[单选题]关于 Spark 中 RDD 的描述不正确的是?()

A)RDD 可以从 HDFS 输入创建,或从与 Hadoop 兼容的其他存储系统中输入创建

B)当前 RDD 默认是存储于内存,当内存不足时,RDD 也不会溢出到磁盘中。

C)Spark 的所有 Transform 操作都是基于 RDD 来实现的。

D)RDD 是只读和可区分的。要想对 RDD 进行操作,只能重新生成一个新的 RDD

答案:B

解析:RDD 具有容错机制,并且只读不能修改,可以执行确定的转换操作创建新的 RDD。具体来讲

,RDD 具有以下几个属性。

只读:不能修改,只能通过转换操作生成新的 RDD。

分布式:可以分布在多台机器上进行并行处理。

弹性:计算过程中内存不够时它会和磁盘进行数据交换。

基于内存:可以全部或部分缓存在内存中,在多次计算间重用。

75.[单选题]以下选项不属于 Flume 的特点的是?()

A)支持定制各类方数据发送

B)支持结构化、非结构化数据源

C)支持多级联操作

D)支持数据实时检索

答案:D

解析:

76.[单选题]离线批处理工具不包含以下哪项? ()

A)MapReduce

B)SQL

C)Storm

D)Spark

答案:C

解析:

77.[单选题]Flink中的( )接口属于流数据处理,( )接口用于批处理。

A)DataBatch API,DataStream API

B)Stream API,Batch API

C)DataStream API,DataSet API

D)Batch API,Stream API

答案:C

解析:

78.[单选题]大数据最显著的特征是:( )。

A)数据规模大

B)数据类型多样

C)数据处理速度快

D)数据价值密度高

答案:A

解析:

79.[单选题]硬件故障被认为是常态,为了解决这个问题,HDFS设计了副本机制,默认情况下,一份

文件,HDFS会存放( )份。

A)3

B)5

C)2

D)1

答案:A

解析:

80.[单选题]以下( )组件负责接收来自应用的访问请求,并向客户端返回执行结果。

A)GTM

B)WLM

C)CN

D)DN

答案:C

解析:

81.[单选题]以下不属于事务上层系统状态的是:( )。

A)started

B)begin

C)commit

D)inprogress

答案:C

解析:

82.[单选题]以下( )组件不是华为产品的。

A)CDM

B)DRS

C)RDS

D)SG-ETL

答案:D

解析:

83.[单选题]离线批处理常用的组件不包括哪个?()

A)Flume

B)Hive

C)Spark

D)Storm

答案:D

解析:

84.[单选题]Fusionlnsiht HD中,Oozie客户端的JAVA API在运行任务时会调用OozieClient类的(

)方法。

A)suspend

B)getJobInfo

C)submit

D)run

答案:D

解析:

85.[单选题]以下哪个选项属于大数据消息系统?()

A)Spark

B)Kafka

C)HBase

D)Zookeeper

答案:B

解析:

86.[单选题]Flink 不包含以下哪些数据处理场景?()

A)高可靠性

B)图形分析

C)毫秒级低时延

D)高并发

答案:B

解析:

87.[单选题]数据中台在汇聚生产库的结构化数据时,最多的数据处理操作是:( )。

A)统计

B)删除

C)新增

D)修改

答案:C

解析:

88.[单选题]进行场景迁移的前提条件说法错误的是:( )。

A)该用户必须拥有管理员权限

B)已获取待连接数据源的用户名

C)已获取待连接数据源的密码

D)已获取待连接数据源的地址

答案:A

解析:

89.[单选题]以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是:(

)。

A)仅写入内存

B)同时写入硬盘和内存

C)先写入内存再写入硬盘

D)先写入硬盘再写入内存

答案:D

解析:

90.[单选题]下面哪个数据类型不是 Gauss DB 200 支持的数据类型()?

A)JSON 类型

B)货币类型

C)数值类型

D)XML 类型

答案:D

解析:

91.[单选题]用户 Region 和 Region Server 之间的路由信息, 保存在哪个模块中?()

A)Master

B)HDFS

C)Meta 表

D)Zookeeper

答案:C

解析:

92.[单选题]以下关于FusionInsight CTBase的描述不正确的是:( )。

A)CTBase的读写接口,统一封装了行定义的接口,自动进行冷字段的合并和解析,不需要在应用程

序中进行合并和解析

B)CTBase是基于Hbase的聚簇表开发框架

C)CTBase提供了一套WebUI进行元数据定义,提供了只管医用的表设计工具,降低表设计的难度

D)CTBase的java API提供了一套Hbase连接池管理的接口,内部连接共享,减少客户端应用开发的难

答案:B

解析:

93.[单选题]Spark 的中间数据放在() 中, 对于迭代运算的效率更高,进行批处理时更高效.()

A)Spark Core

B)磁盘

C)HDFS

D)内存

答案:D

解析:

94.[单选题]HDFS客户端所在节点的系统时间与Fusioninsight HD集群的系统时间要保持一致,若有

时间差, 那么时间差应小于( )分钟。

A)5

B)10

C)20

D)30

答案:A

解析:

95.[单选题]Flume 中基于 WAL(预写式日志 Write-Ahead Log) 实现 Channel 持久化的是?()

A)Memory Channel

B)Kafka Channel

C)File Channel

D)JDBC Channel

答案:C

解析:channel可以理解为一种临时的存储,source将event放入channel ,sink取走它。flume提供了

四种可以用于生产环境的channel。

1、Memory Channel

基于内存的channel,实际就是将event存放于内存中一个固定大小的队列中。其优点是速度快,缺

点是可能丢失数据。

2、JDBC Channel

将event存放于一个支持JDBC连接的数据库中,目前官方推荐的是Derby库,其优点是数据可以恢复

3、File Channel

在磁盘上指定一个目录用于存放event,同时也可以指定目录的大小。优点是数据可持久化,可恢复

,相对于memory channel来说缺点是要频繁的读取磁盘,速度较慢。

4、Kafka Channel

在使用flume对接Kafka时,我们往往使用TailFileSource->MemoryChannel->KafkaSink的这种方式

,然后将数据输送到Kafka集群中。

96.[多选题]下列哪些组件可以对外提供SQL接口?()

A)HBase

B)Hive

C)SparkSQL

发布评论

评论列表 (0)

  1. 暂无评论