2024年3月11日发(作者:次银)
华为大数据练习(试卷编号141)
1.[单选题]以下关于DWS数据库透明加密的特点,错误的是:( )。
A)支持行存表数据加密,不支持列存表加密
B)支持集群级别配置
C)使用KMS服务加密
D)加密密钥层次结构有三层
答案:A
解析:
2.[单选题]对于 Elastic Search 描述不正确的是?()
A)对 Lucene 进行了扩展
B)不支持结构化数据存储
C)能够水平扩展
D)基于 Lucene 的全文检索服务
答案:B
解析:
3.[单选题]以下( )文件格式为纯行式存储。
A)ORC File
B)Parquet File
C)Sequence File
D)RC File
答案:C
解析:
4.[单选题]MVCC用于解决( )事务冲突。
A)读读
B)写写
C)读写
D)上述都包括
答案:C
解析:
5.[单选题]Redis 中 List 列表是什么数据结构实现的?()
A)红黑树
B)循环链表
C)平衡二叉树
D)双向链表
答案:D
解析:
6.[单选题]以下哪个选项对 Red is 数据读写流程描述是正确的?()
A)Server A 节点返回集群拓扑―一客户端选择集群任意一个 Server A 节点连接――客户端计 算
Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果
B)客户端选择集群任意一个 Server A 节点连接――Server A 节点返回集群拓扑―一客户端计 算
Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果
C)Server A 节点返回集群拓扑--客户端计算 Key 归属的槽位以及对应 Server B 节点并连 接
――客户端选择集群任意一个 Server A 节点连接--Server B 节点返回业务操作结果
D)客户端选择集群任意一个Server A节点连接――客户端计算Key 归属的槽位以及对应Server B 节
点并连接――Server A 节点返回集群拓扑――Server B 节点返回业务操作结果
答案:B
解析:
7.[单选题]CREATE TABLE AS创建表,后面需要添加查询语句类型是:( )。
A)INSERT
B)UPDATE
C)SELECT
D)DELETE
答案:C
解析:
8.[单选题]下面关于 GaussDB 200 的跨集群协同分析,说法正确的是()?
A)跨集群所指的集群是 GaussDB 集群。
B)跨集群过程中只需要输入集群 IP 地址和端口就可以访问其他集群的数据。
C)跨集群协同分析支持 SQL 算子下推。
D)跨集群协同分析时其他集群会将要查询的数据移动到目标集群,供目标集群查询。
答案:C
解析:
9.[单选题]Yam中( )角色是管理单个节点资源(CPU/Memory)的。
A)NodeManager
B)Resource Manager
C)Data Node
D)NameNode
答案:A
解析:
10.[单选题]安全Kafka集群中,关于Kafka组的说法错误的是()
A)kafka admin组拥有Topic的所有权限
B)kafka组用户被授予Topic相关权限后,只有使用新API才能访问;
C)Kafka super组用户默认具有所有的Topic的读写权限
D)kafka组用户被授予Topic相关权限后,一定可以访问
答案:D
解析:
11.[单选题]关于Kerberos的TGT以下说法错误的是:( )。
A)TGT全称为票据授权服务票据,主要由KDC服务器生成
B)TGT一次生成之后,可以无限期使用。
C)TGT在客户端的存在方式可以是在内存中存储,也可以在本地以文件的形式存储。
D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及分发给的客户端名称。
答案:B
解析:
12.[单选题]数据湖探索(Data Lake Insight,简称DLI)是支持以下( )形式的大数据计算分析
服务。
A)流式处理
B)批处理
C)流批一体
D)都不支持
答案:C
解析:
13.[单选题]在线迁移同步过程中可能因数据冲突、数据加工、异构类型转化、对象缺失等因素导致
数据异常,用户可以通过“异常数据”页签查看,以帮助异常写入的排查。下列同步过程中,支持
异常诊断的是:( )。
A)Postgres->GaussDB
B)Oracle->RDS for MySQL
C)Mysql->GaussDB(for MySQL)
D)Postgres->GaussDB
答案:B
解析:
14.[单选题]在FusionInsight产品中,关于创建Kafka的Topic,以下描述正确的是:( )。
A)在创建Kafka的Topic时,必须设置Partition
B)在创建Kafka的Topic时,必须设置Partition副本数
C)设置多副本可以增强Kafka服务的容灾能力
D)以上全部正确
答案:C
解析:
15.[单选题]Kafka 中数据从 Producer 到 Broker 和 Broker 到 Consumer 分别是哪种传递方式
()
A)push,push
B)pull,pull
C)pull,push
D)push,pull
答案:D
解析:
16.[单选题]Hive 是基于 Hadoop 的数据仓库软件,最大可以查询和管理( )级别的分布式数据。()
A)GB
B)PB
C)TB
D)MB
答案:B
解析:
17.[单选题]HBase 使用 get 方法读取数据时, 下列哪个选项是需要的?()
A) Caching(1000)
B)Delete delete=new Delete(rowKey)
C)List
D)byte[] rowKey=s (” ”)
答案:D
解析:
18.[单选题]修改资源的化导入excel的操作列应该填写( )。
A)插入
B)更新
C)删除
D)追加
答案:B
解析:
19.[单选题]Loader 特点不包含?()
A)图形化
B)实时性
C)高性能
D)安全
答案:B
解析:
20.[单选题]元数据采集任务的启动方式不包括:( )。
A)循环执行
B)定时执行
C)手动执行
D)定时立即执行
答案:A
解析:
21.[单选题]以下哪项不提供交互式查询服务?()
A)Presto
B)Impala
C)Echart
D)Kylin
答案:C
解析:Presto是一个facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到
PB字节。
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和
HBase中的PB级大数据。
Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开
发者的认可。
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能
力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的
Hive表。
22.[单选题]当前传统关系型数据库主要面临的挑战是()?
A)数据量爆炸式增长,要求数据处理平台具备弹性扩展能力。
B)数据处理时效性需求提高,要求数据处理平台速度够快。
C)多类型数据融合,要求数据处理平台功能更加强大。
D)以上全都正确。
答案:D
解析:
23.[单选题]TOP N 操作最适合采用哪种 Redis 数据结构?()
A)Set
B)Hash
C)List
D)Sorted Set
答案:D
解析:
24.[单选题]ume 中的 JDBC Channel 内置数据库是哪个?()
A)MySql
B)SqlServer
C)Derby
D)Oracle
答案:C
解析:
25.[单选题]下列选项中,关于Zookeeper可靠性含义说法正确的是:( )。
A)可靠性通过主备部署模式实现
B)可靠性是指更新只能成功或者失败,没有中间状态
C)可靠性是指无论哪一个server,对外展示的均是同一个视图
D)可靠性是指一个消息被一个server接受,它将被所有的server 接受
答案:D
解析:
26.[单选题]MapReduce任务最终是在下列( )中被执行的。
A)NodeManager
B)container
C)ResourceManager
D)AppMaster
答案:B
解析:
27.[单选题]在WebHCat架构中,用户能够通过安全的HTTPS协议执行以下( )操作。
A)执行HiveDDL操作
B)运行MapReduce任务
C)运行Hive SQL任务
D)以上全部正确
答案:D
解析:
28.[单选题]以下关于Zookeeper关键特性中的原子性说法正确的是:( )。
A)客户端发送的更新会按照他们发送的顺序进行应用
B)鞥新只能全部完成或失败,不会部分完成
C)一条消息被一个server接受,将会被所有的server接受
D)集群中无论那台服务器,对外展示的均是统一视图
答案:B
解析:
29.[单选题]当 ElasticSearch 集群有节点加入或退出时,集群数据会发生什么动作?()
A)数据重载
B)数据分布
C)数据更新
D)数据重建
答案:B
解析:
30.[单选题]某工程师正在开发 Elastic Search 应用, 下面这些代码可以帮助他做什么?()
Map
rsp=mRequest(”GET”,”/”+index+”/”+type+”/”+id,params) ;
Equals( StatusLine() .get StatusCode() ,Http _OK) ;
A)查询指定文档分片信息
B)查询指定 index、type、id 下的文档信息
C)查询指定 index、type 下的文档信息
D)维护指定文档信息
答案:B
解析:
31.[单选题]通过createTable方法来创建一张表,必须传入的参数为()?
A)表名
B)表名和列
C)表名和Family
D)可以为空
答案:C
解析:Family是必须在建表的时候就指定的,但是列可以动态添加。
32.[单选题]Gauss DB 200 支持几种数据并行导入策略?()
A)2
B)1
C)4
D)3
答案:D
解析:为了使得数据能够正确、不重复地分配给各DN,保证入库数据的唯一性, GaussDB 200对应提
供了三种策略:
1、Normal策略:
利用高斯数据服务工具GDS(Gauss Data Service)来管理用户数据,将集群之外主机上的数据 导入
到集群中。
2、Shared策略:
利用网络文件系统NFS(Network File System)服务,将存放用户数据的服务器统一挂载到各 DN所在
主机的相同路径下,将集群之外主机上的数据导入到集群中。
3、Private策略:
用户自行将数据文件上传到各DN所在主机。
33.[单选题]以下不是EXPLAIN命令选项的是:( )。
A)performance
B)pretty
C)analyze
D)verbose
答案:B
解析:
34.[单选题]以下关于Kafka消息消费者Consumer读取消息描述错误的是:( )。
A)consumer使用offset来记录读取位置
B)Kafka的一个Topic可以理解为一个队列,即一个消息
C)生产者产生的消息逐条放到Topic尾部
D)消费者从右至左读取消息
答案:D
解析:
35.[单选题]下面( )不是二进制类型。
A)BLOB
B)RAW
C)BYTEA
D)TEXT
答案:D
解析:
36.[单选题]Action 是 RDD 的算子的一个类型,不可以将结果写入()
A)磁盘
B)HDFS
C)数据库
D)CPU
答案:C
解析:Action(执行):触发Spark作业运行,真正触发转换算子的计算; Action操作会对 RDD 计
算出一个结果,并把结果返回到驱动器程序Driver中,或把结果存储到外部存储系统(如 HDFS,磁
盘,cpu等)中。
37.[单选题]以下( )能力不属于数据中台能力架构中存储计算能力。
A)分布式数据仓库
B)分布式关系数据库
C)流计算
D)任务调度
答案:D
解析:
38.[单选题]以下哪项不属于批量数据采集工具?()
A)MapReduce
B)Flume
C)Sqoop
D)其他ETL工具
答案:A
解析:
39.[单选题]Gauss DB 200 在创建表时, 需要注意以下哪些事项() ?
A)创建列存表之后,后续可以修改为行存表。
B)创建列存表时压缩级别默认为 HIGH。
C)如果指定表空间为普通表空间,创建表时默认是行式存储。
D)创建一个行存表之后,后续可以修改为列存表。
答案:C
解析:
40.[单选题]以下关于常见数据库描述正确的是?()
A)HBase:基于 ZooKeeper, Hadoop, 适合非结构化数据存储, 是高可靠性、高性能、面 向行、
可伸缩的分布式存储系统。
B)Oracle:关系型数据库, 行式存储, 支持 SQL,中量级数据分析、存储、不可分布式, 开 源
软件。
C)Redis:开源 key-value 数据库, 读写性能极高,数据类型丰富,可以与 Storm 结合进行实 时
查询分析。
D)Mysql:关系型数据库,列式存储,支持 SQL,轻量级数据分析、存储,仅有商业版本。
答案:C
解析:
41.[单选题]一般情况下,若要提高 ElasticSearch 检索效率,可以采取什么操作?()
A)使用 Hive 做底层存储
B)调整索引分片数
C)压缩索引
D)增加 EsMaster 节点
答案:B
解析:
42.[单选题]Redis 中 String 数据类型不含以下哪种操作?()
A)mget
B)size
C)strlen
D)append
答案:B
解析:
43.[单选题]关于表连接算子的说法错误的是() ?
A)聚合操作如 group by 会触发 NergeJoin.
B)表连接算子主要有 Nestloop、MergeJoin、 MinorJoin、 HashJoin.
C)算子的选择是 SQL 根据逻辑自行选择的,与人为无关。
D)默认情况下,执行效率来说 HashJoin 最高。
答案:D
解析:
44.[单选题]ElasticSearch 存放所有关键词的地方是()
A)字典
B)关键词
C)词典
D)索引
答案:C
解析:
45.[单选题]部署FusionInsight HD时,同一集群内的Flume Server节点建议至少部署( )个。
A)1
B)3
C)4
D)2
答案:D
解析:
46.[单选题]下面关于 ACID 解释错误的是:( )。
A)A-atomictty 原子性:事务的所有操作要么全部完成,要么全部不完成
B)C-consistency 一致性:事务始终保证系统处于一致性的状态,不影响一致性
C)I-Isolation 隔离性:事务执行是隔离的,3 个隔离级别
D)D-Durability 持久性:事务的结果是持久的
答案:C
解析:
47.[单选题]华为8.0数据中台架构贴源层数据存储产品是:( )。
A)MRS
B)GBase 8A
C)DWS
D)DAYU
答案:A
解析:
48.[单选题]以下两种描述分别对应:( )两种分类算法的评价标准。
A)Precision,Recall
B)Recall,Precision
C)Precision,Roc
D)Recall,Roc
答案:A
解析:
49.[单选题]Elasticsearch 中构建一个 query 需要用到下列哪个代码?()
A)Query()
B)ry()
C)ry()
D)uery()
答案:D
解析:
50.[单选题]离线批处理方案的应用场景不包括?()
A)占用计算存储资源多
B)快速高效,实时的数据处理
C)数据处理格式多样
D)处理大规模数据
答案:B
解析:
51.[单选题]下来( )Redis命令属于原子操作。
A)INCR (将储存的数字值增一)
B)HINCRBY (为哈希表key中的域field的值加上增量increment)
C)LPUSH (对链表的push操作)
D)以上都是
答案:D
解析:
52.[单选题]如果需要由数据生产者决定数据发送给目标Blot的某一个确定的Task,应该选择以下(
)消息发布策略。
A)局部字段分组
B)广播分组
C)直接分组
D)全局分组
答案:C
解析:
53.[单选题]创建一个存储过程 proc_add CREATE OR REPLACE PROCEDURE proc_add(param 1 in
INTEGER,param 2 out INTEGER,param 3 in INTEGER) AS BEGIN Param 2:=param 1+param 3;
END; ,创建一个存储过程 proc_test CREATE OR REPLACE PROCEDURE proc_test(result out
INTEGER) As DECLARE Input 1 INTEGER := 1; Input 2 INTEGER := 2; Statement VARCHAR
2(200) : Param2 INTEGER: BEGIN --声明调用语句 Statement :=’call proc_add(:co 1_1,
:co 1_2, :co 1_3)’; --执行语句 EXECUTE IMMEDIATE statement USING IN input 1, OUT
param 2, IN input 2; Result:=param 2; END; 执行语句 call proc_test(10) , 结果是() 。
A)3
B)无返回值
C)4
D)2
答案:A
解析:
54.[单选题]下列选项不支持创建采集元数据任务时添加数据分类,实现自动识别的为:( )。
A)RDS(Mysql)
B)DWS
C)DLI
D)MRS Hive
答案:A
解析:
55.[单选题]FusionInsight HD中Loader从SFTP服务器导入文件时,不需要做编码转换和数据转换且
速度最快的文件类型是:( )。
A)graph-file
B)binary-file
C)text-file
D)sequence-file
答案:B
解析:
56.[单选题]HDFS中Namenode的主备仲裁,是由:( )组件控制的。
A)HDFS Client
B)Node Manager
C)ResourceManager
D)ZooKeeper FailoverController
答案:D
解析:
57.[单选题]HDFS的副本放置策略中,同一机架不同的服务器之间的距离是:( )。
A)3
B)2
C)1
D)4
答案:B
解析:
58.[单选题]传统处理数据的数据规模的单位是:( )。
A)TB
B)EB
C)PB
D)GB
答案:D
解析:
59.[单选题]存储过程的调用有几种方式()?
A)3
B)1
C)4
D)2
答案:D
解析:
60.[单选题]在Flink框架中,下列( )是流处理和批处理的计算引擎。
A)standalone
B)Runtime
C)FlinkCore
D)DataStream
答案:B
解析:
61.[单选题]在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在shuffle操作时,会大大
增加hash分桶数,严重影响性能,FusionInsight中,针对小文件的场景通常采用( )算子来对
Table中的小文件生成的Partition进行合并,减少partition数,从而避免在shuffle的时候,生成
过多的hash分桶,提升形成。
A)group by
B)coalosce
C)connect
D)join
答案:D
解析:
62.[单选题]HDFS中的主备仲裁,是由:( )组件控制的。
A)Zookeeper Failover Controller
B)NodeManager
C)ResourceManager
D)HDFS Client
答案:A
解析:
63.[单选题]关于HIVE的描述不正确的是:( )。
A)Hive最佳使用场景是大数据集的批处理作业
B)Hive可以实现在大规模集群上实现低延迟快速查询
C)Hive构建在基于静态批量处理的Hadoop之上,Hadoop通常有较高的延迟并且在提交作业和调度的
时候需要大量的开销
D)Hive查询操作过程严格遵循Hadoop MapReduce的作用执行模型,Hive将用户的HiveSQL语句通过解
释器转换为MapReduce Hadoop集群上
答案:B
解析:
64.[单选题]在用户验证权限时,应当在“服务列表”中选择数据复制服务,进入DRS主界面,单击
右上角( ),尝试购创建迁移任务。
A)修改迁移任务
B)创建 迁移任务
C)查阅权限
D)删除迁移任务
答案:B
解析:
65.[单选题]MULTIXACT日志存储的内容针对的是记录( )。
A)xmin
B)xmax
C)data
D)cid
答案:B
解析:
66.[单选题]哪个是实时检索解决方案的数据源?()
A)流数据
B)以上都是
C)文件数据
D)图数据
答案:B
解析:
67.[单选题]创建Loader作业时,可以在以下( )步骤中设置Map数。
A)输出
B)输入设置
C)转换
D)基本信息
答案:A
解析:
68.[单选题]下列关于 FusionInsight LibrA 数据均匀分布的存储描述错误的是:( )。
A)解析器从客户端应用获取输入的数据
B)解析器对数据解析后,将数据分发诶各个处理单元进行处理
C)各个处理单元把接受到的数据存储到各自的逻辑磁盘中
D)每一个处理单元的逻辑磁盘只能是服务器自带的物理磁盘
答案:D
解析:
69.[单选题]下列关于Flink barrieer描述错误的是:( )。
A)一个barrier将本周期快快照的数据与下一个周期快照的数据分隔开来
B)barrier是Flink快照的核心
C)在插入barrier的时候,会暂时阻断数据流
D)barrier周期性插入到数据流中,并作为数据流的一部分随之流动
答案:C
解析:
70.[单选题]FusionInsight Manager对服务的管理操作,下面说法错误的是:( )。
A)可以设置不常用的服务隐藏显示
B)可以添加和卸载服务
C)可以对服务进行启停操作
D)可以查看服务的当前状态
答案:A
解析:
71.[单选题]在有N个节点FusionInsight HD集群中部署HBase时、推荐部署( )个H Master进程
,( )个Region Server进程。
A)3、N
B)N、N
C)2、N
D)2、2
答案:C
解析:
72.[单选题]下列代码的作用是?() String graphName=“graphbase”; Graph(graph
Name) ;
A)创建图
B)获得图
C)删除图
D)修改图
答案:A
解析:
73.[单选题]哪个不是 Structured Streaming 中 OutPut 可以定义的存储方式?()
A)Update Mode
B)JDBC Mode
C)Complete Mode
D)Append Mode
答案:B
解析:
74.[单选题]关于 Spark 中 RDD 的描述不正确的是?()
A)RDD 可以从 HDFS 输入创建,或从与 Hadoop 兼容的其他存储系统中输入创建
B)当前 RDD 默认是存储于内存,当内存不足时,RDD 也不会溢出到磁盘中。
C)Spark 的所有 Transform 操作都是基于 RDD 来实现的。
D)RDD 是只读和可区分的。要想对 RDD 进行操作,只能重新生成一个新的 RDD
答案:B
解析:RDD 具有容错机制,并且只读不能修改,可以执行确定的转换操作创建新的 RDD。具体来讲
,RDD 具有以下几个属性。
只读:不能修改,只能通过转换操作生成新的 RDD。
分布式:可以分布在多台机器上进行并行处理。
弹性:计算过程中内存不够时它会和磁盘进行数据交换。
基于内存:可以全部或部分缓存在内存中,在多次计算间重用。
75.[单选题]以下选项不属于 Flume 的特点的是?()
A)支持定制各类方数据发送
B)支持结构化、非结构化数据源
C)支持多级联操作
D)支持数据实时检索
答案:D
解析:
76.[单选题]离线批处理工具不包含以下哪项? ()
A)MapReduce
B)SQL
C)Storm
D)Spark
答案:C
解析:
77.[单选题]Flink中的( )接口属于流数据处理,( )接口用于批处理。
A)DataBatch API,DataStream API
B)Stream API,Batch API
C)DataStream API,DataSet API
D)Batch API,Stream API
答案:C
解析:
78.[单选题]大数据最显著的特征是:( )。
A)数据规模大
B)数据类型多样
C)数据处理速度快
D)数据价值密度高
答案:A
解析:
79.[单选题]硬件故障被认为是常态,为了解决这个问题,HDFS设计了副本机制,默认情况下,一份
文件,HDFS会存放( )份。
A)3
B)5
C)2
D)1
答案:A
解析:
80.[单选题]以下( )组件负责接收来自应用的访问请求,并向客户端返回执行结果。
A)GTM
B)WLM
C)CN
D)DN
答案:C
解析:
81.[单选题]以下不属于事务上层系统状态的是:( )。
A)started
B)begin
C)commit
D)inprogress
答案:C
解析:
82.[单选题]以下( )组件不是华为产品的。
A)CDM
B)DRS
C)RDS
D)SG-ETL
答案:D
解析:
83.[单选题]离线批处理常用的组件不包括哪个?()
A)Flume
B)Hive
C)Spark
D)Storm
答案:D
解析:
84.[单选题]Fusionlnsiht HD中,Oozie客户端的JAVA API在运行任务时会调用OozieClient类的(
)方法。
A)suspend
B)getJobInfo
C)submit
D)run
答案:D
解析:
85.[单选题]以下哪个选项属于大数据消息系统?()
A)Spark
B)Kafka
C)HBase
D)Zookeeper
答案:B
解析:
86.[单选题]Flink 不包含以下哪些数据处理场景?()
A)高可靠性
B)图形分析
C)毫秒级低时延
D)高并发
答案:B
解析:
87.[单选题]数据中台在汇聚生产库的结构化数据时,最多的数据处理操作是:( )。
A)统计
B)删除
C)新增
D)修改
答案:C
解析:
88.[单选题]进行场景迁移的前提条件说法错误的是:( )。
A)该用户必须拥有管理员权限
B)已获取待连接数据源的用户名
C)已获取待连接数据源的密码
D)已获取待连接数据源的地址
答案:A
解析:
89.[单选题]以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是:(
)。
A)仅写入内存
B)同时写入硬盘和内存
C)先写入内存再写入硬盘
D)先写入硬盘再写入内存
答案:D
解析:
90.[单选题]下面哪个数据类型不是 Gauss DB 200 支持的数据类型()?
A)JSON 类型
B)货币类型
C)数值类型
D)XML 类型
答案:D
解析:
91.[单选题]用户 Region 和 Region Server 之间的路由信息, 保存在哪个模块中?()
A)Master
B)HDFS
C)Meta 表
D)Zookeeper
答案:C
解析:
92.[单选题]以下关于FusionInsight CTBase的描述不正确的是:( )。
A)CTBase的读写接口,统一封装了行定义的接口,自动进行冷字段的合并和解析,不需要在应用程
序中进行合并和解析
B)CTBase是基于Hbase的聚簇表开发框架
C)CTBase提供了一套WebUI进行元数据定义,提供了只管医用的表设计工具,降低表设计的难度
D)CTBase的java API提供了一套Hbase连接池管理的接口,内部连接共享,减少客户端应用开发的难
度
答案:B
解析:
93.[单选题]Spark 的中间数据放在() 中, 对于迭代运算的效率更高,进行批处理时更高效.()
A)Spark Core
B)磁盘
C)HDFS
D)内存
答案:D
解析:
94.[单选题]HDFS客户端所在节点的系统时间与Fusioninsight HD集群的系统时间要保持一致,若有
时间差, 那么时间差应小于( )分钟。
A)5
B)10
C)20
D)30
答案:A
解析:
95.[单选题]Flume 中基于 WAL(预写式日志 Write-Ahead Log) 实现 Channel 持久化的是?()
A)Memory Channel
B)Kafka Channel
C)File Channel
D)JDBC Channel
答案:C
解析:channel可以理解为一种临时的存储,source将event放入channel ,sink取走它。flume提供了
四种可以用于生产环境的channel。
1、Memory Channel
基于内存的channel,实际就是将event存放于内存中一个固定大小的队列中。其优点是速度快,缺
点是可能丢失数据。
2、JDBC Channel
将event存放于一个支持JDBC连接的数据库中,目前官方推荐的是Derby库,其优点是数据可以恢复
。
3、File Channel
在磁盘上指定一个目录用于存放event,同时也可以指定目录的大小。优点是数据可持久化,可恢复
,相对于memory channel来说缺点是要频繁的读取磁盘,速度较慢。
4、Kafka Channel
在使用flume对接Kafka时,我们往往使用TailFileSource->MemoryChannel->KafkaSink的这种方式
,然后将数据输送到Kafka集群中。
96.[多选题]下列哪些组件可以对外提供SQL接口?()
A)HBase
B)Hive
C)SparkSQL
2024年3月11日发(作者:次银)
华为大数据练习(试卷编号141)
1.[单选题]以下关于DWS数据库透明加密的特点,错误的是:( )。
A)支持行存表数据加密,不支持列存表加密
B)支持集群级别配置
C)使用KMS服务加密
D)加密密钥层次结构有三层
答案:A
解析:
2.[单选题]对于 Elastic Search 描述不正确的是?()
A)对 Lucene 进行了扩展
B)不支持结构化数据存储
C)能够水平扩展
D)基于 Lucene 的全文检索服务
答案:B
解析:
3.[单选题]以下( )文件格式为纯行式存储。
A)ORC File
B)Parquet File
C)Sequence File
D)RC File
答案:C
解析:
4.[单选题]MVCC用于解决( )事务冲突。
A)读读
B)写写
C)读写
D)上述都包括
答案:C
解析:
5.[单选题]Redis 中 List 列表是什么数据结构实现的?()
A)红黑树
B)循环链表
C)平衡二叉树
D)双向链表
答案:D
解析:
6.[单选题]以下哪个选项对 Red is 数据读写流程描述是正确的?()
A)Server A 节点返回集群拓扑―一客户端选择集群任意一个 Server A 节点连接――客户端计 算
Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果
B)客户端选择集群任意一个 Server A 节点连接――Server A 节点返回集群拓扑―一客户端计 算
Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果
C)Server A 节点返回集群拓扑--客户端计算 Key 归属的槽位以及对应 Server B 节点并连 接
――客户端选择集群任意一个 Server A 节点连接--Server B 节点返回业务操作结果
D)客户端选择集群任意一个Server A节点连接――客户端计算Key 归属的槽位以及对应Server B 节
点并连接――Server A 节点返回集群拓扑――Server B 节点返回业务操作结果
答案:B
解析:
7.[单选题]CREATE TABLE AS创建表,后面需要添加查询语句类型是:( )。
A)INSERT
B)UPDATE
C)SELECT
D)DELETE
答案:C
解析:
8.[单选题]下面关于 GaussDB 200 的跨集群协同分析,说法正确的是()?
A)跨集群所指的集群是 GaussDB 集群。
B)跨集群过程中只需要输入集群 IP 地址和端口就可以访问其他集群的数据。
C)跨集群协同分析支持 SQL 算子下推。
D)跨集群协同分析时其他集群会将要查询的数据移动到目标集群,供目标集群查询。
答案:C
解析:
9.[单选题]Yam中( )角色是管理单个节点资源(CPU/Memory)的。
A)NodeManager
B)Resource Manager
C)Data Node
D)NameNode
答案:A
解析:
10.[单选题]安全Kafka集群中,关于Kafka组的说法错误的是()
A)kafka admin组拥有Topic的所有权限
B)kafka组用户被授予Topic相关权限后,只有使用新API才能访问;
C)Kafka super组用户默认具有所有的Topic的读写权限
D)kafka组用户被授予Topic相关权限后,一定可以访问
答案:D
解析:
11.[单选题]关于Kerberos的TGT以下说法错误的是:( )。
A)TGT全称为票据授权服务票据,主要由KDC服务器生成
B)TGT一次生成之后,可以无限期使用。
C)TGT在客户端的存在方式可以是在内存中存储,也可以在本地以文件的形式存储。
D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及分发给的客户端名称。
答案:B
解析:
12.[单选题]数据湖探索(Data Lake Insight,简称DLI)是支持以下( )形式的大数据计算分析
服务。
A)流式处理
B)批处理
C)流批一体
D)都不支持
答案:C
解析:
13.[单选题]在线迁移同步过程中可能因数据冲突、数据加工、异构类型转化、对象缺失等因素导致
数据异常,用户可以通过“异常数据”页签查看,以帮助异常写入的排查。下列同步过程中,支持
异常诊断的是:( )。
A)Postgres->GaussDB
B)Oracle->RDS for MySQL
C)Mysql->GaussDB(for MySQL)
D)Postgres->GaussDB
答案:B
解析:
14.[单选题]在FusionInsight产品中,关于创建Kafka的Topic,以下描述正确的是:( )。
A)在创建Kafka的Topic时,必须设置Partition
B)在创建Kafka的Topic时,必须设置Partition副本数
C)设置多副本可以增强Kafka服务的容灾能力
D)以上全部正确
答案:C
解析:
15.[单选题]Kafka 中数据从 Producer 到 Broker 和 Broker 到 Consumer 分别是哪种传递方式
()
A)push,push
B)pull,pull
C)pull,push
D)push,pull
答案:D
解析:
16.[单选题]Hive 是基于 Hadoop 的数据仓库软件,最大可以查询和管理( )级别的分布式数据。()
A)GB
B)PB
C)TB
D)MB
答案:B
解析:
17.[单选题]HBase 使用 get 方法读取数据时, 下列哪个选项是需要的?()
A) Caching(1000)
B)Delete delete=new Delete(rowKey)
C)List
D)byte[] rowKey=s (” ”)
答案:D
解析:
18.[单选题]修改资源的化导入excel的操作列应该填写( )。
A)插入
B)更新
C)删除
D)追加
答案:B
解析:
19.[单选题]Loader 特点不包含?()
A)图形化
B)实时性
C)高性能
D)安全
答案:B
解析:
20.[单选题]元数据采集任务的启动方式不包括:( )。
A)循环执行
B)定时执行
C)手动执行
D)定时立即执行
答案:A
解析:
21.[单选题]以下哪项不提供交互式查询服务?()
A)Presto
B)Impala
C)Echart
D)Kylin
答案:C
解析:Presto是一个facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到
PB字节。
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和
HBase中的PB级大数据。
Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开
发者的认可。
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能
力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的
Hive表。
22.[单选题]当前传统关系型数据库主要面临的挑战是()?
A)数据量爆炸式增长,要求数据处理平台具备弹性扩展能力。
B)数据处理时效性需求提高,要求数据处理平台速度够快。
C)多类型数据融合,要求数据处理平台功能更加强大。
D)以上全都正确。
答案:D
解析:
23.[单选题]TOP N 操作最适合采用哪种 Redis 数据结构?()
A)Set
B)Hash
C)List
D)Sorted Set
答案:D
解析:
24.[单选题]ume 中的 JDBC Channel 内置数据库是哪个?()
A)MySql
B)SqlServer
C)Derby
D)Oracle
答案:C
解析:
25.[单选题]下列选项中,关于Zookeeper可靠性含义说法正确的是:( )。
A)可靠性通过主备部署模式实现
B)可靠性是指更新只能成功或者失败,没有中间状态
C)可靠性是指无论哪一个server,对外展示的均是同一个视图
D)可靠性是指一个消息被一个server接受,它将被所有的server 接受
答案:D
解析:
26.[单选题]MapReduce任务最终是在下列( )中被执行的。
A)NodeManager
B)container
C)ResourceManager
D)AppMaster
答案:B
解析:
27.[单选题]在WebHCat架构中,用户能够通过安全的HTTPS协议执行以下( )操作。
A)执行HiveDDL操作
B)运行MapReduce任务
C)运行Hive SQL任务
D)以上全部正确
答案:D
解析:
28.[单选题]以下关于Zookeeper关键特性中的原子性说法正确的是:( )。
A)客户端发送的更新会按照他们发送的顺序进行应用
B)鞥新只能全部完成或失败,不会部分完成
C)一条消息被一个server接受,将会被所有的server接受
D)集群中无论那台服务器,对外展示的均是统一视图
答案:B
解析:
29.[单选题]当 ElasticSearch 集群有节点加入或退出时,集群数据会发生什么动作?()
A)数据重载
B)数据分布
C)数据更新
D)数据重建
答案:B
解析:
30.[单选题]某工程师正在开发 Elastic Search 应用, 下面这些代码可以帮助他做什么?()
Map
rsp=mRequest(”GET”,”/”+index+”/”+type+”/”+id,params) ;
Equals( StatusLine() .get StatusCode() ,Http _OK) ;
A)查询指定文档分片信息
B)查询指定 index、type、id 下的文档信息
C)查询指定 index、type 下的文档信息
D)维护指定文档信息
答案:B
解析:
31.[单选题]通过createTable方法来创建一张表,必须传入的参数为()?
A)表名
B)表名和列
C)表名和Family
D)可以为空
答案:C
解析:Family是必须在建表的时候就指定的,但是列可以动态添加。
32.[单选题]Gauss DB 200 支持几种数据并行导入策略?()
A)2
B)1
C)4
D)3
答案:D
解析:为了使得数据能够正确、不重复地分配给各DN,保证入库数据的唯一性, GaussDB 200对应提
供了三种策略:
1、Normal策略:
利用高斯数据服务工具GDS(Gauss Data Service)来管理用户数据,将集群之外主机上的数据 导入
到集群中。
2、Shared策略:
利用网络文件系统NFS(Network File System)服务,将存放用户数据的服务器统一挂载到各 DN所在
主机的相同路径下,将集群之外主机上的数据导入到集群中。
3、Private策略:
用户自行将数据文件上传到各DN所在主机。
33.[单选题]以下不是EXPLAIN命令选项的是:( )。
A)performance
B)pretty
C)analyze
D)verbose
答案:B
解析:
34.[单选题]以下关于Kafka消息消费者Consumer读取消息描述错误的是:( )。
A)consumer使用offset来记录读取位置
B)Kafka的一个Topic可以理解为一个队列,即一个消息
C)生产者产生的消息逐条放到Topic尾部
D)消费者从右至左读取消息
答案:D
解析:
35.[单选题]下面( )不是二进制类型。
A)BLOB
B)RAW
C)BYTEA
D)TEXT
答案:D
解析:
36.[单选题]Action 是 RDD 的算子的一个类型,不可以将结果写入()
A)磁盘
B)HDFS
C)数据库
D)CPU
答案:C
解析:Action(执行):触发Spark作业运行,真正触发转换算子的计算; Action操作会对 RDD 计
算出一个结果,并把结果返回到驱动器程序Driver中,或把结果存储到外部存储系统(如 HDFS,磁
盘,cpu等)中。
37.[单选题]以下( )能力不属于数据中台能力架构中存储计算能力。
A)分布式数据仓库
B)分布式关系数据库
C)流计算
D)任务调度
答案:D
解析:
38.[单选题]以下哪项不属于批量数据采集工具?()
A)MapReduce
B)Flume
C)Sqoop
D)其他ETL工具
答案:A
解析:
39.[单选题]Gauss DB 200 在创建表时, 需要注意以下哪些事项() ?
A)创建列存表之后,后续可以修改为行存表。
B)创建列存表时压缩级别默认为 HIGH。
C)如果指定表空间为普通表空间,创建表时默认是行式存储。
D)创建一个行存表之后,后续可以修改为列存表。
答案:C
解析:
40.[单选题]以下关于常见数据库描述正确的是?()
A)HBase:基于 ZooKeeper, Hadoop, 适合非结构化数据存储, 是高可靠性、高性能、面 向行、
可伸缩的分布式存储系统。
B)Oracle:关系型数据库, 行式存储, 支持 SQL,中量级数据分析、存储、不可分布式, 开 源
软件。
C)Redis:开源 key-value 数据库, 读写性能极高,数据类型丰富,可以与 Storm 结合进行实 时
查询分析。
D)Mysql:关系型数据库,列式存储,支持 SQL,轻量级数据分析、存储,仅有商业版本。
答案:C
解析:
41.[单选题]一般情况下,若要提高 ElasticSearch 检索效率,可以采取什么操作?()
A)使用 Hive 做底层存储
B)调整索引分片数
C)压缩索引
D)增加 EsMaster 节点
答案:B
解析:
42.[单选题]Redis 中 String 数据类型不含以下哪种操作?()
A)mget
B)size
C)strlen
D)append
答案:B
解析:
43.[单选题]关于表连接算子的说法错误的是() ?
A)聚合操作如 group by 会触发 NergeJoin.
B)表连接算子主要有 Nestloop、MergeJoin、 MinorJoin、 HashJoin.
C)算子的选择是 SQL 根据逻辑自行选择的,与人为无关。
D)默认情况下,执行效率来说 HashJoin 最高。
答案:D
解析:
44.[单选题]ElasticSearch 存放所有关键词的地方是()
A)字典
B)关键词
C)词典
D)索引
答案:C
解析:
45.[单选题]部署FusionInsight HD时,同一集群内的Flume Server节点建议至少部署( )个。
A)1
B)3
C)4
D)2
答案:D
解析:
46.[单选题]下面关于 ACID 解释错误的是:( )。
A)A-atomictty 原子性:事务的所有操作要么全部完成,要么全部不完成
B)C-consistency 一致性:事务始终保证系统处于一致性的状态,不影响一致性
C)I-Isolation 隔离性:事务执行是隔离的,3 个隔离级别
D)D-Durability 持久性:事务的结果是持久的
答案:C
解析:
47.[单选题]华为8.0数据中台架构贴源层数据存储产品是:( )。
A)MRS
B)GBase 8A
C)DWS
D)DAYU
答案:A
解析:
48.[单选题]以下两种描述分别对应:( )两种分类算法的评价标准。
A)Precision,Recall
B)Recall,Precision
C)Precision,Roc
D)Recall,Roc
答案:A
解析:
49.[单选题]Elasticsearch 中构建一个 query 需要用到下列哪个代码?()
A)Query()
B)ry()
C)ry()
D)uery()
答案:D
解析:
50.[单选题]离线批处理方案的应用场景不包括?()
A)占用计算存储资源多
B)快速高效,实时的数据处理
C)数据处理格式多样
D)处理大规模数据
答案:B
解析:
51.[单选题]下来( )Redis命令属于原子操作。
A)INCR (将储存的数字值增一)
B)HINCRBY (为哈希表key中的域field的值加上增量increment)
C)LPUSH (对链表的push操作)
D)以上都是
答案:D
解析:
52.[单选题]如果需要由数据生产者决定数据发送给目标Blot的某一个确定的Task,应该选择以下(
)消息发布策略。
A)局部字段分组
B)广播分组
C)直接分组
D)全局分组
答案:C
解析:
53.[单选题]创建一个存储过程 proc_add CREATE OR REPLACE PROCEDURE proc_add(param 1 in
INTEGER,param 2 out INTEGER,param 3 in INTEGER) AS BEGIN Param 2:=param 1+param 3;
END; ,创建一个存储过程 proc_test CREATE OR REPLACE PROCEDURE proc_test(result out
INTEGER) As DECLARE Input 1 INTEGER := 1; Input 2 INTEGER := 2; Statement VARCHAR
2(200) : Param2 INTEGER: BEGIN --声明调用语句 Statement :=’call proc_add(:co 1_1,
:co 1_2, :co 1_3)’; --执行语句 EXECUTE IMMEDIATE statement USING IN input 1, OUT
param 2, IN input 2; Result:=param 2; END; 执行语句 call proc_test(10) , 结果是() 。
A)3
B)无返回值
C)4
D)2
答案:A
解析:
54.[单选题]下列选项不支持创建采集元数据任务时添加数据分类,实现自动识别的为:( )。
A)RDS(Mysql)
B)DWS
C)DLI
D)MRS Hive
答案:A
解析:
55.[单选题]FusionInsight HD中Loader从SFTP服务器导入文件时,不需要做编码转换和数据转换且
速度最快的文件类型是:( )。
A)graph-file
B)binary-file
C)text-file
D)sequence-file
答案:B
解析:
56.[单选题]HDFS中Namenode的主备仲裁,是由:( )组件控制的。
A)HDFS Client
B)Node Manager
C)ResourceManager
D)ZooKeeper FailoverController
答案:D
解析:
57.[单选题]HDFS的副本放置策略中,同一机架不同的服务器之间的距离是:( )。
A)3
B)2
C)1
D)4
答案:B
解析:
58.[单选题]传统处理数据的数据规模的单位是:( )。
A)TB
B)EB
C)PB
D)GB
答案:D
解析:
59.[单选题]存储过程的调用有几种方式()?
A)3
B)1
C)4
D)2
答案:D
解析:
60.[单选题]在Flink框架中,下列( )是流处理和批处理的计算引擎。
A)standalone
B)Runtime
C)FlinkCore
D)DataStream
答案:B
解析:
61.[单选题]在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在shuffle操作时,会大大
增加hash分桶数,严重影响性能,FusionInsight中,针对小文件的场景通常采用( )算子来对
Table中的小文件生成的Partition进行合并,减少partition数,从而避免在shuffle的时候,生成
过多的hash分桶,提升形成。
A)group by
B)coalosce
C)connect
D)join
答案:D
解析:
62.[单选题]HDFS中的主备仲裁,是由:( )组件控制的。
A)Zookeeper Failover Controller
B)NodeManager
C)ResourceManager
D)HDFS Client
答案:A
解析:
63.[单选题]关于HIVE的描述不正确的是:( )。
A)Hive最佳使用场景是大数据集的批处理作业
B)Hive可以实现在大规模集群上实现低延迟快速查询
C)Hive构建在基于静态批量处理的Hadoop之上,Hadoop通常有较高的延迟并且在提交作业和调度的
时候需要大量的开销
D)Hive查询操作过程严格遵循Hadoop MapReduce的作用执行模型,Hive将用户的HiveSQL语句通过解
释器转换为MapReduce Hadoop集群上
答案:B
解析:
64.[单选题]在用户验证权限时,应当在“服务列表”中选择数据复制服务,进入DRS主界面,单击
右上角( ),尝试购创建迁移任务。
A)修改迁移任务
B)创建 迁移任务
C)查阅权限
D)删除迁移任务
答案:B
解析:
65.[单选题]MULTIXACT日志存储的内容针对的是记录( )。
A)xmin
B)xmax
C)data
D)cid
答案:B
解析:
66.[单选题]哪个是实时检索解决方案的数据源?()
A)流数据
B)以上都是
C)文件数据
D)图数据
答案:B
解析:
67.[单选题]创建Loader作业时,可以在以下( )步骤中设置Map数。
A)输出
B)输入设置
C)转换
D)基本信息
答案:A
解析:
68.[单选题]下列关于 FusionInsight LibrA 数据均匀分布的存储描述错误的是:( )。
A)解析器从客户端应用获取输入的数据
B)解析器对数据解析后,将数据分发诶各个处理单元进行处理
C)各个处理单元把接受到的数据存储到各自的逻辑磁盘中
D)每一个处理单元的逻辑磁盘只能是服务器自带的物理磁盘
答案:D
解析:
69.[单选题]下列关于Flink barrieer描述错误的是:( )。
A)一个barrier将本周期快快照的数据与下一个周期快照的数据分隔开来
B)barrier是Flink快照的核心
C)在插入barrier的时候,会暂时阻断数据流
D)barrier周期性插入到数据流中,并作为数据流的一部分随之流动
答案:C
解析:
70.[单选题]FusionInsight Manager对服务的管理操作,下面说法错误的是:( )。
A)可以设置不常用的服务隐藏显示
B)可以添加和卸载服务
C)可以对服务进行启停操作
D)可以查看服务的当前状态
答案:A
解析:
71.[单选题]在有N个节点FusionInsight HD集群中部署HBase时、推荐部署( )个H Master进程
,( )个Region Server进程。
A)3、N
B)N、N
C)2、N
D)2、2
答案:C
解析:
72.[单选题]下列代码的作用是?() String graphName=“graphbase”; Graph(graph
Name) ;
A)创建图
B)获得图
C)删除图
D)修改图
答案:A
解析:
73.[单选题]哪个不是 Structured Streaming 中 OutPut 可以定义的存储方式?()
A)Update Mode
B)JDBC Mode
C)Complete Mode
D)Append Mode
答案:B
解析:
74.[单选题]关于 Spark 中 RDD 的描述不正确的是?()
A)RDD 可以从 HDFS 输入创建,或从与 Hadoop 兼容的其他存储系统中输入创建
B)当前 RDD 默认是存储于内存,当内存不足时,RDD 也不会溢出到磁盘中。
C)Spark 的所有 Transform 操作都是基于 RDD 来实现的。
D)RDD 是只读和可区分的。要想对 RDD 进行操作,只能重新生成一个新的 RDD
答案:B
解析:RDD 具有容错机制,并且只读不能修改,可以执行确定的转换操作创建新的 RDD。具体来讲
,RDD 具有以下几个属性。
只读:不能修改,只能通过转换操作生成新的 RDD。
分布式:可以分布在多台机器上进行并行处理。
弹性:计算过程中内存不够时它会和磁盘进行数据交换。
基于内存:可以全部或部分缓存在内存中,在多次计算间重用。
75.[单选题]以下选项不属于 Flume 的特点的是?()
A)支持定制各类方数据发送
B)支持结构化、非结构化数据源
C)支持多级联操作
D)支持数据实时检索
答案:D
解析:
76.[单选题]离线批处理工具不包含以下哪项? ()
A)MapReduce
B)SQL
C)Storm
D)Spark
答案:C
解析:
77.[单选题]Flink中的( )接口属于流数据处理,( )接口用于批处理。
A)DataBatch API,DataStream API
B)Stream API,Batch API
C)DataStream API,DataSet API
D)Batch API,Stream API
答案:C
解析:
78.[单选题]大数据最显著的特征是:( )。
A)数据规模大
B)数据类型多样
C)数据处理速度快
D)数据价值密度高
答案:A
解析:
79.[单选题]硬件故障被认为是常态,为了解决这个问题,HDFS设计了副本机制,默认情况下,一份
文件,HDFS会存放( )份。
A)3
B)5
C)2
D)1
答案:A
解析:
80.[单选题]以下( )组件负责接收来自应用的访问请求,并向客户端返回执行结果。
A)GTM
B)WLM
C)CN
D)DN
答案:C
解析:
81.[单选题]以下不属于事务上层系统状态的是:( )。
A)started
B)begin
C)commit
D)inprogress
答案:C
解析:
82.[单选题]以下( )组件不是华为产品的。
A)CDM
B)DRS
C)RDS
D)SG-ETL
答案:D
解析:
83.[单选题]离线批处理常用的组件不包括哪个?()
A)Flume
B)Hive
C)Spark
D)Storm
答案:D
解析:
84.[单选题]Fusionlnsiht HD中,Oozie客户端的JAVA API在运行任务时会调用OozieClient类的(
)方法。
A)suspend
B)getJobInfo
C)submit
D)run
答案:D
解析:
85.[单选题]以下哪个选项属于大数据消息系统?()
A)Spark
B)Kafka
C)HBase
D)Zookeeper
答案:B
解析:
86.[单选题]Flink 不包含以下哪些数据处理场景?()
A)高可靠性
B)图形分析
C)毫秒级低时延
D)高并发
答案:B
解析:
87.[单选题]数据中台在汇聚生产库的结构化数据时,最多的数据处理操作是:( )。
A)统计
B)删除
C)新增
D)修改
答案:C
解析:
88.[单选题]进行场景迁移的前提条件说法错误的是:( )。
A)该用户必须拥有管理员权限
B)已获取待连接数据源的用户名
C)已获取待连接数据源的密码
D)已获取待连接数据源的地址
答案:A
解析:
89.[单选题]以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是:(
)。
A)仅写入内存
B)同时写入硬盘和内存
C)先写入内存再写入硬盘
D)先写入硬盘再写入内存
答案:D
解析:
90.[单选题]下面哪个数据类型不是 Gauss DB 200 支持的数据类型()?
A)JSON 类型
B)货币类型
C)数值类型
D)XML 类型
答案:D
解析:
91.[单选题]用户 Region 和 Region Server 之间的路由信息, 保存在哪个模块中?()
A)Master
B)HDFS
C)Meta 表
D)Zookeeper
答案:C
解析:
92.[单选题]以下关于FusionInsight CTBase的描述不正确的是:( )。
A)CTBase的读写接口,统一封装了行定义的接口,自动进行冷字段的合并和解析,不需要在应用程
序中进行合并和解析
B)CTBase是基于Hbase的聚簇表开发框架
C)CTBase提供了一套WebUI进行元数据定义,提供了只管医用的表设计工具,降低表设计的难度
D)CTBase的java API提供了一套Hbase连接池管理的接口,内部连接共享,减少客户端应用开发的难
度
答案:B
解析:
93.[单选题]Spark 的中间数据放在() 中, 对于迭代运算的效率更高,进行批处理时更高效.()
A)Spark Core
B)磁盘
C)HDFS
D)内存
答案:D
解析:
94.[单选题]HDFS客户端所在节点的系统时间与Fusioninsight HD集群的系统时间要保持一致,若有
时间差, 那么时间差应小于( )分钟。
A)5
B)10
C)20
D)30
答案:A
解析:
95.[单选题]Flume 中基于 WAL(预写式日志 Write-Ahead Log) 实现 Channel 持久化的是?()
A)Memory Channel
B)Kafka Channel
C)File Channel
D)JDBC Channel
答案:C
解析:channel可以理解为一种临时的存储,source将event放入channel ,sink取走它。flume提供了
四种可以用于生产环境的channel。
1、Memory Channel
基于内存的channel,实际就是将event存放于内存中一个固定大小的队列中。其优点是速度快,缺
点是可能丢失数据。
2、JDBC Channel
将event存放于一个支持JDBC连接的数据库中,目前官方推荐的是Derby库,其优点是数据可以恢复
。
3、File Channel
在磁盘上指定一个目录用于存放event,同时也可以指定目录的大小。优点是数据可持久化,可恢复
,相对于memory channel来说缺点是要频繁的读取磁盘,速度较慢。
4、Kafka Channel
在使用flume对接Kafka时,我们往往使用TailFileSource->MemoryChannel->KafkaSink的这种方式
,然后将数据输送到Kafka集群中。
96.[多选题]下列哪些组件可以对外提供SQL接口?()
A)HBase
B)Hive
C)SparkSQL