大数据分布并行处理试题及答案

RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，只能通过文件创建。 [判断题]

对

错(正确答案)

spark中的map和flatmap算子的区别是flatmap可以返回多条元素 [判断题]

对(正确答案)

错

下面哪个算子容易导致driver端内存溢出？ [单选题]

map

count

collect(正确答案)

take

哪一种持久化策略表示只存储到内存，并且不序列化。 [单选题]

MEMORY_ONLY(正确答案)

cache()

MEMORY_AND_DISK

MEMORY_ONLY_SER

spark中的广播变量可以保证每个Executor内部只保存1份变量数据。 [判断题]

对

错(正确答案)

spark中在划分Stage的时候，遇到窄依赖就会划分出前后两个Stage。 [判断题]

对

错(正确答案)

spark中的持久化，只是将数据保存在内存中或者本地磁盘文件中，RDD的lineage(血缘关系)是不变的。 [判断题]

对(正确答案)

错

HBase属于基于键值对类型的NoSQL数据库。 [判断题]

对(正确答案)

错

针对HBase的应用场景的介绍，错误的是： [单选题]

适合半结构和非结构数据

适合存储记录稀疏的数据

适合存储多版本数据

适合海量数据分析(正确答案)

HBase中不支持数字和字符串数据类型。 [判断题]

对(正确答案)

错

HBase中，每一行数据中的Rowkey字段不是必须的，可以为null。 [判断题]

对

错(正确答案)

HBase中在建表的时候，列族必须指定，并且后期无法修改。 [判断题]

对

错(正确答案)

HBase中，针对具有多个历史版本数据的字段，会按照时间戳正序排序。 [判断题]

对

错(正确答案)

HBase中的数据是按照Rowkey正序排序存储的。 [判断题]

对(正确答案)

错

向HBase的表t1中添加数据，写法正确的是： [单选题]

put 't1','rowkey1','info','abc'

put 't1','rowkey1','info','age:abc'

put 't1','rowkey1','level:abc','age:xyz'

put 't1','rowkey1','level:abc','xyz'(正确答案)

HBase中，如果一个列族中如果有3列，那么这3列会分到几个文件中存储？ [单选题]

1(正确答案)

HRegionServer包含了HLog和？ [单选题]

HRegion(正确答案)

HMaster

HDFS

Data

HStore包含两部分： StoreFile和？ [单选题]

HFile

HRegion

HMaster

MemStore(正确答案)

minor合并时会忽略之前标记为删除状态的数据。 [判断题]

对

错(正确答案)

排序题HBase中，若MemStore中的数据有丢失，则可以从HLog上恢复。 [判断题]

对(正确答案)

错

HBase中一张表中包含以下几个Region： [10,20]，[20,30]，[30, +∞]，那么222将属于Region [30,+ ∞] 。（） [单选题] *

A、对

B、错(正确答案)

下列哪个不是大数据的特征？ [单选题] *

A：数据量大

B：数据类型多

C：价值密度低

D：安全性要求高(正确答案)

E：处理速度快

大数据带来的主要挑战不包括哪一个： [单选题] *

A：对现有数据库的挑战

B：对实时性的技术挑战

C：对数据中心和运维团队的挑战

D：对成本的挑战(正确答案)

下列关于hadoop的描述哪个是正确的： [单选题] *

A：Hadoop的图标是一个黄小鸭子；

B：Hadoop是由韩国人研发的；

C：CDH是hadoop的其中一个发行版本；(正确答案)

D：所有的Hadoop发行版本都是免费的。

以下哪个不属于hadoop的核心构成 [单选题] *

A:HDFS

B:MapReduce

C:Spark(正确答案)

D:YARN

大数据分布并行处理试题及答案

发布评论取消回复

最近发表

热门文章

标签列表