数据分布并行处理试题及答案
RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,只能通过文件创建。 [判断题]
(正确答案)
spark中的map和flatmap算子的区别是flatmap可以返回多条元素 [判断题]
(正确答案)
下面哪个算子容易导致driver端内存溢出? [单选题]
map
count
collect(正确答案)
take
哪一种持久化策略表示只存储到内存,并且不序列化。 [单选题]
MEMORY_ONLY(正确答案)
cache()
MEMORY_AND_DISK
MEMORY_ONLY_SER
spark中的广播变量可以保证每个Executor内部只保存1份变量数据。 [判断题]
(正确答案)
spark中在划分Stage的时候,遇到窄依赖就会划分出前后两个Stage。 [判断题]
(正确答案)
spark中的持久化,只是将数据保存在内存中或者本地磁盘文件中,RDD的lineage(血缘关系)是不变的。 [判断题]
(正确答案)
HBase属于基于键值对类型的NoSQL数据库。 [判断题]
(正确答案)
针对HBase的应用场景的介绍,错误的是: [单选题]
适合半结构和非结构数据
适合存储记录稀疏的数据
适合存储多版本数据
适合海量数据分析(正确答案)
HBase中不支持数字和字符串数据类型。 [判断题]
(正确答案)
HBase中,每一行数据中的Rowkey字段不是必须的,可以为null。 [判断题]
(正确答案)
HBase中在建表的时候,列族必须指定,并且后期无法修改。 [判断题]
(正确答案)
HBase中,针对具有多个历史版本数据的字段,会按照时间戳正序排序。 [判断题]
(正确答案)
HBase中的数据是按照Rowkey正序排序存储的。 [判断题]
(正确答案)
向HBase的表t1中添加数据,写法正确的是: [单选题]
put 't1','rowkey1','info','abc'
put 't1','rowkey1','info','age:abc'
put 't1','rowkey1','level:abc','age:xyz'
put 't1','rowkey1','level:abc','xyz'(正确答案)
HBase中,如果一个列族中如果有3列,那么这3列会分到几个文件中存储? [单选题]
1(正确答案)
2
3
4
HRegionServer包含了HLog和? [单选题]
HRegion(正确答案)
HMaster
HDFS
Data
HStore包含两部分: StoreFile和? [单选题]
HFile
HRegion
HMaster
MemStore(正确答案)
minor合并时会忽略之前标记为删除状态的数据。 [判断题]
(正确答案)
排序题HBase中,若MemStore中的数据有丢失,则可以从HLog上恢复。 [判断题]
(正确答案)
HBase中一张表中包含以下几个Region: [10,20],[20,30],[30, +∞],那么222将属于Region [30,+ ∞] 。() [单选题] *
A、对
B、错(正确答案)
下列哪个不是大数据的特征? [单选题] *
A:数据量大
B:数据类型多
C:价值密度低
D:安全性要求高(正确答案)
E:处理速度快
大数据带来的主要挑战不包括哪一个: [单选题] *
A:对现有数据库的挑战
B:对实时性的技术挑战
C:对数据中心和运维团队的挑战
D:对成本的挑战(正确答案)
下列关于hadoop的描述哪个是正确的: [单选题] *
A:Hadoop的图标是一个黄小鸭子;
B:Hadoop是由韩国人研发的;
C:CDH是hadoop的其中一个发行版本;(正确答案)
D:所有的Hadoop发行版本都是免费的。
以下哪个不属于hadoop的核心构成 [单选题] *
A:HDFS
B:MapReduce
C:Spark(正确答案)
D:YARN