选择题
- 设计分布式数据仓库 Hive 的数据表时,为取样更高效,一般可以对表中的连续字段进行分桶操作。
- 客户端首次查询 HBase 数据库时,首先需要从
-ROOT-
表开始查找。 - HBase 的 Region 组成中,必须要有MemStore项。
- HBase 是分布式列式存储系统,记录按列族集中存放。
- HBase 数据库的 BlockCache 缓存的数据块中,普通的数据块不一定能提高效率。
- 视频监控数据属于非结构化数据
- MapReduce 编程模型,键值对
<key, value>
的 key 必须实现WritableComparable
- 若不针对 MapReduce 编程模型中的 key 和 value 值进行特别设置,Average 是 MapReduce 不适宜的运算。
- 在实验集群的 master 节点使用 jps 命令查看进程时,终端出现
Namenode,JobTracker, Secondary NameNode
能说明 Hadoop 主节点启动成功 - Client 端上传文件的时候下列哪项正确?B
- A. 数据经过 NameNode 传递给 DataNode
- B. Client 端将文件切分为 Block,依次上传
- C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
- D. 以上都不正确
- Hadoop1.0 默认的调度器策略是先进先出调度器
- JobTracker负责 MapReduce 任务调度
- HDFS1.0 默认 Block Size 大小是 64MB
- HDFS 中的 block 默认保存3个备份
- Datanode负责 HDFS 数据存储。
判断题
- Hadoop 支持数据的随机读写。(错,Hbase 支持,Hadoop 不支持)
- NameNode 负责管理元数据信息 metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。(错,内存中读取)
- MapReduce 的 input split 一定是一个 block。(错,默认是)
- MapReduce 适于 PB 级别以上的海量数据在线处理。(错,离线)
- 链式 MapReduce 计算中,对任意一个 MapReduce 作业,Map 和 Reduce 阶段可以有无限个 Mapper,但 Reducer 只能有一个。( 对)
- MapReduce 计算过程中,相同的 key 默认会被发送到同一个 reduce task 处理。(对)
- HBase 对于 NULL 的列,不需要占用存储空间。(没有则空不存储,对)
- HBase 可以有列,可以没有列族(column family)。(错,有列族)