在MapReduce中Shuffle的主要作用是()。
A.将数据进行拆分
B.对映射后的数据进行排序,然后输入到Reducer
C.经过映射后的输出数据会被排序,然后每个映射器会进行分区
D.通过实现自定义的Partitioner来指定哪些数据进入哪个Reducer
A.将数据进行拆分
B.对映射后的数据进行排序,然后输入到Reducer
C.经过映射后的输出数据会被排序,然后每个映射器会进行分区
D.通过实现自定义的Partitioner来指定哪些数据进入哪个Reducer
第2题
A.支持Map后连接任意多个Reduce操作,如Map-Reduce-Reduce
B.支持Map后不连接Reduce,而是连接另一个map,如Map-Map-Reduce
C.支持ChainMapper/Reducer,即支持Map-Reduce-Map-Reduce
D.支持没有Map,直接进入Reduce
第3题
A.Hive最终将数据存储在HDFS中
B.HiveSQL其本质是执行的MapReduce任务
C.Hive是Hadoop平台的数据仓库工具
D.Hive对HBase有强依赖
第5题
A.DataSet不需要反序列化就可以执行大部分操作
B.DataSet是一个由特定域的对象组成的强类型集合
C.DataSet与RDD高度类似,性能比RDD好
D.DataSet执行sort,filter,shuffle登录需要进行反序列化
第6题
A.写入数据的时候会写到不同机架的DataNode中
B.如果一个机架出问题,不会影响数据读写
C.MapReduce会根据机架获取离自己比较近的网络数据
D.机架感知是Hadoop默认配置,无需再做配置设置
第7题
A.Job是个静态的概念,被提交到系统开始执行时,该Job就拥有一个Instance
B.工作流描述了Job中各个Instance之间的依赖关系和运行约束,本质是个DAG(有向无环图)
C.单个SQLquery、命令或者MapReduce程序统称为一个Task
D.Instance是个动态概念,每个Instance只能运行一次
第9题
A.MapReduce是一个计算框架,可运行在YARN之上
B.YARN是一个计算框架,可运行在MapReduce之上
C.MapReduce和YARN无直接关系
D.以上回答均不正确