首页 > 行业知识> 媒体/传播

网友您好，请在下方输入框内输入要搜索的题目：

请输入或粘贴题目内容搜题

搜题

拍照、语音搜题，请扫码下载APP

题目内容（请给出正确答案）

[单选题]

在MapReduce中Shuffle的主要作用是（)。

A.将数据进行拆分

B.对映射后的数据进行排序,然后输入到Reducer

C.经过映射后的输出数据会被排序，然后每个映射器会进行分区

D.通过实现自定义的Partitioner来指定哪些数据进入哪个Reducer

答案

查看答案

发布时间：2022-10-13

更多“在MapReduce中Shuffle的主要作用是()。”相关的问题

第1题

MapReduce中最优的Reduce任务个数取决于集群中可用的（)的数目。

A.Split

B.Slot

C.Map

D.Shuffle

点击查看答案

第2题

传统的MapReduce模型要求每一轮MapReduce操作之后，数据必须落地到分布式文件系统上。而一般的MapReduce应用通常由多个MapReduce作业组成，每个作业结束之后需要写入磁盘，接下去的Map任务很多情况下只是读一遍数据，为后续的Shuffle阶段做准备，这样其实造成了冗余的IO操作。为了解决这一问题，提供更优的性能，大数据计算服务提供了扩展的MapReduce模型，该模型区别于普通MapReduce模型的主要特点是：()。

A.支持Map后连接任意多个Reduce操作，如Map-Reduce-Reduce

B.支持Map后不连接Reduce，而是连接另一个map，如Map-Map-Reduce

C.支持ChainMapper/Reducer，即支持Map-Reduce-Map-Reduce

D.支持没有Map，直接进入Reduce

点击查看答案

第3题

关于Hive和Hadoop其他组件的关系，描述正确的是（)

A.Hive最终将数据存储在HDFS中

B.HiveSQL其本质是执行的MapReduce任务

C.Hive是Hadoop平台的数据仓库工具

D.Hive对HBase有强依赖

点击查看答案

第4题

大数据中可以用来实现流计算的技术是（)

A.HIVE

B.Stormstreaming

C.MapReduce

D.Spark

点击查看答案

第5题

关于DataSet，下列说法不正确的是:（)。

A.DataSet不需要反序列化就可以执行大部分操作

B.DataSet是一个由特定域的对象组成的强类型集合

C.DataSet与RDD高度类似，性能比RDD好

D.DataSet执行sort，filter，shuffle登录需要进行反序列化

点击查看答案

第6题

配置机架感知的下面哪项正确（)

A.写入数据的时候会写到不同机架的DataNode中

B.如果一个机架出问题，不会影响数据读写

C.MapReduce会根据机架获取离自己比较近的网络数据

D.机架感知是Hadoop默认配置，无需再做配置设置

点击查看答案

第7题

关于Maxcompute中的任务（Instance)、作业（Job)、作业实例（Instance)以及工作流（Workflow)描述错误的是：（)。

A.Job是个静态的概念，被提交到系统开始执行时，该Job就拥有一个Instance

B.工作流描述了Job中各个Instance之间的依赖关系和运行约束，本质是个DAG(有向无环图)

C.单个SQLquery、命令或者MapReduce程序统称为一个Task

D.Instance是个动态概念，每个Instance只能运行一次

点击查看答案

第8题

MapReduce的工作原理是先分后合的数据处理方式。（)

点击查看答案

第9题

YARN和MapReduce的关系是（)

A.MapReduce是一个计算框架，可运行在YARN之上

B.YARN是一个计算框架，可运行在MapReduce之上

C.MapReduce和YARN无直接关系

D.以上回答均不正确

点击查看答案

第10题

spark是hadoop生态下哪个组件的替代方案（)

A.Hadoop

B.Yarn

C.HDFS

D.MapReduce

点击查看答案

第11题

Zookeeper是Hadoop和（)的重要组件

A.Hive

B.MapReduce

C.HDFS

D.HBASE

点击查看答案

账号：尚未登录

登录没有账号？去注册

购买搜题卡

下载APP

关注公众号

TOP