Mapreduce 并行副本与 http 线程
Mapreduce parallel copies vs http threads
我无法了解以下 2 个 mapreduce 作业配置属性之间的差异。
mapreduce.reduce.shuffle.parallelcopies
mapreduce.tasktracker.http.threads
mapreduce.reduce.shuffle.parallelcopies 是在复制(洗牌)阶段通过 reduce 进行的并行传输数 运行。
mapreduce.tasktracker.http.threads 是 http 服务器的工作线程数。这用于地图输出获取。
parallelcopies 表示并行传输的数量,我猜它指的是一次将 map 输出并行传输到 reducer。 http threads 表示要在 reducer 中 运行ning 复制 map 输出的 http 线程数。
我无法区分这 2 个属性,对我来说似乎是相同的,因为它们都与 reducer 的提取器数量有关。
请帮助我了解这些属性的实际用途以及它们将如何提供帮助?
下图让您了解 mapreduce 程序的流程。
map tack 节点 运行 map 任务将通过 HTTP 线程提供输出文件,此类线程的数量将由 mapreduce.tasktracker.http.threads 控制.默认情况下它是 40,意味着一个 tasktracker 将通过 40 个 http 线程获取数据。因此它可以同时为 40 个减速器(最少)提供服务。
一旦数据在 map 端 reducer 可用,就从每个 mapper 节点复制它们。所以一次他们必须从许多节点复制。为了利用所有系统资源并减少复制中间数据的时间,reducer 将并行执行此操作。此并行副本数由 mapreduce.reduce.shuffle.parallelcopies 控制。默认为 5,因此一个 reducer 可以并行复制 5 个 map 输出。
我无法了解以下 2 个 mapreduce 作业配置属性之间的差异。
mapreduce.reduce.shuffle.parallelcopies
mapreduce.tasktracker.http.threads
mapreduce.reduce.shuffle.parallelcopies 是在复制(洗牌)阶段通过 reduce 进行的并行传输数 运行。
mapreduce.tasktracker.http.threads 是 http 服务器的工作线程数。这用于地图输出获取。
parallelcopies 表示并行传输的数量,我猜它指的是一次将 map 输出并行传输到 reducer。 http threads 表示要在 reducer 中 运行ning 复制 map 输出的 http 线程数。
我无法区分这 2 个属性,对我来说似乎是相同的,因为它们都与 reducer 的提取器数量有关。
请帮助我了解这些属性的实际用途以及它们将如何提供帮助?
下图让您了解 mapreduce 程序的流程。
map tack 节点 运行 map 任务将通过 HTTP 线程提供输出文件,此类线程的数量将由 mapreduce.tasktracker.http.threads 控制.默认情况下它是 40,意味着一个 tasktracker 将通过 40 个 http 线程获取数据。因此它可以同时为 40 个减速器(最少)提供服务。
一旦数据在 map 端 reducer 可用,就从每个 mapper 节点复制它们。所以一次他们必须从许多节点复制。为了利用所有系统资源并减少复制中间数据的时间,reducer 将并行执行此操作。此并行副本数由 mapreduce.reduce.shuffle.parallelcopies 控制。默认为 5,因此一个 reducer 可以并行复制 5 个 map 输出。