PIG:如何为PARALLEL子句选择好的值?
PIG: how to choose good value for PARALLEL clause?
对于给定的集群(512GB RAM,100 个 vCore),我正在尝试最小化具有多个 "instances" 相同 PIG 脚本的工作流的执行时间。
增加 COGROUP 操作的 PARALLEL 子句值可获得更好的结果。但是,是否有公式可以为此类条款提供良好的价值? PIG 文档对此非常含糊!
不幸的是,没有明确的规则来定义 reducer 的数量,更多的可以根据经验调查 COGROUP 执行时间阶段并使用不同的 PARALELL 值(根据我的经验建议从 100 开始)。
然而,上限通常定义为 numReduces << heapSize/(2*io.buffer.size)。更多你可以找到here
对于给定的集群(512GB RAM,100 个 vCore),我正在尝试最小化具有多个 "instances" 相同 PIG 脚本的工作流的执行时间。
增加 COGROUP 操作的 PARALLEL 子句值可获得更好的结果。但是,是否有公式可以为此类条款提供良好的价值? PIG 文档对此非常含糊!
不幸的是,没有明确的规则来定义 reducer 的数量,更多的可以根据经验调查 COGROUP 执行时间阶段并使用不同的 PARALELL 值(根据我的经验建议从 100 开始)。
然而,上限通常定义为 numReduces << heapSize/(2*io.buffer.size)。更多你可以找到here