Apache Spark - 控制映射函数的调度

Apache Spark - Controlling scheduling of map functions

我有一个 3 节点集群，我正在尝试制定一个基准。用例是，对于一个应用程序，所有映射函数都需要运行在特定机器上，所有 reduce 函数都在另一台机器上。

Spark中有没有什么调度属性可以实现的

可能有一种非常 "bad" 的方法。

运行特定 m/c 上的减速器更棘手。因为你要求的是m/cB活着（为了数据）但不参与执行。

（Reynold Xin 在 2014 Spark summit 期间展示了此技术来解决掉队者，但这里我们使用它来创建掉队者:)）

如前所述，这违背了 Spark 的目的。你甚至不应该尝试这样做。提示：Spark != Hadoop MR :)