在 Hadoop 或分布式计算框架中管理多个集群

Manage multiple clusters in Hadoop OR Distributed Computing Framework

我有五台联网的电脑。其中一台为主控机，四台为从机。

每台从机都有自己的一组数据（一个很大的整数矩阵）。我想运行在四个不同的从机中使用四个不同的集群程序。然后，将结果带回上位机进行进一步处理（如可视化）。

我最初想用Hadoop。但是，我找不到任何好的方法将上述问题（特别是输出结果）转换到 Map Reduce 框架中。

有没有什么好的开源分布式计算框架可以轻松完成上述任务？

提前致谢。

您应该使用 YARN 来管理多个集群或资源

YARN 是企业 Hadoop 的先决条件，提供资源管理和中央平台，以跨 Hadoop 集群提供一致的操作、安全和数据治理工具。

看来你已经在每个节点上存储了数据，所以你已经解决了问题的"distributed storage"部分。

由于每个节点的数据集不同，所以这也不是并行处理问题。

在我看来，您不需要 Hadoop 或任何其他大数据框架。但是，您可以通过将代码带到数据中来接受 Hadoop 的理念。您运行每个节点上的聚类算法，然后以您需要的任何方式处理结果。需要注意的是，如果您在加载数据和运行在每个节点上使用聚类算法时也遇到问题，但这是一个不同的问题。