在 Hadoop 或分布式计算框架中管理多个集群

Manage multiple clusters in Hadoop OR Distributed Computing Framework

我有五台联网的电脑。其中一台为主控机,四台为从机。

每台从机都有自己的一组数据(一个很大的整数矩阵)。我想 运行 在四个不同的从机中使用四个不同的集群程序。然后,将结果带回上位机进行进一步处理(如可视化)。

我最初想用Hadoop。但是,我找不到任何好的方法将上述问题(特别是输出结果)转换到 Map Reduce 框架中。

有没有什么好的开源分布式计算框架可以轻松完成上述任务?

提前致谢。

您应该使用 YARN 来管理多个集群或资源

YARN 是企业 Hadoop 的先决条件,提供资源管理和中央平台,以跨 Hadoop 集群提供一致的操作、安全和数据治理工具。

Reference

看来你已经在每个节点上存储了数据,所以你已经解决了问题的"distributed storage"部分。

由于每个节点的数据集不同,所以这也不是并行处理问题。

在我看来,您不需要 Hadoop 或任何其他大数据框架。但是,您可以通过将代码带到数据中来接受 Hadoop 的理念。您 运行 每个节点上的聚类算法,然后以您需要的任何方式处理结果。需要注意的是,如果您在加载数据和 运行 在每个节点上使用聚类算法时也遇到问题,但这是一个不同的问题。