运行 一台机器上的 Hadoop 集群

Running a Hadoop cluster on one machine

我是 Hadoop 环境的新手。 我想知道是否可以 运行 使用虚拟机在一台机器上创建一个集群(包含 2 或 3 个节点)。

欢迎任何澄清。

谢谢。

来自Virtual Hadoop Wiki

Cloud and virtualization need to be examined separately, but in all cases the answer is "Yes you can virtualize, and yes, you can deploy to the cloud, but you need to know the consequences and plan accordingly".

此 wiki 页面是您开始思考如何在 VM 上设置 Hadoop 的好地方。

是的,我们可以在一台机器上安装许多 VM。但是,如果我们考虑(例如)cloudera VM 4.7,则每个都需要 4 Gb 的 RAM。所以对于 3 个 VM 的 3*4 = 12 gb。而且,除了您的机器有 运行 的应用程序之外,它至少需要 2 Gb。所以总的来说你需要 14+ gb 的 ram 。并且,硬盘分区也应该做相应的。

我建议您使用伪分布式模式。 运行 一台机器上的多个虚拟机绝对没问题。但是您的 RAM 应该足以处理这些 VM 以及您的主要应用程序。在伪分布式模式下,我们将能够模拟多节点集群,但唯一的区别是所有守护进程,如 Namenode、Resource manager、Data node、Node manager 在不同的机器上使用单个 JVM 而不是 运行。

https://hadoop.apache.org/docs/r1.2.1/single_node_setup.html