请解释一下Hadoop集群环境的高层架构?

Please explain the high level architecture of Hadoop Cluster Environment?

由于我是 Hadoop 管理的新手,我正在尝试了解实时生产系统中的 Hadoop 集群设置环境。

1) 截至今天,大多数项目 运行 是在 Hadoop v1 还是 Hadoop v2 上?

2) 对于单个项目,我们有单集群还是多集群? (我听说有多个集群,每个集群专用于特定角色。)

3) Hadoop 集群通常 运行 在像 AWS、Rackspace 这样的云上,还是 运行 在客户自己的网络上?

您提出的所有问题完全取决于客户、项目和许多其他因素。但这是我的 2 美分

1) 大部分项目已经切换到Hadoop v2。

2) 这取决于,显然在生产之前会有 1 或 2 个用于开发、测试和暂存等的环境。但是在生产中,一个项目将有一个环境,或者一个环境处理多个项目。 (雅虎拥有 4,500 个节点的 hadoop 集群)

3) 节点数量因公司处理的数据量而异。有些公司在 4 节点集群和 4000 节点集群上 运行 生产集群

4) 同样,这取决于他们存储和处理的数据类型。拥有银行等敏感信息的客户通常不会选择云,因为他们认为数据在自己的数据中心是安全的。但是一些客户他们完全选择云,因为他们节省了很多钱(比如 AWS 上的纽约时报)。