什么时候数据大到可以使用 Hadoop?

When is data big enough to use Hadoop?

我的雇主运行一个 Hadoop 集群,由于我们的数据很少超过 1GB,我发现很少需要 Hadoop 来满足我们办公室的需求(这不是大数据),但我的雇主似乎想要能够说我们正在使用我们的 Hadoop 集群,所以我们正在积极寻找需要使用我们强大的工具进行分析的数据。

我看到一些报告说任何小于 5tb 的东西都不应该使用 hadoop。 Hadoop 成为数据分析实用解决方案的神奇规模是多少?

没有像魔法大小这样的东西。 Hadoop 不仅仅是关于数据量,它包括资源和处理"cost"。这与解析文本文件需要大量内存和 CPU 的图像不同。并且 haoop 被用于两者。

要证明使用 hadoop 的合理性,您需要回答以下问题:

  • 您的流程是否能够 运行 在一台机器上并按时完成工作?
  • 您的数据增长速度有多快?

每天读取一次 5TB 生成报告与每秒读取 1GB 十次来自面向 API 的客户是不一样的。但是如果你以前没有遇到过这类问题,很可能你不需要使用 hadoop 来处理你的 1GB :)