Dataproc：HDFS 上的热数据，Cloud Storage 上的冷数据？

Dataproc: Hot data on HDFS, cold data on Cloud Storage?

google-cloud-dataproc

我正在攻读专业数据工程师，我想知道 Dataproc 上的热点数据 "Google recommended best practice" 是什么（假设成本不重要）？

如果成本是一个问题，那么我找到了将所有数据存储在云存储中的建议，因为它更便宜。

能不能建立一个机制，让所有的数据都在云存储上，最近的数据自动缓存在HDFS上？类似于 AWS 对 FSx/Lustre 和 S3 所做的事情。

在 HDFS 中存储什么以及在 GCS 中存储什么是一个视情况而定的问题。 Dataproc 在 GCS connector 的 GCS 上支持运行 hadoop 或 spark 作业，这使得 Cloud Storage HDFS 兼容而没有性能损失。

Cloud Storage 连接器默认安装在所有 Dataproc 集群节点上，并且在 Spark 和 PySpark 环境中都可用。

经过一番研究：HDFS 和 Cloud Storage（或任何其他博客商店）的性能并不完全相同。例如，blob 存储中的 "mv" 操作被模拟为复制 + 删除。

What the ASF can do is warn that our own BlobStore filesystems (currently s3:, s3n: and swift:) are not complete replacements for hdfs:, as operations such as rename() are only emulated through copying then deleting all operations, and so a directory rename is not atomic -a requirement of POSIX filesystems which some applications (MapReduce) currently depend on.

来源：https://cwiki.apache.org/confluence/display/HADOOP2/HCFS

Dataproc：HDFS 上的热数据，Cloud Storage 上的冷数据？

Dataproc: Hot data on HDFS, cold data on Cloud Storage?

google-cloud-dataproc