Dataproc:HDFS 上的热数据,Cloud Storage 上的冷数据?

Dataproc: Hot data on HDFS, cold data on Cloud Storage?

我正在攻读专业数据工程师,我想知道 Dataproc 上的热点数据 "Google recommended best practice" 是什么(假设成本不重要)?

如果成本是一个问题,那么我找到了将所有数据存储在云存储中的建议,因为它更便宜。

能不能建立一个机制,让所有的数据都在云存储上,最近的数据自动缓存在HDFS上?类似于 AWS 对 FSx/Lustre 和 S3 所做的事情。

在 HDFS 中存储什么以及在 GCS 中存储什么是一个视情况而定的问题。 Dataproc 在 GCS connector 的 GCS 上支持 运行 hadoop 或 spark 作业,这使得 Cloud Storage HDFS 兼容而没有性能损失。

Cloud Storage 连接器默认安装在所有 Dataproc 集群节点上,并且在 Spark 和 PySpark 环境中都可用。

经过一番研究:HDFS 和 Cloud Storage(或任何其他博客商店)的性能并不完全相同。例如,blob 存储中的 "mv" 操作被模拟为复制 + 删除。

What the ASF can do is warn that our own BlobStore filesystems (currently s3:, s3n: and swift:) are not complete replacements for hdfs:, as operations such as rename() are only emulated through copying then deleting all operations, and so a directory rename is not atomic -a requirement of POSIX filesystems which some applications (MapReduce) currently depend on.

来源:https://cwiki.apache.org/confluence/display/HADOOP2/HCFS