dataproc 如何与 google 云存储一起使用?

How dataproc works with google cloud storage?

我正在寻找 google dataproc 与 GCS 的工作。我正在使用 dataproc 的 pyspark。读取和写入数据 GCS.But 无法找出适合我的用例的最佳机器类型。问题

1) dataproc 上的spark 是否将数据复制到本地磁盘?例如如果我正在处理 2 TB 的数据,如果我使用 4 个机器节点和 200GB 硬盘可以吗?或者我至少应该提供可以保存输入数据的磁盘?

2)如果本地盘根本不用,那么可以使用高内存低盘实例吗?

3) 如果使用本地磁盘,那么哪种实例类型适合以尽可能少的节点数处理 2 TB 的数据?我的意思是用 SSD 好吗?

谢谢

马尼什

Spark 将数据直接读入内存 and/or 磁盘,具体取决于您使用的是 RDD 还是 DataFrame。您应该至少有足够的磁盘来保存所有数据。如果您正在执行连接,则需要增加磁盘数量来处理随机溢出。

如果您通过过滤丢弃大量数据,则此等式会发生变化。

无论您使用 pd-standard、pd-ssd 还是 local-ssd 都取决于成本,以及您的应用程序是 CPU 还是 IO bound。

磁盘 IOPS 与磁盘大小成正比,因此不建议使用非常小的磁盘。请记住,磁盘(相对于 CPU)很便宜。

同样的建议适用于网络 IO:更多 CPUs = 更多带宽。

最后,默认 Dataproc 设置是开始试验和调整设置的合理起点。

来源:https://cloud.google.com/compute/docs/disks/performance