Google 云、集群或无集群上的 Apache Spark
Apache Spark on Google Cloud, Cluster or no Cluster
我想使用 Apache Spark 来处理 Google 云中的大量数据。
我按照文档启动了一个具有 5 个节点的 Cloud Dataproc 集群。一切都完美无缺。
但我的数据在 Google Cloud Storage 上,我了解到我可以使用 Spark 直接查询它,这是 Google 推荐的。
那么,是否需要启动整个集群? Spark 在 Google Cloud Storage 上和在 HDFS 上一样高效吗?
如果没有,只需使用 Jupyter 和 Spark 旋转一个大型 VM 并将其用于 运行 存储在 GCS 上的数据的作业会更容易。
在 Dataproc 集群上,您可以使用 Spark 处理来自 HDFS 和 GCS(Google 云存储)的数据,两者同样高效。集群的大小需要根据您计划在 Spark 作业中执行的计算来决定。在比较一个大型 VM 与多个(较小的)VM 时,您需要考虑一系列权衡 - 主要是垂直扩展(使用一个 VM)的上限。
如果您只需要分析来自 Google Cloud Storage 的数据,我建议您在需要时在 dataproc 上创建一个集群。但还是要看这份工作需要多长时间,以及你做这份工作的频率。
例如,您有一个每小时计划的 ETL 作业。您可以每小时创建一个新的集群,并在工作完成后删除。这是非常划算的。
我想使用 Apache Spark 来处理 Google 云中的大量数据。
我按照文档启动了一个具有 5 个节点的 Cloud Dataproc 集群。一切都完美无缺。
但我的数据在 Google Cloud Storage 上,我了解到我可以使用 Spark 直接查询它,这是 Google 推荐的。
那么,是否需要启动整个集群? Spark 在 Google Cloud Storage 上和在 HDFS 上一样高效吗?
如果没有,只需使用 Jupyter 和 Spark 旋转一个大型 VM 并将其用于 运行 存储在 GCS 上的数据的作业会更容易。
在 Dataproc 集群上,您可以使用 Spark 处理来自 HDFS 和 GCS(Google 云存储)的数据,两者同样高效。集群的大小需要根据您计划在 Spark 作业中执行的计算来决定。在比较一个大型 VM 与多个(较小的)VM 时,您需要考虑一系列权衡 - 主要是垂直扩展(使用一个 VM)的上限。
如果您只需要分析来自 Google Cloud Storage 的数据,我建议您在需要时在 dataproc 上创建一个集群。但还是要看这份工作需要多长时间,以及你做这份工作的频率。
例如,您有一个每小时计划的 ETL 作业。您可以每小时创建一个新的集群,并在工作完成后删除。这是非常划算的。