如何将 On Prem Hadoop 迁移到 GCP
How to migrate On Prem Hadoop to GCP
我正在尝试将我们组织的 hadoop 作业迁移到 GCP...我对 GCP 数据流和数据处理感到困惑...
我想重新使用我们已经创建的 Hadoop 作业,并尽可能减少集群的管理。我们还希望能够在集群生命周期之外保留数据...
谁能推荐一下
在很大程度上取决于您的 Hadoop 作业的性质以及您在选择 Cloud Dataproc(托管大数据平台 - Hadoop/Spark 方向)方面执行的活动 and/or Cloud Dataflow (托管大数据平台 - Apache Beam 面向流式用例的定位)。
关于确保数据在操作之外的持久性,您可能需要考虑将数据存储在 GCS 或 PD 上,如果这是您用例需要的选项。
我将从 DataProc 开始,因为它与您所拥有的非常接近。
查看 DataProc 初始化操作,https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions,创建一个简单的集群并感受一下。
DataFlow 是完全托管的,您不操作任何集群资源,但同时您不能将现场集群原样迁移到 DataFlow,您需要迁移(有时重写)您的 Hive/Pig/Oozie等等
DataFlow 的成本计算方式也不同,尽管与 DataProc 相比没有前期成本,但每次您 运行 一项工作都会在 DataFlow 上产生一些与之相关的成本。
我正在尝试将我们组织的 hadoop 作业迁移到 GCP...我对 GCP 数据流和数据处理感到困惑...
我想重新使用我们已经创建的 Hadoop 作业,并尽可能减少集群的管理。我们还希望能够在集群生命周期之外保留数据...
谁能推荐一下
在很大程度上取决于您的 Hadoop 作业的性质以及您在选择 Cloud Dataproc(托管大数据平台 - Hadoop/Spark 方向)方面执行的活动 and/or Cloud Dataflow (托管大数据平台 - Apache Beam 面向流式用例的定位)。
关于确保数据在操作之外的持久性,您可能需要考虑将数据存储在 GCS 或 PD 上,如果这是您用例需要的选项。
我将从 DataProc 开始,因为它与您所拥有的非常接近。
查看 DataProc 初始化操作,https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions,创建一个简单的集群并感受一下。
DataFlow 是完全托管的,您不操作任何集群资源,但同时您不能将现场集群原样迁移到 DataFlow,您需要迁移(有时重写)您的 Hive/Pig/Oozie等等
DataFlow 的成本计算方式也不同,尽管与 DataProc 相比没有前期成本,但每次您 运行 一项工作都会在 DataFlow 上产生一些与之相关的成本。