google 云上的 dataproc 集群
dataproc cluster on google cloud
我的理解是 运行 Dataproc 集群而不是设置您自己的计算引擎集群是因为它负责安装存储连接器(和其他连接器)。它还能为您做什么?
Dataproc 除了 DIY 集群之外最重要的功能是能够通过 API、WebUI 和 CLI 提交作业(Hadoop 和 Spark jar、Hive 查询等),而无需配置棘手的网络防火墙和暴露YARN 走向世界。
Cloud Dataproc 还负责大量配置和初始化,例如为 Hive 和 Spark 设置共享 Hive Metastore。并允许在启动时指定 Hadoop、Spark 等属性。
它在大约 90 秒内启动一个集群,根据我的经验,这比大多数集群设置都快。这使您可以在不感兴趣时拆除集群,而不必等待数十分钟才能启动新集群。
我建议您查看更全面的 list of features。
我的理解是 运行 Dataproc 集群而不是设置您自己的计算引擎集群是因为它负责安装存储连接器(和其他连接器)。它还能为您做什么?
Dataproc 除了 DIY 集群之外最重要的功能是能够通过 API、WebUI 和 CLI 提交作业(Hadoop 和 Spark jar、Hive 查询等),而无需配置棘手的网络防火墙和暴露YARN 走向世界。
Cloud Dataproc 还负责大量配置和初始化,例如为 Hive 和 Spark 设置共享 Hive Metastore。并允许在启动时指定 Hadoop、Spark 等属性。
它在大约 90 秒内启动一个集群,根据我的经验,这比大多数集群设置都快。这使您可以在不感兴趣时拆除集群,而不必等待数十分钟才能启动新集群。
我建议您查看更全面的 list of features。