如何在 GCP Apache Spark Dataproc 集群上将 Apache Hive 升级到版本 3
How can I upgrade Apache Hive to version 3 on GCP Apache Spark Dataproc Cluster
出于某种原因,我想在 Google Cloud Dataproc(1.4.3) Spark Cluster 上将 Apache Hive 的版本从 2.3.4 升级到 3。如何升级 Hive 的版本同时保持与 Cloud Dataproc 工具的兼容性?
遗憾的是,没有真正的方法保证与此类自定义的兼容性,并且已知与 currently released spark versions being able to talk to Hive 3.x 不兼容,因此您可能 运行 遇到问题除非您已经设法 cross-compile 自己需要的所有版本。
无论如何,如果您只想让有限的功能子集正常工作,最简单的方法就是将您的自定义 jar 文件转储到:
/usr/lib/hive/lib/
通过 init 操作在您的所有节点上。执行此操作后您可能需要重新启动主节点以更新 Hive metastore 和 Hiveserver2,或者至少 运行ning:
sudo systemctl restart hive-metastore
sudo systemctl restart hive-server2
在你的主节点上。
对于 Spark 问题,您可能还需要自定义构建 Spark 并替换以下 jar 文件:
/usr/lib/spark/jars/
出于某种原因,我想在 Google Cloud Dataproc(1.4.3) Spark Cluster 上将 Apache Hive 的版本从 2.3.4 升级到 3。如何升级 Hive 的版本同时保持与 Cloud Dataproc 工具的兼容性?
遗憾的是,没有真正的方法保证与此类自定义的兼容性,并且已知与 currently released spark versions being able to talk to Hive 3.x 不兼容,因此您可能 运行 遇到问题除非您已经设法 cross-compile 自己需要的所有版本。
无论如何,如果您只想让有限的功能子集正常工作,最简单的方法就是将您的自定义 jar 文件转储到:
/usr/lib/hive/lib/
通过 init 操作在您的所有节点上。执行此操作后您可能需要重新启动主节点以更新 Hive metastore 和 Hiveserver2,或者至少 运行ning:
sudo systemctl restart hive-metastore
sudo systemctl restart hive-server2
在你的主节点上。
对于 Spark 问题,您可能还需要自定义构建 Spark 并替换以下 jar 文件:
/usr/lib/spark/jars/