如何在 GCP Apache Spark Dataproc 集群上将 Apache Hive 升级到版本 3

Question

出于某种原因，我想在 Google Cloud Dataproc(1.4.3) Spark Cluster 上将 Apache Hive 的版本从 2.3.4 升级到 3。如何升级 Hive 的版本同时保持与 Cloud Dataproc 工具的兼容性？

Answer 1

遗憾的是，没有真正的方法保证与此类自定义的兼容性，并且已知与 currently released spark versions being able to talk to Hive 3.x 不兼容，因此您可能运行遇到问题除非您已经设法 cross-compile 自己需要的所有版本。

无论如何，如果您只想让有限的功能子集正常工作，最简单的方法就是将您的自定义 jar 文件转储到：

/usr/lib/hive/lib/

通过 init 操作在您的所有节点上。执行此操作后您可能需要重新启动主节点以更新 Hive metastore 和 Hiveserver2，或者至少运行ning:

sudo systemctl restart hive-metastore
sudo systemctl restart hive-server2

在你的主节点上。

对于 Spark 问题，您可能还需要自定义构建 Spark 并替换以下 jar 文件：

/usr/lib/spark/jars/

How can I upgrade Apache Hive to version 3 on GCP Apache Spark Dataproc Cluster