远程连接 apache spark 和 apache hive。
connecting apache spark with apache hive remotely.
我可以从安装了 apache spark 的同一集群中的 hive 服务器加载数据。但是我如何从远程配置单元服务器将数据加载到数据框中。蜂巢 jdbc 连接器是这样做的唯一选择吗?
有什么建议我该怎么做?
您可以使用 org.apache.spark.sql.hive.HiveContext
对 Hive 表执行 SQL 查询。
您也可以将spark连接到真正存储数据的底层HDFS目录。这将提高性能,因为 SQL 查询不需要解析或模式应用于文件。
如果集群是外部集群,
我可以从安装了 apache spark 的同一集群中的 hive 服务器加载数据。但是我如何从远程配置单元服务器将数据加载到数据框中。蜂巢 jdbc 连接器是这样做的唯一选择吗?
有什么建议我该怎么做?
您可以使用 org.apache.spark.sql.hive.HiveContext
对 Hive 表执行 SQL 查询。
您也可以将spark连接到真正存储数据的底层HDFS目录。这将提高性能,因为 SQL 查询不需要解析或模式应用于文件。
如果集群是外部集群,