Impala 或者使用 SPARK 作为执行引擎的配置单元?
Impala OR hive with SPARK as execution engine?
我想设计从 HDFS 获取数据的 Web UI。我想使用存储在 HDFS 中的这些数据生成一些报告。我有自己的自定义报告格式。我正在编写 REST API 来获取数据。但是 运行 HIVE 查询给出了延迟问题因此我想要不同的方法,我可以想到两个。
使用IMPALA 创建表。但我不确定 IMPALA.
的 REST 支持
使用 HIVE 而不是 MR 使用 SPARK 作为执行引擎。 .
spark-job-server 提供 REST 支持,使用 SPARK 获取数据-SQL.
哪种方法适合,或者有更好的方法吗?
请任何人帮忙,因为我是新手。
如果延迟是主要考虑因素,我更愿意选择 impala。它专用于 hdfs 上的 SQL 处理并且做得很好。关于 REST api 和你正在实现的应用程序逻辑,这似乎是一个很好的 example
我想设计从 HDFS 获取数据的 Web UI。我想使用存储在 HDFS 中的这些数据生成一些报告。我有自己的自定义报告格式。我正在编写 REST API 来获取数据。但是 运行 HIVE 查询给出了延迟问题因此我想要不同的方法,我可以想到两个。
使用IMPALA 创建表。但我不确定 IMPALA.
的 REST 支持
使用 HIVE 而不是 MR 使用 SPARK 作为执行引擎。 .
spark-job-server 提供 REST 支持,使用 SPARK 获取数据-SQL.
哪种方法适合,或者有更好的方法吗? 请任何人帮忙,因为我是新手。
如果延迟是主要考虑因素,我更愿意选择 impala。它专用于 hdfs 上的 SQL 处理并且做得很好。关于 REST api 和你正在实现的应用程序逻辑,这似乎是一个很好的 example