SAP Spark 控制器不缓存数据

Question

我在 HDP 2.4.3 和 Spark 1.6.2

上安装了 SparkController 2.0.0 运行

在配置中我配置了这些参数：

sap.hana.es.enable.cache=true
sap.hana.es.cache.max.capacity=500
sap.hana.hadoop.datastore=Hive

我已将 HANA 1.00.122 连接到该 Spark 控制器，在 indexserver.ini 中将 enable_remote_cache 参数设置为 true，并将公开的 Hive table 之一导入为虚拟table 在 HANA 中。

然后我运行 select-statements 针对那个虚拟 table，但每次我看到没有创建缓存（Spark [=29= 的存储选项卡中没有任何内容） ])，也没有命中（查询运行时不会下降，我看到作业每次都经历相同的阶段）。

使用提示 "with hint (USE_REMOTE_CACHE)" 也无济于事。

还有什么我忘记做的设置吗？

Answer 1

为了启用从 HANA 到 Hive 的联合查询的远程缓存，您还必须设置 HANA 参数 enable_remote_cache = true

有关详细信息，请参阅本页底部：

Answer 2

根据 SAP 的说法，缓存工作的 HANA 版本应该是 2.0+。

SAP Spark Controller not caching data