在 Hive 之外聚合是更好的选择吗？

Is aggregating outside of Hive a better choice?

db2
hadoop
hive
hiveql

我有更多的概念性问题。我正在使用 Hive 提取数据，然后我想将所有检索到的值插入到 IBM BigSQL（基本上是 DB2）中，以便聚合数据为 easier/faster。所以我想在 Hive 中创建一个视图，我将使用每晚执行 CTAS，这样我就可以获取 table 并将其迁移到 db2 并进行其余的聚合。有更好的做法吗？我想做所有事情，包括在 Hive 中聚合，但速度非常慢。

感谢您的建议！

考虑到您正在使用 Cloudera，您是否有理由不在 Impala 中执行聚合？将 json 数据转换为镶木地板（如果没有很多嵌套结构，我会推荐这样做）应该不会很昂贵。另一种选择取决于您正在进行的聚合类型是使用 Spark 转换数据（也将取决于您的集群大小）。我想给你更具体的提示，但不知道你在做什么聚合是复杂的

在 Hive 之外聚合是更好的选择吗？

Is aggregating outside of Hive a better choice?

db2

hadoop

hive

hiveql