在 Hive 之外聚合是更好的选择吗?
Is aggregating outside of Hive a better choice?
我有更多的概念性问题。我正在使用 Hive 提取数据,然后我想将所有检索到的值插入到 IBM BigSQL(基本上是 DB2)中,以便聚合数据为 easier/faster。所以我想在 Hive 中创建一个视图,我将使用每晚执行 CTAS,这样我就可以获取 table 并将其迁移到 db2 并进行其余的聚合。
有更好的做法吗?
我想做所有事情,包括在 Hive 中聚合,但速度非常慢。
感谢您的建议!
考虑到您正在使用 Cloudera,您是否有理由不在 Impala 中执行聚合?将 json 数据转换为镶木地板(如果没有很多嵌套结构,我会推荐这样做)应该不会很昂贵。另一种选择取决于您正在进行的聚合类型是使用 Spark 转换数据(也将取决于您的集群大小)。我想给你更具体的提示,但不知道你在做什么聚合是复杂的
我有更多的概念性问题。我正在使用 Hive 提取数据,然后我想将所有检索到的值插入到 IBM BigSQL(基本上是 DB2)中,以便聚合数据为 easier/faster。所以我想在 Hive 中创建一个视图,我将使用每晚执行 CTAS,这样我就可以获取 table 并将其迁移到 db2 并进行其余的聚合。 有更好的做法吗? 我想做所有事情,包括在 Hive 中聚合,但速度非常慢。
感谢您的建议!
考虑到您正在使用 Cloudera,您是否有理由不在 Impala 中执行聚合?将 json 数据转换为镶木地板(如果没有很多嵌套结构,我会推荐这样做)应该不会很昂贵。另一种选择取决于您正在进行的聚合类型是使用 Spark 转换数据(也将取决于您的集群大小)。我想给你更具体的提示,但不知道你在做什么聚合是复杂的