NiFi 或 Streamsets 从 HBase 读取,加入平面文件中的内容并写入 Hive

NiFi or Streamsets to read from HBase , join with content from flat file and write to Hive

试图弄清楚是否可以使用 apache NiFi 或 Streamsets 实现连接。这样我就可以定期从 HBase 中读取,与其他 table 加入并将几个字段写入 Hive table。

或者有没有其他工作流管理器工具支持这个操作?

我不熟悉 Streamsets,但我会尽力帮助 NiFi。您的平面文件是静态的吗?如果是这样,您是否希望直接替换值?您应该能够使用 ReplaceTextWithMapping processor for that. If not a straight replace, you could pre-populate a DistributedMapCache with the values from the flat file, then use FetchDistributedMapCache 对 HBase 记录进行查找。

如果一切都失败了,那么如果您熟悉 Groovy、Javascript 或 Jython 等脚本语言,您可以使用 [=11 编写 "join" 部分=].

在支持 CSV 文件、属性文件和内存查找的 lookup/enrichment 处理器上有一个 open Jira case(取得了一些良好的进展)。