我们如何使用 nifi 配置单元流处理器将 orcdata 加载到配置单元中

how can we load orcdata into hive using nifi hive streaming processor

我有 orc 文件和它们的模式 我已经尝试在本地配置单元中加载这个 orc 文件并且它工作正常,现在我将生成多个 orc 文件并且需要使用 nifi 将这个 orc 文件加载到配置单元 table放蜂巢流处理器?

PutHiveStreaming 要求传入流文件采用 Avro 格式。如果您使用的是 PutHive3Streaming,您将拥有更大的灵活性,但它不接受 ORC 格式的流文件;相反,这两个处理器都将输入转换为 ORC,并将其写入 Hive 中的托管 table。

如果您的文件已经是ORC格式,您可以使用PutHDFS将它们直接放入HDFS。如果您没有直接写入托管 table 位置的权限,您可以写入一个临时位置,在其上创建一个外部 table,然后从那里加载到托管 table 使用 INSERT INTO myTable FROM SELECT * FROM externalTable 或其他。