将大文件摄取到单节点 Hadoop 上的 Hive

Ingesting large files into Hive on a single node Hadoop

我想定期将大型 csv 文件（最多 6 GB）提取到具有 32 GB RAM 的 Hadoop 单节点中。他们的关键要求是在 HCatalog 中注册数据。（请不要讨论需求，它是一个功能演示）。性能不是必需的。蜂巢表应分区。

到目前为止，我一直在使用 Pig。到目前为止的经验教训是，主要的挑战是堆。生成的 MapReduce 作业会快速填满堆，一旦 Java 达到 98% 的垃圾收集时间，就会发生溢出。

一个解决方案可能是将大文件分成小块......但是，我也认为与 Pig 不同的技术可能不会填满堆。关于如何处理此类用例的任何想法？谢谢

最好的办法是使用 HiveQL 而不是 Pig(LOAD)。它仅基于文件传输，没有 MR 作业