将大文件摄取到单节点 Hadoop 上的 Hive
Ingesting large files into Hive on a single node Hadoop
我想定期将大型 csv 文件(最多 6 GB)提取到具有 32 GB RAM 的 Hadoop 单节点中。他们的关键要求是在 HCatalog 中注册数据。 (请不要讨论需求,它是一个功能演示)。性能不是必需的。蜂巢表应分区。
到目前为止,我一直在使用 Pig。到目前为止的经验教训是,主要的挑战是堆。生成的 MapReduce 作业会快速填满堆,一旦 Java 达到 98% 的垃圾收集时间,就会发生溢出。
一个解决方案可能是将大文件分成小块......但是,我也认为与 Pig 不同的技术可能不会填满堆。关于如何处理此类用例的任何想法?谢谢
最好的办法是使用 HiveQL 而不是 Pig(LOAD)。它仅基于文件传输,没有 MR 作业
我想定期将大型 csv 文件(最多 6 GB)提取到具有 32 GB RAM 的 Hadoop 单节点中。他们的关键要求是在 HCatalog 中注册数据。 (请不要讨论需求,它是一个功能演示)。性能不是必需的。蜂巢表应分区。
到目前为止,我一直在使用 Pig。到目前为止的经验教训是,主要的挑战是堆。生成的 MapReduce 作业会快速填满堆,一旦 Java 达到 98% 的垃圾收集时间,就会发生溢出。
一个解决方案可能是将大文件分成小块......但是,我也认为与 Pig 不同的技术可能不会填满堆。关于如何处理此类用例的任何想法?谢谢
最好的办法是使用 HiveQL 而不是 Pig(LOAD)。它仅基于文件传输,没有 MR 作业