Oracle Hadoop 连接器与 Sqoop

Oracle Hadoop Connectors vs Sqoop

我已经使用 Sqoop 将数据从 Oracle 提取到 Hadoop,并且运行良好。在 Sqoop 上不使用分区的情况下,将 8600 万条记录从 Oracle 带到 Hive table 只用了 4 分钟。谁能提供有关 Oracle Hadoop 连接器的一些详细信息,它的性能会比 Sqoop 好吗?

Sqoop 将利用标准 JDBC 连接。 Oracles 连接器将与集成到 sqoop 连接中的 fastloader/fastexport class 一起工作。应该比Sqoop更快。

大多数连接器的性能接近于您在工作流程的最后有一组 MapReduce 作业,这将在您的整体性能中发挥主要作用。

Oracle 提供了一组不同的连接器来访问 Hive,您可以查看关于标准解决方案的一个很好的概述,但我怀疑最终您会期望与 Sqoop 中看到的性能差异显着:

https://docs.oracle.com/cd/E37231_01/doc.20/e36961/start.htm#BDCUG119

Sqoop 是从 Hadoop 领域使用关系数据库的通用工具,它不仅限于 Oracle。此外,它还与 Oozie 等其他 Hadoop 解决方案集成,用于制作复杂的工作流,这使其成为其他类型连接器的理想选择。

就我个人而言,我更喜欢使用 Sqoop 来进行 Hadoop 驱动的导入导出操作和连接器方法来查询 Hadoop 中的数据。