SQOOP 从 RDBMS 转移到 Hadoop 的速度有多快?
How fast SQOOP can transfer from RDBMS to Hadoop?
谁能告诉我,SQOOP 一次传输 20 亿条记录的速度有多快。而且我知道它一定很快,因为 sqoop 运行 是并行的,其中一些输入将在 Hadoop 上产生一些文件输出。但是我想知道MapReduce一次传输20亿条记录的速度详情
您需要了解负责将数据从 RDBMS 更快地传输到 Hadoop 的要点。
映射器数量:
增加映射器的数量会提高速度,因为它将任务分成几部分并并行执行导入。
映射器上的均衡负载:
您需要在统一的列上拆分 (首选整数)。它将为所有映射器提供均衡负载并且传输速度更快。
来自 RDBMS 的连接数:
你不能盲目地增加映射器的数量(比如 100 个或更多)。您的 RDBMS 应该允许这些并发连接,否则它将成为 RDBMS 端的瓶颈。
使用--Direct
模式:
如果 sqoop 为特定 RDBMS 提供了直接连接器,您应该使用它。这将使传输更快。
简而言之,sqoop 的速度足以传输数十亿条记录,只需在编写导入命令时牢记这些要点即可。
谁能告诉我,SQOOP 一次传输 20 亿条记录的速度有多快。而且我知道它一定很快,因为 sqoop 运行 是并行的,其中一些输入将在 Hadoop 上产生一些文件输出。但是我想知道MapReduce一次传输20亿条记录的速度详情
您需要了解负责将数据从 RDBMS 更快地传输到 Hadoop 的要点。
映射器数量:
增加映射器的数量会提高速度,因为它将任务分成几部分并并行执行导入。
映射器上的均衡负载:
您需要在统一的列上拆分 (首选整数)。它将为所有映射器提供均衡负载并且传输速度更快。
来自 RDBMS 的连接数:
你不能盲目地增加映射器的数量(比如 100 个或更多)。您的 RDBMS 应该允许这些并发连接,否则它将成为 RDBMS 端的瓶颈。
使用
--Direct
模式:如果 sqoop 为特定 RDBMS 提供了直接连接器,您应该使用它。这将使传输更快。
简而言之,sqoop 的速度足以传输数十亿条记录,只需在编写导入命令时牢记这些要点即可。