将数据从本地移动到 AWS redshift

Move data from on-premise to AWS redshift

我需要将数据从本地移动到 AWS redshift(region1)。最快的方法是什么？

1) 使用 AWS snowball 将内部部署移动到 s3 (region1)，然后使用 Redshift 的 SQL COPY cmd 将数据从 s3 复制到 redshift。

2) 使用 AWS Datapipeline（注意 region1 中还没有 AWS Datapipeline。所以我将在最靠近 region1 的 region2 中设置一个 Datapipeline）将本地数据移动到 s3（region1）和另一个 AWS DataPipeline (region2) 使用 AWS 提供的模板将数据从 s3 (region1) 复制到 redshift (region1)（此模板使用 RedshiftCopyActivity 将数据从 s3 复制到 redshift）？

以上哪个解决方案更快？或者还有其他解决方案吗？此外，RedshiftCopyActivity 会比直接使用运行 redshift 的 COPY cmd 更快吗？

请注意，这是一次移动，因此我不需要 AWS datapipeline 的计划功能。

这是 AWS Datapipeline 的 link： AWS Data Pipeline。它说：AWS Data Pipeline 是一种 Web 服务，可帮助您在不同的 AWS 计算和存储服务以及本地数据源之间可靠地处理和移动数据....

归结为网络带宽与数据量。

数据需要从当前本地位置移动到 Amazon S3。

这可以通过以下方式完成：

网络复制
AWS 雪球

您可以使用 online network calculator 来计算通过您的网络连接进行复制需要多长时间。

然后，将其与使用 AWS Snowball 复制数据进行比较。

选择cheaper/easier/faster。

一旦数据在 Amazon S3 中，使用 Amazon Redshift COPY 命令加载它。

如果不断添加数据，您将需要找到一种方法来向 Redshift 发送持续更新。这可能通过网络复制更容易。

使用数据管道没有任何好处。

将数据从本地移动到 AWS redshift

Move data from on-premise to AWS redshift

amazon-web-services

amazon-redshift

amazon-data-pipeline