将数据从本地移动到 AWS redshift
Move data from on-premise to AWS redshift
我需要将数据从本地移动到 AWS redshift(region1)。最快的方法是什么?
1) 使用 AWS snowball 将内部部署移动到 s3 (region1),然后使用 Redshift 的 SQL COPY cmd 将数据从 s3 复制到 redshift。
2) 使用 AWS Datapipeline(注意 region1 中还没有 AWS Datapipeline。所以我将在最靠近 region1 的 region2 中设置一个 Datapipeline)将本地数据移动到 s3(region1)和另一个 AWS DataPipeline (region2) 使用 AWS 提供的模板将数据从 s3 (region1) 复制到 redshift (region1)(此模板使用 RedshiftCopyActivity 将数据从 s3 复制到 redshift)?
以上哪个解决方案更快?或者还有其他解决方案吗?此外,RedshiftCopyActivity 会比直接使用 运行 redshift 的 COPY cmd 更快吗?
请注意,这是一次移动,因此我不需要 AWS datapipeline 的计划功能。
这是 AWS Datapipeline 的 link:
AWS Data Pipeline。它说:AWS Data Pipeline 是一种 Web 服务,可帮助您在不同的 AWS 计算和存储服务以及本地数据源之间可靠地处理和移动数据....
归结为网络带宽与数据量。
数据需要从当前本地位置移动到 Amazon S3。
这可以通过以下方式完成:
- 网络复制
- AWS 雪球
您可以使用 online network calculator 来计算通过您的网络连接进行复制需要多长时间。
然后,将其与使用 AWS Snowball 复制数据进行比较。
选择cheaper/easier/faster。
一旦数据在 Amazon S3 中,使用 Amazon Redshift COPY
命令加载它。
如果不断添加数据,您将需要找到一种方法来向 Redshift 发送持续更新。这可能通过网络复制更容易。
使用数据管道没有任何好处。
我需要将数据从本地移动到 AWS redshift(region1)。最快的方法是什么?
1) 使用 AWS snowball 将内部部署移动到 s3 (region1),然后使用 Redshift 的 SQL COPY cmd 将数据从 s3 复制到 redshift。
2) 使用 AWS Datapipeline(注意 region1 中还没有 AWS Datapipeline。所以我将在最靠近 region1 的 region2 中设置一个 Datapipeline)将本地数据移动到 s3(region1)和另一个 AWS DataPipeline (region2) 使用 AWS 提供的模板将数据从 s3 (region1) 复制到 redshift (region1)(此模板使用 RedshiftCopyActivity 将数据从 s3 复制到 redshift)?
以上哪个解决方案更快?或者还有其他解决方案吗?此外,RedshiftCopyActivity 会比直接使用 运行 redshift 的 COPY cmd 更快吗?
请注意,这是一次移动,因此我不需要 AWS datapipeline 的计划功能。
这是 AWS Datapipeline 的 link: AWS Data Pipeline。它说:AWS Data Pipeline 是一种 Web 服务,可帮助您在不同的 AWS 计算和存储服务以及本地数据源之间可靠地处理和移动数据....
归结为网络带宽与数据量。
数据需要从当前本地位置移动到 Amazon S3。
这可以通过以下方式完成:
- 网络复制
- AWS 雪球
您可以使用 online network calculator 来计算通过您的网络连接进行复制需要多长时间。
然后,将其与使用 AWS Snowball 复制数据进行比较。
选择cheaper/easier/faster。
一旦数据在 Amazon S3 中,使用 Amazon Redshift COPY
命令加载它。
如果不断添加数据,您将需要找到一种方法来向 Redshift 发送持续更新。这可能通过网络复制更容易。
使用数据管道没有任何好处。