使用 AWS Pipeline 进行夜间数据加载

Using AWS Pipeline for a nightly data load

我有以下过程 运行 每晚:

  1. 从 FTP 服务器获取 XML
  2. 将具有多个 XSLT 的 XML 转换为针对 MySql
  3. 格式化的 XML
  4. 使用 "LOAD XML" mysql 命令加载新的 XML

我一直在阅读有关 AWS Data Pipelines 的文章,而不是我在 Ec2 实例上执行此过程 运行 听起来 aws pipelines 可能适合这个,但我有几个问题:

AWS 管道是完成这项任务的好主意还是我走错了方向?

使用 AWS Data Pipeline 很有可能做到这一点。请参阅 github 存储库 https://github.com/awslabs/data-pipeline-samples

中的以下示例以及许多其他示例

ShellCommandWithFTP

RedshiftToRDS

您可以将 xml 转换为 CSV 并使用 CopyActivity http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-copyactivity.html