使用 AWS Pipeline 进行夜间数据加载
Using AWS Pipeline for a nightly data load
我有以下过程 运行 每晚:
- 从 FTP 服务器获取 XML
- 将具有多个 XSLT 的 XML 转换为针对 MySql
格式化的 XML
- 使用 "LOAD XML" mysql 命令加载新的 XML
我一直在阅读有关 AWS Data Pipelines 的文章,而不是我在 Ec2 实例上执行此过程 运行 听起来 aws pipelines 可能适合这个,但我有几个问题:
- 对于第 2 步,xslt 有一些自定义函数 运行。目前,转换是使用 .NET 控制台应用程序完成的,但如果有一种方法可以在云 lambda 中执行此操作,我可以将其转换为 Node
- 管道 运行 可以对数据库执行 LOAD XML 命令吗?我假设我必须将 xml 输出到 s3 存储桶?
AWS 管道是完成这项任务的好主意还是我走错了方向?
使用 AWS Data Pipeline 很有可能做到这一点。请参阅 github 存储库 https://github.com/awslabs/data-pipeline-samples
中的以下示例以及许多其他示例
ShellCommandWithFTP
RedshiftToRDS
您可以将 xml 转换为 CSV 并使用 CopyActivity
http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-copyactivity.html
我有以下过程 运行 每晚:
- 从 FTP 服务器获取 XML
- 将具有多个 XSLT 的 XML 转换为针对 MySql 格式化的 XML
- 使用 "LOAD XML" mysql 命令加载新的 XML
我一直在阅读有关 AWS Data Pipelines 的文章,而不是我在 Ec2 实例上执行此过程 运行 听起来 aws pipelines 可能适合这个,但我有几个问题:
- 对于第 2 步,xslt 有一些自定义函数 运行。目前,转换是使用 .NET 控制台应用程序完成的,但如果有一种方法可以在云 lambda 中执行此操作,我可以将其转换为 Node
- 管道 运行 可以对数据库执行 LOAD XML 命令吗?我假设我必须将 xml 输出到 s3 存储桶?
AWS 管道是完成这项任务的好主意还是我走错了方向?
使用 AWS Data Pipeline 很有可能做到这一点。请参阅 github 存储库 https://github.com/awslabs/data-pipeline-samples
中的以下示例以及许多其他示例ShellCommandWithFTP
RedshiftToRDS
您可以将 xml 转换为 CSV 并使用 CopyActivity http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-copyactivity.html