AWS 管理数据管道之间的依赖关系
AWS manage dependency between data pipelines
我有一种情况,我想 运行 在其他一些管道 (DP1) 之后添加一个数据管道 (DP2)。如果 DP1 没有成功完成,我根本不希望 DP2 是 运行,如果是,我希望 DP2 开始 运行ning。
事实上,未来情况会变得越来越复杂,所以我想有一个选项可以轻松配置 运行 的时间和顺序。
我刚开始研究这个,偶然发现了一个解决方案,其中包括 aws lambda 查看 S3 并触发 DP2,以防 DP1 在 S3 中生成文件,例如。
这还可以,但我宁愿选择更强大的东西。
有没有可以为我完成这种 scheduling/ordering 数据管道的工具?
我想到的也是使用 Jenkins 作为基础构建工具:创建 jenkins 作业(我可以在 Jenkins 中管理哪些关系)并使用它们使用 aws data pipeline api 按需触发数据管道 -基本上,使用 Jenkins 作为一种机制来向管道 api 发出命令并不时检查管道的状态以查看它们是否正在 运行ning、卡住、成功完成以及其他...
当然,这需要一些时间来构建,这就是为什么我想问是否已经有一些我可以使用的工具。
执行此操作的标准方法是在 DP1 成功完成时将文件放入 S3,作为最后一个 activity,然后让 DP2 具有检查此文件是否存在的前提条件。如果您的管道 运行 都按固定时间表进行,则此方法有效。
您的管道是否运行按需响应事件?
我知道有点晚了,但刚找到这个。您可以从管道 #1 触发管道 #2。
在管道 #1 中,作为最后一个 activity 包含一个 ShellCommandActivity,它在管道 #1 成功完成后激活管道 #2。
要执行的命令:aws datapipeline activate-pipeline --pipeline-id #{myPipelineToActivateID} 其中 myPipelineToActivateID 是管道 #2 的管道 ID。
管道 #2 应创建为 "on demand" 管道。最初设置时,将计划设置为 运行 "on pipeline activation" 而不是计划。
我有一种情况,我想 运行 在其他一些管道 (DP1) 之后添加一个数据管道 (DP2)。如果 DP1 没有成功完成,我根本不希望 DP2 是 运行,如果是,我希望 DP2 开始 运行ning。 事实上,未来情况会变得越来越复杂,所以我想有一个选项可以轻松配置 运行 的时间和顺序。
我刚开始研究这个,偶然发现了一个解决方案,其中包括 aws lambda 查看 S3 并触发 DP2,以防 DP1 在 S3 中生成文件,例如。 这还可以,但我宁愿选择更强大的东西。
有没有可以为我完成这种 scheduling/ordering 数据管道的工具?
我想到的也是使用 Jenkins 作为基础构建工具:创建 jenkins 作业(我可以在 Jenkins 中管理哪些关系)并使用它们使用 aws data pipeline api 按需触发数据管道 -基本上,使用 Jenkins 作为一种机制来向管道 api 发出命令并不时检查管道的状态以查看它们是否正在 运行ning、卡住、成功完成以及其他...
当然,这需要一些时间来构建,这就是为什么我想问是否已经有一些我可以使用的工具。
执行此操作的标准方法是在 DP1 成功完成时将文件放入 S3,作为最后一个 activity,然后让 DP2 具有检查此文件是否存在的前提条件。如果您的管道 运行 都按固定时间表进行,则此方法有效。
您的管道是否运行按需响应事件?
我知道有点晚了,但刚找到这个。您可以从管道 #1 触发管道 #2。
在管道 #1 中,作为最后一个 activity 包含一个 ShellCommandActivity,它在管道 #1 成功完成后激活管道 #2。 要执行的命令:aws datapipeline activate-pipeline --pipeline-id #{myPipelineToActivateID} 其中 myPipelineToActivateID 是管道 #2 的管道 ID。
管道 #2 应创建为 "on demand" 管道。最初设置时,将计划设置为 运行 "on pipeline activation" 而不是计划。