如何预览 AWS Glue 作业?

How can I preview AWS Glue jobs?

我想使用 Glue 从 RDS PostgresDB 中提取数据,transform/clean 并将其加载到 S3 存储桶中,这样我就可以使用 Athena 和 Quicksight 可视化数据并创建报告。

我目前正在编写用于数据清理的 Glue 作业(删除 NULL 值等)。但我看不出有什么简单的方法可以预览作业脚本的结果。 运行 完成作业后,我只能在 S3 存储桶中看到结果。 运行 这项工作至少需要 10 分钟才能开始,而完成则需要更多时间。所以我有大约 15 分钟的往返时间来查看我的代码是否正确。这应该是这里的工作流程吗?我错过了什么吗?

我是整个 BI/data 的新手。也许我采用了错误的方法。我想在 Quicksight 中可视化来自 RDS 的数据,需要先进行一些数据清理。任何其他对这种情况有意义的方法? (我们谈论的是大约几百 MB 的小数据集)

谢谢!

查看笔记本。您可以在 AWS Glue 控制台中设置它们。在将脚本放入胶水脚本之前,它们为您提供了一种编写代码的交互式方式。 Sagemaker (Juypter) 和 Zeppelin notebooks 在标准情况下没有太大区别,猜猜看我们的口味。

一般来说,尤其是对于小型数据集,本地开发环境也可能适合您,并为您提供更多自由。对于较大的数据集,通常的做法是获取只有几百条记录的样本,以便可以即时处理。对开发有很大帮助。

最后:不确定为什么要放弃 Postgres。什么样的分析是你想做的,而在关系世界中你不能做?另外,为什么不在数据库中进行清理?