AWS Glue 书签产生重复项
AWS Glue Bookmark produces duplicates
我正在向 Glue Job 提交一个 Python 脚本(实际上是 pyspark)来处理 parquet 文件并从此数据源中提取一些分析。
这些镶木地板文件位于 S3 文件夹中,并随着新数据不断增加。我对 AWS Glue 提供的书签逻辑很满意,因为它有很大帮助:基本上允许我们只处理新数据而无需重新处理已处理的数据。
不幸的是,在这种情况下,我注意到每次都会生成重复项,而且看起来 AWS Glue 书签根本不起作用。这种意外行为的原因是什么?
来自https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html
The Apache Parquet and ORC formats are currently not supported.
更新
因为 Jul 26 2019AWS Glue 支持 Parquet 和 ORC 格式以及书签
https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html
你现在可以检查一下吗?它支持 Parquet 和 ORC。但版本 1.0 及更高版本。版本 0.9版本,不支持
https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html
我正在向 Glue Job 提交一个 Python 脚本(实际上是 pyspark)来处理 parquet 文件并从此数据源中提取一些分析。
这些镶木地板文件位于 S3 文件夹中,并随着新数据不断增加。我对 AWS Glue 提供的书签逻辑很满意,因为它有很大帮助:基本上允许我们只处理新数据而无需重新处理已处理的数据。
不幸的是,在这种情况下,我注意到每次都会生成重复项,而且看起来 AWS Glue 书签根本不起作用。这种意外行为的原因是什么?
来自https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html
The Apache Parquet and ORC formats are currently not supported.
更新
因为 Jul 26 2019AWS Glue 支持 Parquet 和 ORC 格式以及书签
https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html
你现在可以检查一下吗?它支持 Parquet 和 ORC。但版本 1.0 及更高版本。版本 0.9版本,不支持
https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html