Amazon Glue - 创建单个 Parquet

Amazon Glue - Create Single Praquet

我有我的数据源,它以 csv 格式生成每小时文件,这些文件被推送到 S3。然后使用 Glue 我做了一些 ETL,并将转换后的数据再次推送回 S3。 使用此数据的另一个部门希望将文件合并到昨天的单个文件中。 我编写了一个 python 程序,可以将昨天的 24 个文件合并到一个 CSV 文件中。 现在还需要单个合并文件也应该在 Parquet 中可用。
我创建了一个爬虫来生成我的 csv table,然后我有一个 Glue 作业将单个转换后的文件转换为 Parquet,但我得到了 Parquet 文件的多个部分,我相信这是因为快速压缩。但我想创建一个。我如何在 Glue 中执行此操作?
其次,我想了解何时使用多个 Parquet 文件以及何时创建一个文件有意义。

你可以突破到DataFrames,调用repartition(1)然后调用write。