如何从 S3 存储桶中读取最后修改的 csv 文件？

Question

我来找你是想看看你是否有专业的技巧，可以将 Glue 作业生成的最新 csv 文件加载到 S3 存储桶中，以加载到 jupyter notebook 中。

我使用此命令从 S3 文件夹加载我的 csv。是否有 select 仅包含最后修改的 csv 文件的选项？

df = sqlContext.read.csv(
    's3://path', 
    header=True, sep=","
)

之前我倾向于将我的动态数据帧转换为经典数据帧以覆盖我的 Glue 作业生成的旧文件。

生成 DyF 是不可能的

谢谢

Answer 1

您可以使用 S3 boto3 api 获取具有最后修改日期的 csv 文件，然后对它们进行排序、过滤并将其传递给 Glue 或 Spark 读取 api。

或者，您可以使用 AWS S3 Inventory 并通过 athena 进行查询：https://docs.aws.amazon.com/AmazonS3/latest/dev/storage-inventory.html

Glue 中有作业书签概念，但它适用于新添加的文件而不是修改的文件。

How to read the last modified csv files from S3 bucket?