如何从 S3 存储桶中读取最后修改的 csv 文件?

How to read the last modified csv files from S3 bucket?

我来找你是想看看你是否有专业的技巧,可以将 Glue 作业生成的最新 csv 文件加载到 S3 存储桶中,以加载到 jupyter notebook 中。

我使用此命令从 S3 文件夹加载我的 csv。是否有 select 仅包含最后修改的 csv 文件的选项?

df = sqlContext.read.csv(
    's3://path', 
    header=True, sep=","
)

之前我倾向于将我的动态数据帧转换为经典数据帧以覆盖我的 Glue 作业生成的旧文件。

生成 DyF 是不可能的

谢谢

您可以使用 S3 boto3 api 获取具有最后修改日期的 csv 文件,然后对它们进行排序、过滤并将其传递给 Glue 或 Spark 读取 api。

或者,您可以使用 AWS S3 Inventory 并通过 athena 进行查询:https://docs.aws.amazon.com/AmazonS3/latest/dev/storage-inventory.html

Glue 中有作业书签概念,但它适用于新添加的文件而不是修改的文件。