我如何使用 glueContext.create_dynamic_frame_from_options 读取成吨的 Json 桶

Question

真的希望有人能帮助我..

我想读取此路径中的所有 json 个文件 "s3://.../year=2019/month=11/day=06/" 我如何使用 glueContext.create_dynamic_frame_from_options 来读取它？

如果我这样做 glueContext.create_dynamic_frame_from_options("s3", format="json", connection_options = {"paths": [ "s3://.../year=2019/month=11/day=06/" ]})，它将不起作用。

我不得不列出每一个子桶，我觉得应该有更好的方法。例如：我必须这样做 df0 = glueContext.create_dynamic_frame_from_options("s3", format="json", connection_options = {"paths": [ "s3://.../year=2019/month=11/day=06/hour=20/minute=12/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=13/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=14/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=15/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=16/" ....]})

我有数以千计的子桶要列出，所以我非常感谢任何关于如何让我的生活更轻松的指导。谢谢！！

Answer 1

您将要使用 Glue Crawler 在 Glue 数据目录中创建表。然后您可以通过

使用表格

glueContext.create_dynamic_frame.from_catalog(
    database="mydb",
    table_name="mytable")

这篇 AWS 博客 post 解释了如何在 Glue 中处理分区数据 https://aws.amazon.com/blogs/big-data/work-with-partitioned-data-in-aws-glue/

Answer 2

我找到了解决方案 -> 在读取大量文件时使用 "recurse" 选项。

我如何使用 glueContext.create_dynamic_frame_from_options 读取成吨的 Json 桶

how do I read in tons of Json buckets using glueContext.create_dynamic_frame_from_options

amazon-s3

amazon-web-services

pyspark

aws-glue