我如何使用 glueContext.create_dynamic_frame_from_options 读取成吨的 Json 桶
how do I read in tons of Json buckets using glueContext.create_dynamic_frame_from_options
真的希望有人能帮助我..
我想读取此路径中的所有 json 个文件 "s3://.../year=2019/month=11/day=06/" 我如何使用 glueContext.create_dynamic_frame_from_options 来读取它?
如果我这样做 glueContext.create_dynamic_frame_from_options("s3", format="json", connection_options = {"paths": [ "s3://.../year=2019/month=11/day=06/" ]})
,它将不起作用。
我不得不列出每一个子桶,我觉得应该有更好的方法。例如:我必须这样做 df0 = glueContext.create_dynamic_frame_from_options("s3", format="json", connection_options = {"paths": [ "s3://.../year=2019/month=11/day=06/hour=20/minute=12/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=13/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=14/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=15/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=16/" ....]})
我有数以千计的子桶要列出,所以我非常感谢任何关于如何让我的生活更轻松的指导。谢谢!!
您将要使用 Glue Crawler 在 Glue 数据目录中创建表。然后您可以通过
使用表格
glueContext.create_dynamic_frame.from_catalog(
database="mydb",
table_name="mytable")
这篇 AWS 博客 post 解释了如何在 Glue 中处理分区数据 https://aws.amazon.com/blogs/big-data/work-with-partitioned-data-in-aws-glue/
我找到了解决方案 -> 在读取大量文件时使用 "recurse" 选项。
真的希望有人能帮助我..
我想读取此路径中的所有 json 个文件 "s3://.../year=2019/month=11/day=06/" 我如何使用 glueContext.create_dynamic_frame_from_options 来读取它?
如果我这样做 glueContext.create_dynamic_frame_from_options("s3", format="json", connection_options = {"paths": [ "s3://.../year=2019/month=11/day=06/" ]})
,它将不起作用。
我不得不列出每一个子桶,我觉得应该有更好的方法。例如:我必须这样做 df0 = glueContext.create_dynamic_frame_from_options("s3", format="json", connection_options = {"paths": [ "s3://.../year=2019/month=11/day=06/hour=20/minute=12/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=13/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=14/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=15/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=16/" ....]})
我有数以千计的子桶要列出,所以我非常感谢任何关于如何让我的生活更轻松的指导。谢谢!!
您将要使用 Glue Crawler 在 Glue 数据目录中创建表。然后您可以通过
使用表格glueContext.create_dynamic_frame.from_catalog(
database="mydb",
table_name="mytable")
这篇 AWS 博客 post 解释了如何在 Glue 中处理分区数据 https://aws.amazon.com/blogs/big-data/work-with-partitioned-data-in-aws-glue/
我找到了解决方案 -> 在读取大量文件时使用 "recurse" 选项。