AWS Glue 爬虫无法识别历史文件的一致 CSV 架构

AWS Glue crawler cannot recognize consistent CSV schema over historical files

我们有一个包含 .csv 和 .ctl 文件的文件夹。 CSV 是一段时间内的每日文件,每天总共五个。他们的命名约定是一个带前缀的字符串,后跟一个日期标识符(例如:ABCDE090619.csv)。 header 行,对于五个每日文件中的每一个,随着时间的推移是一致的。

Glue 爬虫的预期行为是识别五个 table 模式并在每个 table 中为一天的数据创建一行。相反,爬虫为每个文件创建一个单独的模式。总共约550个。

是否有任何机制可以驱动这种行为?我们目前的考虑包括命名约定,但根据 Glue 文档,只有文件架构才是重要的。

谢谢。

为您的抓取工具使用 "Create a single schema for each S3 path" 选项可能会对您有所帮助。在控制台中,它位于 "Grouping behavior for S3 data."

下爬虫配置的输出部分

更新:使用上述选项时,您必须将具有不同架构的文件分隔到不同的文件夹中。您可以将爬网程序指向根文件夹,但文件夹结构会告诉它要将哪些文件组合在一起。