AWS Glue 爬虫无法识别历史文件的一致 CSV 架构

AWS Glue crawler cannot recognize consistent CSV schema over historical files

我们有一个包含 .csv 和 .ctl 文件的文件夹。 CSV 是一段时间内的每日文件，每天总共五个。他们的命名约定是一个带前缀的字符串，后跟一个日期标识符（例如：ABCDE090619.csv）。 header 行，对于五个每日文件中的每一个，随着时间的推移是一致的。

Glue 爬虫的预期行为是识别五个 table 模式并在每个 table 中为一天的数据创建一行。相反，爬虫为每个文件创建一个单独的模式。总共约550个。

是否有任何机制可以驱动这种行为？我们目前的考虑包括命名约定，但根据 Glue 文档，只有文件架构才是重要的。

谢谢。

为您的抓取工具使用 "Create a single schema for each S3 path" 选项可能会对您有所帮助。在控制台中，它位于 "Grouping behavior for S3 data."

下爬虫配置的输出部分

更新：使用上述选项时，您必须将具有不同架构的文件分隔到不同的文件夹中。您可以将爬网程序指向根文件夹，但文件夹结构会告诉它要将哪些文件组合在一起。