AWS Glue Crawler 为每个文件创建一个 table

AWS Glue Crawler creates a table for every file

我创建了一个测试 Redshift 集群并在数据库上启用了审计日志记录。这会创建连接日志、用户日志和用户 activity 日志(有关日志的详细信息可用 here)。这将在以下位置的 S3 存储桶中创建日志:

s3://bucket_name/AWSLogs/123456789012/redshift/<region>/<year>/<month>/<date>/*_<log_type>_<timestamp>.gz

接下来我创建了一个 Glue Crawler 并将数据存储指向 s3://bucket_name/AWSLogs/123456789012/redshift 并将其余选项保留为默认值。

当我 运行 爬虫时,它会为每个日志项创建一个单独的 table。相反,我希望它创建 3 tables(用户日志、用户 activity 日志和连接日志各一个)。

以下是我尝试过但没有成功的一些方法:

我是不是漏掉了什么?谢谢。

您不能将所有 3 个架构文件都保存在一个文件夹中。它们应该位于 运行 根文件夹

爬虫之前的单独文件夹中