AWS Glue Crawler 为每个文件创建一个 table

Question

我创建了一个测试 Redshift 集群并在数据库上启用了审计日志记录。这会创建连接日志、用户日志和用户 activity 日志（有关日志的详细信息可用 here）。这将在以下位置的 S3 存储桶中创建日志：

s3://bucket_name/AWSLogs/123456789012/redshift/<region>/<year>/<month>/<date>/*_<log_type>_<timestamp>.gz

接下来我创建了一个 Glue Crawler 并将数据存储指向 s3://bucket_name/AWSLogs/123456789012/redshift 并将其余选项保留为默认值。

当我运行爬虫时，它会为每个日志项创建一个单独的 table。相反，我希望它创建 3 tables（用户日志、用户 activity 日志和连接日志各一个）。

以下是我尝试过但没有成功的一些方法：

我是不是漏掉了什么？谢谢。

Answer 1

您不能将所有 3 个架构文件都保存在一个文件夹中。它们应该位于运行根文件夹

爬虫之前的单独文件夹中

AWS Glue Crawler creates a table for every file