AWS Glue Crawler 为每个文件创建一个 table
AWS Glue Crawler creates a table for every file
我创建了一个测试 Redshift 集群并在数据库上启用了审计日志记录。这会创建连接日志、用户日志和用户 activity 日志(有关日志的详细信息可用 here)。这将在以下位置的 S3 存储桶中创建日志:
s3://bucket_name/AWSLogs/123456789012/redshift/<region>/<year>/<month>/<date>/*_<log_type>_<timestamp>.gz
接下来我创建了一个 Glue Crawler 并将数据存储指向 s3://bucket_name/AWSLogs/123456789012/redshift
并将其余选项保留为默认值。
当我 运行 爬虫时,它会为每个日志项创建一个单独的 table。相反,我希望它创建 3 tables(用户日志、用户 activity 日志和连接日志各一个)。
以下是我尝试过但没有成功的一些方法:
- 更新了数据存储以指向存储桶内的前缀,如
s3://bucket_name/AWSLogs/123456789012/redshift/<region>
。
- 分组行为:为每个 S3 路径创建一个模式
- 配置选项:仅添加新列
我是不是漏掉了什么?谢谢。
您不能将所有 3 个架构文件都保存在一个文件夹中。它们应该位于 运行 根文件夹
爬虫之前的单独文件夹中
我创建了一个测试 Redshift 集群并在数据库上启用了审计日志记录。这会创建连接日志、用户日志和用户 activity 日志(有关日志的详细信息可用 here)。这将在以下位置的 S3 存储桶中创建日志:
s3://bucket_name/AWSLogs/123456789012/redshift/<region>/<year>/<month>/<date>/*_<log_type>_<timestamp>.gz
接下来我创建了一个 Glue Crawler 并将数据存储指向 s3://bucket_name/AWSLogs/123456789012/redshift
并将其余选项保留为默认值。
当我 运行 爬虫时,它会为每个日志项创建一个单独的 table。相反,我希望它创建 3 tables(用户日志、用户 activity 日志和连接日志各一个)。
以下是我尝试过但没有成功的一些方法:
- 更新了数据存储以指向存储桶内的前缀,如
s3://bucket_name/AWSLogs/123456789012/redshift/<region>
。 - 分组行为:为每个 S3 路径创建一个模式
- 配置选项:仅添加新列
我是不是漏掉了什么?谢谢。
您不能将所有 3 个架构文件都保存在一个文件夹中。它们应该位于 运行 根文件夹
爬虫之前的单独文件夹中