数据目录表作为源

Data Catalog tables as sources

我正在尝试创建一个爬虫来扫描 S3 存储桶 Parquet 文件并更新 Glue 数据目录中现有 table 的分区信息。

这正是我所说的功能。 https://aws.amazon.com/about-aws/whats-new/2019/05/aws-glue-crawlers-now-support-existing-data-catalog-tables-as-sources/

当然是从控制台工作,但是,在使用 cloudformation 创建 AWS::Glue::Crawler 时,我没有找到从 DataCatalog 提供 Table 名称的选项。这是没有添加到 cloudformation 中的功能还是我在文档中找不到它。

还有其他选择吗?

它以 s3 存储桶中的文件夹名称作为 table 名称。您可以使用 TablePrefix 添加前缀。但现阶段无法明确指定 table 名称。