Data Catalog 不会自动从存储桶 (GCS) 中的文件中读取技术元数据
Data Catalog will not read technical metadata automatically from files in a bucket (GCS)
在 Google 数据目录中,我尝试创建一个新条目组,然后创建一个文件集条目,其中配置了存储桶和文件模式。我没有在文件集中有意定义模式,因为我希望数据目录自动找到文件的技术元数据 within/from。一切都通过 Google 控制台 UI.
设置
Data Catalog 找不到与存储桶中的文件相关的元数据。但是,如果我创建一个 BigQuery table og 一个 Pub/Sub 主题,来自这些资源的元数据会立即显示。
我希望 Data Catalog 能够扫描我们存储桶中的文件并自动显示元数据(可搜索)。存储桶中的文件是 .avro、.json、.parquet 或 .csv。如前所述,这适用于 BigQuery 和 Pub/Sub。我从文档中了解到,这也适用于 Cloud Storage 中的对象。
有没有人试过这个,请说明一下这个问题?
谢谢。
遗憾的是,Data Catalog 目前无法检测有关 GCS 文件集内容的内部元数据。
还有 Dataplex (https://cloud.google.com/dataplex),它可能正是您所需要的。
在 GCP 平台上,您可以使用 Dataplex,您需要在其中创建湖 -> 区域 -> 资产和资产类型,您可以 select 作为 GCS 存储桶并将该存储桶附加到资产。
按照以下方式将数据放入GCS bucket /tablename/partition=1/filename.csv
Dataplex 具有发现作业,可以为您获取元数据并将其发布到 DPMS 或 BigQuery 或两者。
在 Google 数据目录中,我尝试创建一个新条目组,然后创建一个文件集条目,其中配置了存储桶和文件模式。我没有在文件集中有意定义模式,因为我希望数据目录自动找到文件的技术元数据 within/from。一切都通过 Google 控制台 UI.
设置Data Catalog 找不到与存储桶中的文件相关的元数据。但是,如果我创建一个 BigQuery table og 一个 Pub/Sub 主题,来自这些资源的元数据会立即显示。
我希望 Data Catalog 能够扫描我们存储桶中的文件并自动显示元数据(可搜索)。存储桶中的文件是 .avro、.json、.parquet 或 .csv。如前所述,这适用于 BigQuery 和 Pub/Sub。我从文档中了解到,这也适用于 Cloud Storage 中的对象。
有没有人试过这个,请说明一下这个问题?
谢谢。
遗憾的是,Data Catalog 目前无法检测有关 GCS 文件集内容的内部元数据。
还有 Dataplex (https://cloud.google.com/dataplex),它可能正是您所需要的。
在 GCP 平台上,您可以使用 Dataplex,您需要在其中创建湖 -> 区域 -> 资产和资产类型,您可以 select 作为 GCS 存储桶并将该存储桶附加到资产。
按照以下方式将数据放入GCS bucket /tablename/partition=1/filename.csv
Dataplex 具有发现作业,可以为您获取元数据并将其发布到 DPMS 或 BigQuery 或两者。