基于非结构化数据构建 Google 云平台数据目录

Building Google Cloud Platform Data Catalog on unstructured data

我有文档图像形式的非结构化数据。我们正在将这些文档转换为 JSON 个文件。我现在想要为此捕获技术元数据。有人可以给我一些 tips/best 在 Google Cloud Platform 中构建非结构化数据数据目录的实践吗?

此答案假设您没有使用任何工具围绕非结构化数据创建模式并查询数据,例如 BigQuery, Hive, Presto。而您只想对文件进行编目。

我有一个类似的用例,Google Data Catalog 有一个选项可以创建 custom entries

关于在非结构化文件数据上构建数据目录的一些技巧:

  1. 在您的 JSON 文件上使用有意义的文件名。这样搜索起来会更容易。
  2. 由于您已经在使用 GCP,请使用他们的托管数据目录,并利用他们的 custom entries API 将文件元数据提取到其中。
  3. 如果您还想在 JSON 文件中查找敏感数据,您可以 运行 DLP on them.
  4. 使用数据目录标签丰富文件元数据。 link 上的教程展示了如何在 Big Query 表上执行此操作,但您可以在 custom entries.
  5. 上执行相同的操作

我会添加一些关于将 JSON 文件中的这些文档转换为标签的 ETL 作业的信息。比如执行时间、数据质量分数、用户、企业主等

如果您想知道如何执行第 2 步,我整理了一个自动执行此操作的脚本: link 为 GitHub. Another option is to work with Data Catalog Filesets.

所以在使用 custom entriesfilesets 之间,我想问你,你需要有关文件名的信息吗?

如果没有,那么文件集可能会更容易,因为在撰写本文时它不会显示有关您的文件名的任何信息,但可以很好地管理 GCS 存储桶中的文件模式:It is defined by one or more file patterns that specify a set of one or more Cloud Storage files.

datatalog-util 也有一个选项 enrich your filesets,以防您只想获得有关它们的统计信息,例如平均文件大小、类型等。