使用镶木地板格式附加 Apache Spark 中列的描述

Attach description of columns in Apache Spark using parquet format

我读了镶木地板:

df = spark.read.parquet(file_name)

并获取列:

df.columns

和 returns 列列表 ['col1'、'col2'、'col3']

我了解到 parquet 格式能够在文件中存储一些元数据。

有没有办法存储和读取额外的元数据,例如,附上对每一列是什么的人工描述?

谢谢。

无法在 Parquet 文件中读取或存储任意附加元数据。

当提到 Parquet 文件中的元数据时,它指的是与该字段相关的技术元数据,包括嵌套字段的数量、类型信息、长度信息等。如果您查看 SchemaElement class在 Parquet ( https://static.javadoc.io/org.apache.parquet/parquet-format/2.6.0/org/apache/parquet/format/SchemaElement.html) 的文档中,您将找到架构中每个字段的所有可用元数据。这不包括字段名称之外的任何人类可读的描述。

可以在此处的 "File Format" 部分中找到对 Parquet 元数据的一个很好的概述 - https://parquet.apache.org/documentation/latest/