提供有关元数据信息的不同 pyspark 函数(如 input_file_name() )是什么?

What are the different pyspark functions (like input_file_name() ) that provide information about the metadata?

我正在尝试深入研究 pyspark 并找出所有不同的方法来跟踪读入 spark 上下文的文件的元数据。我主要使用 Databricks 并想找出不同的功能,例如下面列出的功能,这些功能可以为我提供一些关于我的数据的重要元数据信息。

input_file_name()
printSchema()
df.describe().show()

我是 pyspark 的新手,我不知道如何获取此类信息。有没有办法获得 pyspark 中存在的所有此类元数据函数的列表?提前致谢。

这些是获取元数据信息的不同方法。

数据集df的schema可以使用df.schemadf.schema.fieldsdf.schema.fieldNamesdf.printSchema()df.describe().show()

df.printSchema()

df.describe().show()

df.schema

甚至createOrReplaceTempView给出了架构信息。

df.createOrReplaceTempView("storm")

参考: Pyspark documentation