提供有关元数据信息的不同 pyspark 函数(如 input_file_name() )是什么?
What are the different pyspark functions (like input_file_name() ) that provide information about the metadata?
我正在尝试深入研究 pyspark 并找出所有不同的方法来跟踪读入 spark 上下文的文件的元数据。我主要使用 Databricks 并想找出不同的功能,例如下面列出的功能,这些功能可以为我提供一些关于我的数据的重要元数据信息。
input_file_name()
printSchema()
df.describe().show()
我是 pyspark 的新手,我不知道如何获取此类信息。有没有办法获得 pyspark 中存在的所有此类元数据函数的列表?提前致谢。
这些是获取元数据信息的不同方法。
数据集df的schema可以使用df.schema
、df.schema.fields
、df.schema.fieldNames
、df.printSchema()
、df.describe().show()
、
df.printSchema()
df.describe().show()
df.schema
甚至createOrReplaceTempView
给出了架构信息。
df.createOrReplaceTempView("storm")
我正在尝试深入研究 pyspark 并找出所有不同的方法来跟踪读入 spark 上下文的文件的元数据。我主要使用 Databricks 并想找出不同的功能,例如下面列出的功能,这些功能可以为我提供一些关于我的数据的重要元数据信息。
input_file_name()
printSchema()
df.describe().show()
我是 pyspark 的新手,我不知道如何获取此类信息。有没有办法获得 pyspark 中存在的所有此类元数据函数的列表?提前致谢。
这些是获取元数据信息的不同方法。
数据集df的schema可以使用df.schema
、df.schema.fields
、df.schema.fieldNames
、df.printSchema()
、df.describe().show()
、
df.printSchema()
df.describe().show()
df.schema
甚至createOrReplaceTempView
给出了架构信息。
df.createOrReplaceTempView("storm")