如何获取spark数据框中记录的输入文件名?
how to get input file name of a record in spark dataframe?
我正在通过从 s3 加载制表符分隔的文件在 spark 中创建数据框。我需要获取数据框中每条记录的输入文件名信息,以便进一步处理。我试过了
dataframe.select(inputFileName())
但我得到 input_file_name 的空值。有人请帮我解决这个问题。
您可以使用 withColumn
和 input_file_name()
在数据框上创建一个新列:
dataframe.withColumn("input_file", input_file_name())
我正在通过从 s3 加载制表符分隔的文件在 spark 中创建数据框。我需要获取数据框中每条记录的输入文件名信息,以便进一步处理。我试过了
dataframe.select(inputFileName())
但我得到 input_file_name 的空值。有人请帮我解决这个问题。
您可以使用 withColumn
和 input_file_name()
在数据框上创建一个新列:
dataframe.withColumn("input_file", input_file_name())