如何获取spark数据框中记录的输入文件名?

how to get input file name of a record in spark dataframe?

我正在通过从 s3 加载制表符分隔的文件在 spark 中创建数据框。我需要获取数据框中每条记录的输入文件名信息,以便进一步处理。我试过了

dataframe.select(inputFileName())

但我得到 input_file_name 的空值。有人请帮我解决这个问题。

您可以使用 withColumninput_file_name() 在数据框上创建一个新列:

dataframe.withColumn("input_file", input_file_name())