将函数应用于多个文件以将数据加载到 pyspark 数据帧中

Question

我有很多 JSON 个结构混乱的文件。我想将这些解析为 PySpark DataFrame。我写了一个解析函数，想将它应用到目录中的每个文件并将它们输入到我的 DataFrame 中。

我是 PySpark 的新手，所以非常感谢您的帮助。我曾希望我能做点什么：

from my_parsers import parser

data_files = [...] # Is there a PySpark way to iterate through files in a directory?

my_data = map(parser, data_files) # How do I collect each of these into the same object

需要解析的数据本质上是行列表的列表例如

{"data": [["row 1 data"], ["row 2 data"], ...]}

在此感谢任何帮助 - 正如我所说，我完全是 PySpark 菜鸟

Answer 1

如果所有文件都具有相同的json结构，那么您只需使用spark.read.json函数即可。

函数 spark.read.json 接受文件列表作为参数。

spark.read.json(List_all_json file)

这将读取列表中的所有文件和return文件中所有信息的单个数据框。

有关详细信息，请阅读 this

将函数应用于多个文件以将数据加载到 pyspark 数据帧中

Apply a function to multiple files to load data into a pyspark dataframe

python

pyspark