将函数应用于多个文件以将数据加载到 pyspark 数据帧中
Apply a function to multiple files to load data into a pyspark dataframe
我有很多 JSON 个结构混乱的文件。我想将这些解析为 PySpark DataFrame。我写了一个解析函数,想将它应用到目录中的每个文件并将它们输入到我的 DataFrame 中。
我是 PySpark 的新手,所以非常感谢您的帮助。我曾希望我能做点什么:
from my_parsers import parser
data_files = [...] # Is there a PySpark way to iterate through files in a directory?
my_data = map(parser, data_files) # How do I collect each of these into the same object
需要解析的数据本质上是行列表的列表
例如
{"data": [["row 1 data"], ["row 2 data"], ...]}
在此感谢任何帮助 - 正如我所说,我完全是 PySpark 菜鸟
如果所有文件都具有相同的json结构,那么您只需使用spark.read.json
函数即可。
函数 spark.read.json 接受文件列表作为参数。
spark.read.json(List_all_json file)
这将读取列表中的所有文件和return文件中所有信息的单个数据框。
有关详细信息,请阅读 this
我有很多 JSON 个结构混乱的文件。我想将这些解析为 PySpark DataFrame。我写了一个解析函数,想将它应用到目录中的每个文件并将它们输入到我的 DataFrame 中。
我是 PySpark 的新手,所以非常感谢您的帮助。我曾希望我能做点什么:
from my_parsers import parser
data_files = [...] # Is there a PySpark way to iterate through files in a directory?
my_data = map(parser, data_files) # How do I collect each of these into the same object
需要解析的数据本质上是行列表的列表 例如
{"data": [["row 1 data"], ["row 2 data"], ...]}
在此感谢任何帮助 - 正如我所说,我完全是 PySpark 菜鸟
如果所有文件都具有相同的json结构,那么您只需使用spark.read.json
函数即可。
函数 spark.read.json 接受文件列表作为参数。
spark.read.json(List_all_json file)
这将读取列表中的所有文件和return文件中所有信息的单个数据框。
有关详细信息,请阅读 this