如何将存储在包含行的 HDFS 中的文本文件转换为 Pyspark 中的数据框？

Question

我正在使用 Pyspark，最近将数据帧作为文本文件存储在 HDFS 中，如下所示：

df.rdd.repartition(1).saveAsTextFile(path)

文件创建成功，内容格式如下：

Row(APP_PRESS=0.8322056773315432, LINE_PRESS=0.0, POSITION=324.17885120541024, SH_SP=-1.610030115550595, TEMP=24.300001144400007, TRIGGER=4.0869775365401934e-19, V_IND=98.36323547359974)
Row(APP_PRESS=0.8025359920151738, LINE_PRESS=0.0, POSITION=324.12892475616513, SH_SP=1.8780468896210554, TEMP=24.300001144399893, TRIGGER=-1.7645281682240943e-19, V_IND=98.36323547359977)
...

现在，我要做的是将这些数据加载到 Pyspark 的数据框中，只是为了获得与之前保存的数据框相同的数据框 ('df')。

我该怎么做？

Answer 1

尝试这样的事情：

df=sc.textFile(...).toDF()

但是您可以通过将上面的代码修改为：

来避免这一步

df.rdd.repartition(1).toDF()

然后保存。

如何将存储在包含行的 HDFS 中的文本文件转换为 Pyspark 中的数据框？

How can I convert a text file stored in HDFS containing Rows into a Dataframe in Pyspark?

hadoop

hdfs

apache-spark

pyspark

spark-dataframe