将 4 个数据框合并为一个
Merge 4 dataframes into one
我有 4 个数据框,只有一行和一列,我想将它们组合成一个数据框。在 python 中,我会使用 zip 函数执行此操作,但我需要一种在 pyspark 中执行此操作的方法。有什么建议吗?
数据框看起来像这样:
+--------------------------+
|sum(sum(parcelUBLD_SQ_FT))|
+--------------------------+
| 1.13014806E8|
+--------------------------+
+---------------------+
|sum(parcelUBLD_SQ_FT)|
+---------------------+
| 1.13014806E8|
+---------------------+
+---------------+
|count(parcelID)|
+---------------+
| 45932|
+---------------+
+----------------+
|sum(parcelCount)|
+----------------+
| 45932|
+----------------+
我希望它看起来像这样:
+--------------------------+---------------------+---------------+----------------+
|sum(sum(parcelUBLD_SQ_FT))|sum(parcelUBLD_SQ_FT)|count(parcelID)|sum(parcelCount)|
+--------------------------+---------------------+---------------+----------------+
| 1.13014806E8| 1.13014806E8| 45932| 45932|
+--------------------------+---------------------+---------------+----------------+
由于您明确指定所有数据帧都在一行,因此您可以使用交叉连接来获得所需的输出
df1.crossJoin(df2).crossJoin(df3).crossJoin(df4)
我有 4 个数据框,只有一行和一列,我想将它们组合成一个数据框。在 python 中,我会使用 zip 函数执行此操作,但我需要一种在 pyspark 中执行此操作的方法。有什么建议吗?
数据框看起来像这样:
+--------------------------+
|sum(sum(parcelUBLD_SQ_FT))|
+--------------------------+
| 1.13014806E8|
+--------------------------+
+---------------------+
|sum(parcelUBLD_SQ_FT)|
+---------------------+
| 1.13014806E8|
+---------------------+
+---------------+
|count(parcelID)|
+---------------+
| 45932|
+---------------+
+----------------+
|sum(parcelCount)|
+----------------+
| 45932|
+----------------+
我希望它看起来像这样:
+--------------------------+---------------------+---------------+----------------+
|sum(sum(parcelUBLD_SQ_FT))|sum(parcelUBLD_SQ_FT)|count(parcelID)|sum(parcelCount)|
+--------------------------+---------------------+---------------+----------------+
| 1.13014806E8| 1.13014806E8| 45932| 45932|
+--------------------------+---------------------+---------------+----------------+
由于您明确指定所有数据帧都在一行,因此您可以使用交叉连接来获得所需的输出
df1.crossJoin(df2).crossJoin(df3).crossJoin(df4)