使用 Pyspark 连接多个数据框

Joining Multiple dataframes using Pyspark

我有以下数据框

df1 - df1_id, name, age
df2 - df2_id, df1_id, subject, marks
df3 - df3_id, df2_id, city, country

结果

dfResult = df1_id, name, age, df2_id, subject, marks, df3_id, city, country

这在 Pyspark 中可行吗?我知道我可以使用 join 将 df1 和 df2 连接在一起[=13​​=]

left_join = df1.join(df2, df1.df1_id == df2.df2_id,how='left')

但我不确定我是否可以加入所有三个以获得预期的输出。

您应该可以链接 join:

df1.join(df2, ['df1_id'], how='left').join(df3, ['df2_id'], how='left')