使用 Pyspark 连接多个数据框
Joining Multiple dataframes using Pyspark
我有以下数据框
df1 - df1_id, name, age
df2 - df2_id, df1_id, subject, marks
df3 - df3_id, df2_id, city, country
结果
dfResult = df1_id, name, age, df2_id, subject, marks, df3_id, city, country
这在 Pyspark 中可行吗?我知道我可以使用 join 将 df1 和 df2 连接在一起[=13=]
left_join = df1.join(df2, df1.df1_id == df2.df2_id,how='left')
但我不确定我是否可以加入所有三个以获得预期的输出。
您应该可以链接 join
:
df1.join(df2, ['df1_id'], how='left').join(df3, ['df2_id'], how='left')
我有以下数据框
df1 - df1_id, name, age
df2 - df2_id, df1_id, subject, marks
df3 - df3_id, df2_id, city, country
结果
dfResult = df1_id, name, age, df2_id, subject, marks, df3_id, city, country
这在 Pyspark 中可行吗?我知道我可以使用 join 将 df1 和 df2 连接在一起[=13=]
left_join = df1.join(df2, df1.df1_id == df2.df2_id,how='left')
但我不确定我是否可以加入所有三个以获得预期的输出。
您应该可以链接 join
:
df1.join(df2, ['df1_id'], how='left').join(df3, ['df2_id'], how='left')