Spark:加入数据框
Spark: Joining Dataframes
我需要按如下方式加入两个DataFrame:
- 如果键匹配,从右侧获取值。
- 如果左边的键在右边不存在。从左边取值。
- 如果右侧的键在左侧不存在。从右边取值。
使用 DataFrames 执行此操作的最佳方法是什么?以前我曾经使用 RDD 的 'cogroup' 方法来执行此操作,这在 DataFrames 上不可用。
您可以简单地执行 FULL OUTER JOIN
并使用 COALESCE
import org.apache.spark.sql.functions.coalesce
val dfLeft = sc.parallelize(Seq((2, "2L"), (3, "3L"))).toDF("kl", "vl")
dfLeft.show
## +---+---+
## | kl| vl|
## +---+---+
## | 2| 2L|
## | 3| 3L|
## +---+---+
val dfRight = sc.parallelize(Seq((1, "1R"), (3, "3R"))).toDF("kr", "vr")
dfRight.show
## +---+---+
## | kr| vr|
## +---+---+
## | 1| 1R|
## | 3| 3R|
## +---+---+
dfLeft
.join(dfRight, $"kl" === $"kr", "fullouter")
.select(coalesce($"kl", $"kr").alias("k"), coalesce($"vr", $"vl").alias("v"))
.show
## +---+---+
## | k| v|
## +---+---+
## | 1| 1R|
## | 2| 2L|
## | 3| 3R|
## +---+---+
我需要按如下方式加入两个DataFrame:
- 如果键匹配,从右侧获取值。
- 如果左边的键在右边不存在。从左边取值。
- 如果右侧的键在左侧不存在。从右边取值。
使用 DataFrames 执行此操作的最佳方法是什么?以前我曾经使用 RDD 的 'cogroup' 方法来执行此操作,这在 DataFrames 上不可用。
您可以简单地执行 FULL OUTER JOIN
并使用 COALESCE
import org.apache.spark.sql.functions.coalesce
val dfLeft = sc.parallelize(Seq((2, "2L"), (3, "3L"))).toDF("kl", "vl")
dfLeft.show
## +---+---+
## | kl| vl|
## +---+---+
## | 2| 2L|
## | 3| 3L|
## +---+---+
val dfRight = sc.parallelize(Seq((1, "1R"), (3, "3R"))).toDF("kr", "vr")
dfRight.show
## +---+---+
## | kr| vr|
## +---+---+
## | 1| 1R|
## | 3| 3R|
## +---+---+
dfLeft
.join(dfRight, $"kl" === $"kr", "fullouter")
.select(coalesce($"kl", $"kr").alias("k"), coalesce($"vr", $"vl").alias("v"))
.show
## +---+---+
## | k| v|
## +---+---+
## | 1| 1R|
## | 2| 2L|
## | 3| 3R|
## +---+---+