有没有办法将数据框一列中的所有行与另一个数据框(spark)的另一列中的所有行进行比较?
Is there a way to compare all rows in one column of a dataframe against all rows in another column of another dataframe (spark)?
我在 Spark 中有两个数据帧,都有一个 IP 列。一列有超过 800000 个条目,而另一列有 4000 个条目。我想要做的是查看较小数据帧中的 IP 是否出现在大数据帧的 IP 列中。
目前我所能做的就是比较列的第一行、列的第二行等
提前致谢!
像这样的东西怎么样,直接来自使用 EXISTS 或 NOT EXISTS 的手册,创建了临时视图,请参见此处 https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/2728434780191932/1483312212640900/6987336228780374/latest.html:
%sql
SELECT *
FROM t1 A
WHERE NOT EXISTS (SELECT 1
FROM t2 B
WHERE B.colx = A.colx)
我在 Spark 中有两个数据帧,都有一个 IP 列。一列有超过 800000 个条目,而另一列有 4000 个条目。我想要做的是查看较小数据帧中的 IP 是否出现在大数据帧的 IP 列中。
目前我所能做的就是比较列的第一行、列的第二行等
提前致谢!
像这样的东西怎么样,直接来自使用 EXISTS 或 NOT EXISTS 的手册,创建了临时视图,请参见此处 https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/2728434780191932/1483312212640900/6987336228780374/latest.html:
%sql
SELECT *
FROM t1 A
WHERE NOT EXISTS (SELECT 1
FROM t2 B
WHERE B.colx = A.colx)