查找和加入 Spark 之间的区别

Difference between a Lookup and a Join in Spark

我想知道是否有人知道有关 Spark 中连接与查找的任何讨论?我看过这个页面: 基本上每个人都说连接远优于查找,而我 google-fu 试图找到任何支持它甚至讨论这两个主题的尝试都没有成功。

在 Spark DataFrame 中根本不存在诸如查找之类的东西,因此它不如任何其他解决方案,并且连接(散列或广播)或使用本地数据结构是唯一的选择。

查找和联接是关系数据系统中的两个不同概念。因此,在一般情况下说一个优于另一个是因为它们具有不同的功能并没有什么意义。查找只是查找数据,有时使用键或哈希值来优化查询速度。联接是使用两个数据集中的公共元素来创建新数据集。

例如(完全假设和抽象)

查找查询1

= 'Hello'

加入查询1查询2

=

'Hello world'

if 查询 2 等于 world