使用apache spark对两个巨大的表执行连接操作

Performing join operation on two huge tables using apache spark

我的数据库中有 2 个 table。每个 table 有 1 亿行。

有没有办法以最快的方式加入这 2 table 并使用 apache spark 提取数据?

我认为最有效的方法是使用数据帧并调用 join,然后是任何其他条件。好处是某些过滤器或选择将尽可能向下推送以减少您的网络负载...只有需要的数据才会被提取。

没有更多信息,这是我能给出的最好的建议。