使用apache spark对两个巨大的表执行连接操作
Performing join operation on two huge tables using apache spark
我的数据库中有 2 个 table。每个 table 有 1 亿行。
有没有办法以最快的方式加入这 2 table 并使用 apache spark 提取数据?
我认为最有效的方法是使用数据帧并调用 join
,然后是任何其他条件。好处是某些过滤器或选择将尽可能向下推送以减少您的网络负载...只有需要的数据才会被提取。
没有更多信息,这是我能给出的最好的建议。
我的数据库中有 2 个 table。每个 table 有 1 亿行。
有没有办法以最快的方式加入这 2 table 并使用 apache spark 提取数据?
我认为最有效的方法是使用数据帧并调用 join
,然后是任何其他条件。好处是某些过滤器或选择将尽可能向下推送以减少您的网络负载...只有需要的数据才会被提取。
没有更多信息,这是我能给出的最好的建议。