在 SparkR 中删除重复项

Question

SparkR 是否包含 Scala 中存在的 dropDuplicates 函数（根据特定列删除重复行）？

我在 SOF 中遇到了这个。但是我们不是使用 GroupBy，而是在 SparkR 中有一个函数来删除重复项吗？

Answer 1

按所有列来做，是 distinct

distinct(x)

或

unique(x)

要做到这一点 "based on a specific column"，正如您所说，您最好的选择是 GroupBy，因为 spark 无法决定要保留您的 'not distinct' 记录中的哪一个。

dropDuplicates in SparkR