在 SparkR 中删除重复项

dropDuplicates in SparkR

SparkR 是否包含 Scala 中存在的 dropDuplicates 函数(根据特定列删除重复行)?

我在 SOF 中遇到了这个 。但是我们不是使用 GroupBy,而是在 SparkR 中有一个函数来删除重复项吗?

按所有列来做,是 distinct

distinct(x)

unique(x)

要做到这一点 "based on a specific column",正如您所说,您最好的选择是 GroupBy,因为 spark 无法决定要保留您的 'not distinct' 记录中的哪一个。