在 SparkR 中删除重复项
dropDuplicates in SparkR
SparkR 是否包含 Scala 中存在的 dropDuplicates 函数(根据特定列删除重复行)?
我在 SOF 中遇到了这个 。但是我们不是使用 GroupBy,而是在 SparkR 中有一个函数来删除重复项吗?
按所有列来做,是 distinct
distinct(x)
或
unique(x)
要做到这一点 "based on a specific column",正如您所说,您最好的选择是 GroupBy,因为 spark 无法决定要保留您的 'not distinct' 记录中的哪一个。
SparkR 是否包含 Scala 中存在的 dropDuplicates 函数(根据特定列删除重复行)?
我在 SOF 中遇到了这个
按所有列来做,是 distinct
distinct(x)
或
unique(x)
要做到这一点 "based on a specific column",正如您所说,您最好的选择是 GroupBy,因为 spark 无法决定要保留您的 'not distinct' 记录中的哪一个。