计算 SPARKSQL 中的重复行数

Question

我有一个要求，我需要计算 Hive tables 的 SparkSQL 中的重复行数。

from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext
from pyspark.sql.types import *
from pyspark.sql import Row
app_name="test"
conf = SparkConf().setAppName(app_name)
sc = SparkContext(conf=conf)
sqlContext = HiveContext(sc)
df = sqlContext.sql("select * from  DV_BDFRAWZPH_NOGBD_R000_SG.employee")

到目前为止，我已经对 table 名称进行了硬编码，但它实际上是作为参数出现的。话虽这么说，我们不知道列的数量或它们的名称 well.In python pandas 我们有类似 df.duplicated.sum() 的东西来计算重复记录的数量。我们这里有这样的东西吗？

+---+---+---+
| 1 | A | B |
+---+---+---+
| 1 | A | B |
+---+---+---+
| 2 | B | E |
+---+---+---+
| 2 | B | E |
+---+---+---+
| 3 | D | G |
+---+---+---+
| 4 | D | G |
+---+---+---+

此处重复行数为4。（例如）

Answer 1

您基本上想要 groupBy() 所有列和 count()，然后 select 计数大于 1 的行的计数总和。

import pyspark.sql.functions as f
df.groupBy(df.columns)\
    .count()\
    .where(f.col('count') > 1)\
    .select(f.sum('count'))\
    .show()

说明

分组和聚合后，您的数据将如下所示：

+---+---+---+---+
| 1 | A | B | 2 |
+---+---+---+---+
| 2 | B | E | 2 |
+---+---+---+---+
| 3 | D | G | 1 |
+---+---+---+---+
| 4 | D | G | 1 |
+---+---+---+---+

然后用where()只过滤计数大于1的行，select求和。在这种情况下，您将获得前 2 行，总计为 4。

计算 SPARKSQL 中的重复行数

Count number of duplicate rows in SPARKSQL

apache-spark-sql

pyspark

spark-dataframe

pyspark-sql