Pyspark 数据框如何删除所有列中的空行？

Question

对于数据框，在它之前是这样的：

+----+----+----+
|  ID|TYPE|CODE|
+----+----+----+
|   1|   B|  X1|
|null|null|null|
|null|   B|  X1|
+----+----+----+

以后希望是这样的：

+----+----+----+
|  ID|TYPE|CODE|
+----+----+----+
|   1|   B|  X1|
|null|   B|  X1|
+----+----+----+

我更喜欢一个通用的方法，这样它可以在df.columns很长的时候应用。谢谢！

Answer 1

一种选择是使用functools.reduce构造条件：

from functools import reduce
df.filter(~reduce(lambda x, y: x & y, [df[c].isNull() for c in df.columns])).show()
+----+----+----+
|  ID|TYPE|CODE|
+----+----+----+
|   1|   B|  X1|
|null|   B|  X1|
+----+----+----+

其中 reduce 生成如下查询：

~reduce(lambda x, y: x & y, [df[c].isNull() for c in df.columns])
# Column<b'(NOT (((ID IS NULL) AND (TYPE IS NULL)) AND (CODE IS NULL)))'>

Answer 2

您只需要为 na.drop 提供策略：

df = spark.createDataFrame([
    (1, "B", "X1"), (None, None, None), (None, "B", "X1"), (None, "C", None)],
    ("ID", "TYPE", "CODE")
)

df.na.drop(how="all").show()

+----+----+----+
|  ID|TYPE|CODE|
+----+----+----+  
|   1|   B|  X1|
|null|   B|  X1|
|null|   C|null|
+----+----+----+

可以使用 threshold（NOT NULL 个值的数量）实现替代公式：

df.na.drop(thresh=1).show()

+----+----+----+
|  ID|TYPE|CODE|
+----+----+----+
|   1|   B|  X1|
|null|   B|  X1|
|null|   C|null|
+----+----+----+

Answer 3

你可以试试这个。

df=df.dropna(how='all')

Pyspark 数据框如何删除所有列中的空行？

Pyspark dataframe how to drop rows with nulls in all columns?

python

apache-spark

apache-spark-sql

pyspark

pyspark-sql