Pyspark：如何在计算 pyspark sql 函数时排除列的非空记录？

Question

我正在尝试计算每个数字字段的统计信息。但是我在执行此 pyspark sql 函数

时卡在了如何排除 null 的问题上

new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])

这样试过，但报错

new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line.na.fill(0))])

Answer 1

您可以通过isNotNull()函数在select语句之前使用where条件过滤空值，从而排除空值。

new_df=data.where(data.line.isNotNull()).select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])

Pyspark: How to exclude not null records of a column while calculation pyspark sql function?