Pyspark:如何在计算 pyspark sql 函数时排除列的非空记录?
Pyspark: How to exclude not null records of a column while calculation pyspark sql function?
我正在尝试计算每个数字字段的统计信息。但是我在执行此 pyspark sql 函数
时卡在了如何排除 null 的问题上
new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])
这样试过,但报错
new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line.na.fill(0))])
您可以通过isNotNull()
函数在select语句之前使用where条件过滤空值,从而排除空值。
new_df=data.where(data.line.isNotNull()).select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])
我正在尝试计算每个数字字段的统计信息。但是我在执行此 pyspark sql 函数
时卡在了如何排除 null 的问题上new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])
这样试过,但报错
new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line.na.fill(0))])
您可以通过isNotNull()
函数在select语句之前使用where条件过滤空值,从而排除空值。
new_df=data.where(data.line.isNotNull()).select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])