如何在 Pyspark 中获取列的列表视图和 nans/nulls 的百分比?
How to get a list view of columns and % of nans/nulls in Pyspark?
我是 运行 我的数据集上的一个简单 EDA,它有 59K 行和 21 列。我想看到的是所有列的列表和 nulls/nans 的百分比。我在我的虚拟机中 运行 在 Jupyter 中使用以下代码:
#Checking nulls by column
from pyspark.sql.functions import *
null_df = datingDF.select([(count(when(isnan(c) | col(c).isNull(), c))/count(lit(1))).alias(c) for c in datingDF.columns])
null_df.show()
输出真的很乱,不是一个干净的列表(见附件)
将 null_df.show()
替换为 :
for i,j in null_df.first().asDict().items():
print(i,j)
我是 运行 我的数据集上的一个简单 EDA,它有 59K 行和 21 列。我想看到的是所有列的列表和 nulls/nans 的百分比。我在我的虚拟机中 运行 在 Jupyter 中使用以下代码:
#Checking nulls by column
from pyspark.sql.functions import *
null_df = datingDF.select([(count(when(isnan(c) | col(c).isNull(), c))/count(lit(1))).alias(c) for c in datingDF.columns])
null_df.show()
输出真的很乱,不是一个干净的列表(见附件)
将 null_df.show()
替换为 :
for i,j in null_df.first().asDict().items():
print(i,j)