打印 pyspark 数据框列中的所有类别

Question

我有一个大型数据框，其中一个名为 location 的列只有少量城市，例如：["New York", "London", "Paris", "Berlin"...]。

我想在该列上打印所有不同的值，以便我知道是否缺少某个城市的值。我该怎么做，因为 .describe('location') 方法没有帮助？

Answer 1

我找到了：

df.groupBy("location").count().show()

Answer 2

用这个你不能打印列中的不同值 location

from pyspark.sql import functions as F
df.select(F.col('location')).distinct()

Answer 3

describe method is for basic predefined statistics like count, mean, std, min, max etc. However, in order to find distinct values for any column you can use distinct() 方法。

希望对您有所帮助。

此致，

尼拉吉

打印 pyspark 数据框列中的所有类别

Print all categories in pyspark dataframe column

python

pyspark

pyspark-sql