如何散列 PySpark DataFrame 以获得返回的浮点数？

Question

假设我有 spark 数据框

+--------+-----+
|  letter|count|
+--------+-----+
|       a|    2|
|       b|    2|
|       c|    1|
+--------+-----+

然后我想找个意思。所以，我做到了

df = df.groupBy().mean('letter')

给出一个数据框

+------------------+
|       avg(letter)|
+------------------+
|1.6666666666666667|
+------------------+

我如何对其进行散列以仅获得值 1.6666666666666667，例如 Pandas 数据帧中的 df["avg(letter)"][0]？或获得 1.6666666666666667

的任何解决方法

注意：我需要返回一个浮点数。不是列表也不是数据框。

谢谢

Answer 1

先拿：

>>> df.groupBy().mean('letter').first()[0]

How to hash PySpark DataFrame to get a float returned?