如何散列 PySpark DataFrame 以获得返回的浮点数?
How to hash PySpark DataFrame to get a float returned?
假设我有 spark 数据框
+--------+-----+
| letter|count|
+--------+-----+
| a| 2|
| b| 2|
| c| 1|
+--------+-----+
然后我想找个意思。所以,我做到了
df = df.groupBy().mean('letter')
给出一个数据框
+------------------+
| avg(letter)|
+------------------+
|1.6666666666666667|
+------------------+
我如何对其进行散列以仅获得值 1.6666666666666667,例如 Pandas 数据帧中的 df["avg(letter)"][0]?或获得 1.6666666666666667
的任何解决方法
注意:我需要返回一个浮点数。不是列表也不是数据框。
谢谢
先拿:
>>> df.groupBy().mean('letter').first()[0]
假设我有 spark 数据框
+--------+-----+
| letter|count|
+--------+-----+
| a| 2|
| b| 2|
| c| 1|
+--------+-----+
然后我想找个意思。所以,我做到了
df = df.groupBy().mean('letter')
给出一个数据框
+------------------+
| avg(letter)|
+------------------+
|1.6666666666666667|
+------------------+
我如何对其进行散列以仅获得值 1.6666666666666667,例如 Pandas 数据帧中的 df["avg(letter)"][0]?或获得 1.6666666666666667
的任何解决方法注意:我需要返回一个浮点数。不是列表也不是数据框。
谢谢
先拿:
>>> df.groupBy().mean('letter').first()[0]