Pyspark, TypeError: 'Column' object is not callable
Pyspark, TypeError: 'Column' object is not callable
下面的操作如何打印出某列的内容?
我正在尝试打印出 abcd
列的内容,在正常的 df 中,我可以做到 df.show()
。
但是如何显示列对象?
>>> df = spark.createDataFrame([
... ('a', 1.0, 1.0), ('a',1.0, 0.2), ('b', 1.0, 1.0),
... ('c' ,1.0, 0.5), ('d', 0.55, 1.0),('e', 1.0, 1.0)
... ])
>>> df.show()
+---+----+---+
| _1| _2| _3|
+---+----+---+
| a| 1.0|1.0|
| a| 1.0|0.2|
| b| 1.0|1.0|
| c| 1.0|0.5|
| d|0.55|1.0|
| e| 1.0|1.0|
+---+----+---+
>>> abcd = spark_sum(
... when(
... spark_abs(
... df['_2'] -
... df['_3']
... ) < 0.05,
... "odt"
... ).otherwise(0)
... ).alias(
... 'yo,man'
... )
如何打印出abcd的内容?
>>> abcd
Column<sum(CASE WHEN (abs((_2 - _3)) < 0.05) THEN odt ELSE 0 END) AS `yo,man`>
how do I print out the content of abcd?
很简单。 Select 并显示:
df.select(abcd).show()
下面的操作如何打印出某列的内容?
我正在尝试打印出 abcd
列的内容,在正常的 df 中,我可以做到 df.show()
。
但是如何显示列对象?
>>> df = spark.createDataFrame([
... ('a', 1.0, 1.0), ('a',1.0, 0.2), ('b', 1.0, 1.0),
... ('c' ,1.0, 0.5), ('d', 0.55, 1.0),('e', 1.0, 1.0)
... ])
>>> df.show()
+---+----+---+
| _1| _2| _3|
+---+----+---+
| a| 1.0|1.0|
| a| 1.0|0.2|
| b| 1.0|1.0|
| c| 1.0|0.5|
| d|0.55|1.0|
| e| 1.0|1.0|
+---+----+---+
>>> abcd = spark_sum(
... when(
... spark_abs(
... df['_2'] -
... df['_3']
... ) < 0.05,
... "odt"
... ).otherwise(0)
... ).alias(
... 'yo,man'
... )
如何打印出abcd的内容?
>>> abcd
Column<sum(CASE WHEN (abs((_2 - _3)) < 0.05) THEN odt ELSE 0 END) AS `yo,man`>
how do I print out the content of abcd?
很简单。 Select 并显示:
df.select(abcd).show()