如何根据基于 Pyspark 中另一列的表达式评估有条件地替换列中的值？

Question

import numpy as np

df = spark.createDataFrame(
    [(1, 1, None),
     (1, 2, float(5)),
     (1, 3, np.nan),
     (1, 4, None),
     (0, 5, float(10)),
     (1, 6, float('nan')),
     (0, 6, float('nan'))],
    ('session', "timestamp1", "id2"))

+-------+----------+----+
|session|timestamp1| id2|
+-------+----------+----+
|      1|         1|null|
|      1|         2| 5.0|
|      1|         3| NaN|
|      1|         4|null|
|      0|         5|10.0|
|      1|         6| NaN|
|      0|         6| NaN|
+-------+----------+----+

当session==0时如何用值999替换timestamp1列的值？

预期输出

+-------+----------+----+
|session|timestamp1| id2|
+-------+----------+----+
|      1|         1|null|
|      1|         2| 5.0|
|      1|         3| NaN|
|      1|         4|null|
|      0|       999|10.0|
|      1|         6| NaN|
|      0|       999| NaN|
+-------+----------+----+

是否可以在 PySpark 中使用 replace() 来实现？

Answer 1

您应该使用 when（带有 otherwise）函数：

from pyspark.sql.functions import when

targetDf = df.withColumn("timestamp1", \
              when(df["session"] == 0, 999).otherwise(df["timestamp1"]))

如何根据基于 Pyspark 中另一列的表达式评估有条件地替换列中的值？

How to conditionally replace value in a column based on evaluation of expression based on another column in Pyspark?

apache-spark

apache-spark-sql

pyspark

pyspark-sql