Pyspark：如何编写复杂的数据框计算铅总和

Question

我给出的数据框看起来像这样。此数据框按日期排序，col1 只是一些随机值。

    TEST_schema = StructType([StructField("date", StringType(), True),\
                              StructField("col1", IntegerType(), True),\
                             ])
    TEST_data = [('2020-08-01',3),('2020-08-02',1),('2020-08-03',-1),('2020-08-04',-1),('2020-08-05',3),\
                 ('2020-08-06',-1),('2020-08-07',6),('2020-08-08',4),('2020-08-09',5)]
    rdd3 = sc.parallelize(TEST_data)
    TEST_df = sqlContext.createDataFrame(TEST_data, TEST_schema)
    TEST_df.show() 
    
+----------+----+
|      date|col1|
+----------+----+
|2020-08-01|   3|
|2020-08-02|   1|
|2020-08-03|  -1|
|2020-08-04|  -1|
|2020-08-05|   3|
|2020-08-06|  -1|
|2020-08-07|   6|
|2020-08-08|   4|
|2020-08-09|   5|
+----------+----+

LOGIC : lead(col1) +1，如果 col1 ==-1，则从之前的值 lead(col1) +2...
结果数据框将如下所示（想要的列是我想要的输出）

+----------+----+----+
|      date|col1|WANT|
+----------+----+----+
|2020-08-01|   3|   2|
|2020-08-02|   1|   6|
|2020-08-03|  -1|   5|
|2020-08-04|  -1|   4|
|2020-08-05|   3|   8|
|2020-08-06|  -1|   7|
|2020-08-07|   6|   5|
|2020-08-08|   4|   6|
|2020-08-09|   5|  -1|
+----------+----+----+

让我们看最后一行，其中col1==5，即5是leaded +1 want==6 (2020-08-08) 如果我们有 col==-1，那么我们再添加 +1，如果我们有 col==-1 重复两次，那么我们再添加 +2.. 这很难用语言解释，最后因为它创建了最后一列而不是 null，所以用 -1 替换。我有图

Answer 1

您可以检查以下代码和逻辑是否适合您：

创建一个 sub-group 标签 g，它取运行和 int(col1!=-1)，我们只关心 col1 == -1 的行，并使所有其他行无效行。
残差为 1，如果 col1 == -1，加上运行计数 Window w2
将 prev_col1 置于 w1 之上，后者不是 -1（使用 nullif），（prev_col1 的命名可能会造成混淆，因为它只需要 col1 = -1 使用典型的 pyspark 的方式做 ffill，否则保持原来的方式）。
set val = prev_col1 + residual，取滞后并将null设置为-1

代码如下：

from pyspark.sql.functions import when, col, expr, count, desc, lag, coalesce    
from pyspark.sql import Window

w1 = Window.orderBy(desc('date'))
w2 = Window.partitionBy('g').orderBy(desc('date'))  

TEST_df.withColumn('g', when(col('col1') == -1, expr("sum(int(col1!=-1))").over(w1))) \
    .withColumn('residual', when(col('col1') == -1, count('*').over(w2) + 1).otherwise(1)) \
    .withColumn('prev_col1',expr("last(nullif(col1,-1),True)").over(w1)) \
    .withColumn('want', coalesce(lag(expr("prev_col1 + residual")).over(w1),lit(-1))) \
    .orderBy('date').show()
+----------+----+----+--------+---------+----+
|      date|col1|   g|residual|prev_col1|want|
+----------+----+----+--------+---------+----+
|2020-08-01|   3|null|       1|        3|   2|
|2020-08-02|   1|null|       1|        1|   6|
|2020-08-03|  -1|   4|       3|        3|   5|
|2020-08-04|  -1|   4|       2|        3|   4|
|2020-08-05|   3|null|       1|        3|   8|
|2020-08-06|  -1|   3|       2|        6|   7|
|2020-08-07|   6|null|       1|        6|   5|
|2020-08-08|   4|null|       1|        4|   6|
|2020-08-09|   5|null|       1|        5|  -1|
+----------+----+----+--------+---------+----+

Pyspark：如何编写复杂的数据框计算铅总和

Pyspark : how to code complicated dataframe calculation lead sum

apache-spark-sql

pyspark

pyspark-dataframes