在 pyspark 中使用 min 进行聚合

Aggregation with a min in pyspark

我正在尝试根据最小值聚合数据日期。我尝试使用 groupby() 但它给出了错误。

   history= history.selectExpr('aaa'\
        , 'bbb'\
        , 'ccc'\
        , 'date')

        history=history.groupBy()('aaa','bbb','ccc',min('date'))

我先试了

       history= history.selectExpr('aaa'\
            , 'bbb'\
            , 'ccc'\
            , min('date'))

但是也没用

谢谢:)

你可以简单地做到这一点:

from pyspark.sql import functions as F
history.groupBy("AAA","BBB","CCC").agg(F.min("date"))