PySpark:如何以易于阅读的方式将数据从字符串转换为数据(或整数)

PySpark: How to transform data from string to data (or integer) in an easy-to-read manner

我在数据框中有一个日期列,如下所示:

"JAN20, FEB20, MAR20 .... JAN21, FEB21, MAR21..."

当我尝试按此时间戳绘制数字时,这产生了一个问题,因为这些在技术上是字符串(不可排序),而不是时间戳或整数。

我想一种方法是将“JAN20”转换为“20_1”,这样它首先按年排序,然后按月排序,但它失去了“JAN20”的可读性/可解释性。

或者,有没有办法让我指定 "JAN, FEB, MAR, APR, MAY, JUN ..." 是正确的字符串顺序?

对于如何转换此列的任何意见,以便它可以正确排序,并在时间序列图上正确显示,我将不胜感激。

非常感谢!

P.S 这是在 PySpark 中。

只需在每一列前附加一个索引,就像这样01Jan20, 02Feb20, ... 10Oct20, ...。不要忘记前导零,您可能需要多个零,具体取决于您拥有的列数。