PySpark:如何以易于阅读的方式将数据从字符串转换为数据(或整数)
PySpark: How to transform data from string to data (or integer) in an easy-to-read manner
我在数据框中有一个日期列,如下所示:
"JAN20, FEB20, MAR20 .... JAN21, FEB21, MAR21..."
当我尝试按此时间戳绘制数字时,这产生了一个问题,因为这些在技术上是字符串(不可排序),而不是时间戳或整数。
我想一种方法是将“JAN20”转换为“20_1”,这样它首先按年排序,然后按月排序,但它失去了“JAN20”的可读性/可解释性。
或者,有没有办法让我指定 "JAN, FEB, MAR, APR, MAY, JUN ..."
是正确的字符串顺序?
对于如何转换此列的任何意见,以便它可以正确排序,并在时间序列图上正确显示,我将不胜感激。
非常感谢!
P.S 这是在 PySpark 中。
只需在每一列前附加一个索引,就像这样01Jan20, 02Feb20, ... 10Oct20, ...
。不要忘记前导零,您可能需要多个零,具体取决于您拥有的列数。
我在数据框中有一个日期列,如下所示:
"JAN20, FEB20, MAR20 .... JAN21, FEB21, MAR21..."
当我尝试按此时间戳绘制数字时,这产生了一个问题,因为这些在技术上是字符串(不可排序),而不是时间戳或整数。
我想一种方法是将“JAN20”转换为“20_1”,这样它首先按年排序,然后按月排序,但它失去了“JAN20”的可读性/可解释性。
或者,有没有办法让我指定 "JAN, FEB, MAR, APR, MAY, JUN ..."
是正确的字符串顺序?
对于如何转换此列的任何意见,以便它可以正确排序,并在时间序列图上正确显示,我将不胜感激。
非常感谢!
P.S 这是在 PySpark 中。
只需在每一列前附加一个索引,就像这样01Jan20, 02Feb20, ... 10Oct20, ...
。不要忘记前导零,您可能需要多个零,具体取决于您拥有的列数。