是否有合适的方法对只有四个值(0、1、2、4)且长度不固定的时间序列进行聚类?

Is there a suitable way to cluster time series where only four values are possible(0,1,2,4) and length is not fixed?

我正在尝试使用时间序列技术对客户的消费行为进行聚类。客户购买代币并在需要时使用它们(每天最多 4 个代币)。 这是客户旅程时间序列的示例(x = 第一次订购后的天数,y = 每天消耗的代币数量),它看起来类似于下图。

我尝试使用派生变量进行聚类(两个事件之间的中值延迟、延迟的标准差、代币总数、第一次和最后一次消费之间的时间、每次消费事件消费的代币平均数……)。我使用了 K-means,这给了我一些不错的结果,但它不足以发现数据中的所有模式。我看了一些关于在这种情况下使用动态时间扭曲的论文,但我从未使用过这种算法。 是否有关于使用此类算法对此类时间序列进行聚类的材料(演示)?

是的。

这里有很多有用的技巧。

文献中明显的方法是使用 DTW 的 HAC。