如何根据 Python 出现的时间戳构建序列?

How to build a sequence based on timestamps ocurrences with Python?

我主要在 Python 的数据库上工作,该数据库包含 17.000.000 条记录和 2.800.000 个唯一 ID。每个ID代表一个发货过​​程的一个事件,所有的实例都有:ID、EVENT、TIMESTAMP(日期时间)。有一个事件通常但不总是启动序列,并且有多个结果,即交付、退回等。

我的目标是找到每个 ID 最常见的路径,也就是说,事件发生的顺序是什么,并找出过程中的瓶颈。

是否有任何内置此结构的可视化工具可以与 Python 一起使用? 你会如何建议我处理这个问题?

谢谢

这不是 Python 的答案,但考虑到这个问题,我认为有更好的方法来执行此类分析。

不知道大家有没有听说过Process Mining。但我认为在你的情况下使用它是完美的。基本上,流程挖掘包括分析流程的流程。我使用过不同的工具,其中一些是:

  • 迪斯科
  • ProM(开源)
  • 塞洛尼斯

基本上,您需要做的就是定义什么是 ID(您已经有了),然后选择哪些列代表时间戳(您已经有了)和事件名称(您也有了) .

这些工具中的任何一个都能够为您提供完美的流程分析。哪条是最常见的路径,每个事件的平均时间等。 如果您添加更多属性,它甚至可以 return 根据这些属性遵循一条或另一条路径的原因是什么。