如何根据 Python 出现的时间戳构建序列?
How to build a sequence based on timestamps ocurrences with Python?
我主要在 Python 的数据库上工作,该数据库包含 17.000.000 条记录和 2.800.000 个唯一 ID。每个ID代表一个发货过程的一个事件,所有的实例都有:ID、EVENT、TIMESTAMP(日期时间)。有一个事件通常但不总是启动序列,并且有多个结果,即交付、退回等。
我的目标是找到每个 ID 最常见的路径,也就是说,事件发生的顺序是什么,并找出过程中的瓶颈。
是否有任何内置此结构的可视化工具可以与 Python 一起使用?
你会如何建议我处理这个问题?
谢谢
这不是 Python 的答案,但考虑到这个问题,我认为有更好的方法来执行此类分析。
不知道大家有没有听说过Process Mining。但我认为在你的情况下使用它是完美的。基本上,流程挖掘包括分析流程的流程。我使用过不同的工具,其中一些是:
- 迪斯科
- ProM(开源)
- 塞洛尼斯
基本上,您需要做的就是定义什么是 ID(您已经有了),然后选择哪些列代表时间戳(您已经有了)和事件名称(您也有了) .
这些工具中的任何一个都能够为您提供完美的流程分析。哪条是最常见的路径,每个事件的平均时间等。
如果您添加更多属性,它甚至可以 return 根据这些属性遵循一条或另一条路径的原因是什么。
我主要在 Python 的数据库上工作,该数据库包含 17.000.000 条记录和 2.800.000 个唯一 ID。每个ID代表一个发货过程的一个事件,所有的实例都有:ID、EVENT、TIMESTAMP(日期时间)。有一个事件通常但不总是启动序列,并且有多个结果,即交付、退回等。
我的目标是找到每个 ID 最常见的路径,也就是说,事件发生的顺序是什么,并找出过程中的瓶颈。
是否有任何内置此结构的可视化工具可以与 Python 一起使用? 你会如何建议我处理这个问题?
谢谢
这不是 Python 的答案,但考虑到这个问题,我认为有更好的方法来执行此类分析。
不知道大家有没有听说过Process Mining。但我认为在你的情况下使用它是完美的。基本上,流程挖掘包括分析流程的流程。我使用过不同的工具,其中一些是:
- 迪斯科
- ProM(开源)
- 塞洛尼斯
基本上,您需要做的就是定义什么是 ID(您已经有了),然后选择哪些列代表时间戳(您已经有了)和事件名称(您也有了) .
这些工具中的任何一个都能够为您提供完美的流程分析。哪条是最常见的路径,每个事件的平均时间等。 如果您添加更多属性,它甚至可以 return 根据这些属性遵循一条或另一条路径的原因是什么。