如何处理任意时间序列数据的收集和分析(数据流挖掘)

How to handle collection and analysis of arbitrary timeseries data (data stream mining)

在我们的黑客空间,我们有几个环境传感器和事件跟踪器(例如 # 个连接的设备、加热、酒吧交易等),它们定期输出时间序列数据。我们当前平台的输出由一个 unix 时间戳 + value/event 组成。每个探测器的轮询时间间隔都不同。

目标是在

的一个数据集中收集这些数据
  1. 高效存储
  2. 在线分析(使用scikit)
  3. 流式可视化(使用散景)
  4. 以集成方式处理实数值和离散数值数据
  5. (最好使用 Python 但这不是必需的。)

实现上述目标的实用方法是什么?是否有提供此功能的现有库?

当前(不完善)计划:

但是,这会导致数据集的大部分为 NaN 值,并且会带来其自身的统计问题和可能的存储问题。另一种选择是预先确定中值间隔并存储丢失的一些数据。

经过进一步搜索,时间序列数据库显示是正确答案。我计划使用 OpenTSDB,因为它似乎是可用时间序列数据库中最发达的。

这解决了数据库管理系统内置的存储和间隔查询问题。那么这只是使用 Bokeh 进行可视化的问题。