MySQL 是否可以根据时间序列计算平均时间?

Is it possible for MySQL to calculate average time from a time series?

假设您有一个通用分析工具可以跟踪页面浏览量,并且您想要获得每个用户的第一个事件和最后一个事件之间的总时间。 window 函数是否可行?

示例数据如下:

CREATE TABLE `user_events` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `user` varchar(45) DEFAULT NULL,
  `page` varchar(45) DEFAULT NULL,
  `ts` timestamp NULL DEFAULT NULL,
  PRIMARY KEY (`id`)
);
INSERT INTO `user_events` VALUES 
  (1,'user1','home','2019-03-03 10:00:00'),
  (2,'user2','home','2019-03-03 10:00:11'),
  (3,'user1','about','2019-03-03 10:00:23'),
  (4,'user1','contact','2019-03-03 10:00:47'),
  (5,'user2','services','2019-03-03 10:01:04'),
  (6,'user2','contact','2019-03-03 10:01:15'),
  (7,'user1','home','2019-03-03 18:20:34'),
  (8,'user1','services','2019-03-03 18:20:37');

这让我们开始:

mysql> select * from user_events;
+----+-------+----------+---------------------+
| id | user  | page     | ts                  |
+----+-------+----------+---------------------+
|  1 | user1 | home     | 2019-03-03 10:00:00 |
|  2 | user2 | home     | 2019-03-03 10:00:11 |
|  3 | user1 | about    | 2019-03-03 10:00:23 |
|  4 | user1 | contact  | 2019-03-03 10:00:47 |
|  5 | user2 | services | 2019-03-03 10:01:04 |
|  6 | user2 | contact  | 2019-03-03 10:01:15 |
|  7 | user1 | home     | 2019-03-03 18:20:34 |
|  8 | user1 | services | 2019-03-03 18:20:37 |
+----+-------+----------+---------------------+

我们在这一切完成后的预期结果如下:

这会给我们平均 38 秒

这个博客似乎使用 Postgres 作为示例 https://blog.jooq.org/2015/05/12/use-this-neat-window-function-trick-to-calculate-time-differences-in-a-time-series/ 博客的最后一部分提到使用 'reset' 来启动计时器,但是我在转换Postgres 到 MySQL

我遵循了 https://modern-sql.com/feature/filter

中 FILTER 的替代方法
mysql> SELECT
    ->   COUNT(CASE WHEN page = 'home' THEN 1 END)  OVER (ORDER BY ts) c,
    ->   ts
    -> FROM user_events;
+---+---------------------+
| c | ts                  |
+---+---------------------+
| 1 | 2019-03-03 10:00:00 |
| 2 | 2019-03-03 10:00:11 |
| 2 | 2019-03-03 10:00:23 |
| 2 | 2019-03-03 10:00:47 |
| 2 | 2019-03-03 10:01:04 |
| 2 | 2019-03-03 10:01:15 |
| 3 | 2019-03-03 18:20:34 |
| 3 | 2019-03-03 18:20:37 |
+---+---------------------+

但我显然需要某种分组,这样第二次用户主页访问不会重置第一次。

我也试过一个简单的min/max

mysql> select TIMEDIFF(max(ts),min(ts)) as session_length, user
    -> from user_events
    -> group by user;
+----------------+-------+
| session_length | user  |
+----------------+-------+
| 08:20:37       | user1 |
| 00:01:04       | user2 |
+----------------+-------+

但我再次需要重置,这样用户 1 的 2 个会话就不会分组。

我尝试对给定数据进行的操作是否可行,或者我是否需要另一个 "session_id"(或类似的)列来帮助查询

不幸的是,您已经猜对了,您的数据模型中需要一个 session_id 字段才能准确识别每个用户实际上是独一无二的。解决这个问题的唯一方法是设置一个默认计时器值,当超过该值时会认为用户已经创建了一个新会话,但这非常麻烦,我不会以任何方式推荐它,因为它会带来其他问题并且计算会呈指数级增长更难处理。

用户 1 在您的示例中出现了两次,因此很难从现有的数据模型中获得您想要的结果。如果没有您的结果,任何查看此内容的人都会说 user1 在系统上花费了 8 小时 20 分 30 秒。

如果在 user_events table 中插入一个 session_id 就可以实现你想要的。 然后,您可以通过执行如下查询找到每个用户会话花费的时间(以秒为单位)

    SELECT session_id, max(ts) as end_of_session, min(ts) as start_of_session, 
    (UNIX_TIMESTAMP(max(ts)) - UNIX_TIMESTAMP(min(ts))) as delta_ts
    FROM user_events
    GROUP BY session_id
    ORDER BY session_id

然后您可以将其包装在一个调用中,该调用通过如下查询计算出所有唯一用户会话的平均持续时间

SELECT avg(delta_ts)
FROM
(    
    SELECT session_id, max(ts) as end_of_session, min(ts) as start_of_session, 
    (UNIX_TIMESTAMP(max(ts)) - UNIX_TIMESTAMP(min(ts))) as delta_ts
    FROM user_events
    GROUP BY session_id
    ORDER BY session_id
)q_inner

如果将 session_id 字段添加到您的模型中,此示例将按预期工作。

CREATE TABLE `user_events` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `session_id` varchar(10) NOT NULL,
  `user` varchar(45) DEFAULT NULL,
  `page` varchar(45) DEFAULT NULL,
  `ts` timestamp NULL DEFAULT NULL,
  PRIMARY KEY (`id`)
);
INSERT INTO `user_events` VALUES 
  (1,'z1a64','user1','home','2019-03-03 10:00:00'),
  (2,'wopa1','user2','home','2019-03-03 10:00:11'),
  (3,'z1a64','user1','about','2019-03-03 10:00:23'),
  (4,'z1a64','user1','contact','2019-03-03 10:00:47'),
  (5,'wopa1','user2','services','2019-03-03 10:01:04'),
  (6,'wopa1','user2','contact','2019-03-03 10:01:15'),
  (7,'n3dhe','user1','home','2019-03-03 18:20:34'),
  (8,'n3dhe','user1','services','2019-03-03 18:20:37');


SELECT avg(delta_ts)
FROM
(    
    SELECT session_id, max(ts) as end_of_session, min(ts) as start_of_session, 
    (UNIX_TIMESTAMP(max(ts)) - UNIX_TIMESTAMP(min(ts))) as delta_ts
    FROM user_events
    GROUP BY session_id
    ORDER BY session_id
)q_inner