SQL 按更改列分组

Question

假设我有一个按日期排序的 table：

+-------------+--------+
|    DATE     |  VALUE |
+-------------+--------+
|  01-09-2020 |   5    |
|  01-15-2020 |   5    |
|  01-17-2020 |   5    |
|  02-03-2020 |   8    |
|  02-13-2020 |   8    |
|  02-20-2020 |   8    |
|  02-23-2020 |   5    |
|  02-25-2020 |   5    |
|  02-28-2020 |   3    |
|  03-13-2020 |   3    |
|  03-18-2020 |   3    |
+-------------+--------+

我想按给定日期范围内的值变化进行分组，并添加一个每次递增的值作为添加的列来表示。

我尝试了很多不同的方法，例如使用 lag 函数：

SELECT value, value - lag(value) over (order by date) as count
GROUP BY value

简而言之，我想把上面的 table 变成这样：

+-------------+--------+-------+
|    DATE     |  VALUE | COUNT |
+-------------+--------+-------+
|  01-09-2020 |   5    |   1   |
|  01-15-2020 |   5    |   1   |
|  01-17-2020 |   5    |   1   |
|  02-03-2020 |   8    |   2   |
|  02-13-2020 |   8    |   2   |
|  02-20-2020 |   8    |   2   |
|  02-23-2020 |   5    |   3   |
|  02-25-2020 |   5    |   3   |
|  02-28-2020 |   3    |   4   |
|  03-13-2020 |   3    |   4   |
|  03-18-2020 |   3    |   4   |
+-------------+--------+-------+

我想最终把所有的东西都放在一个小的 table 中，每个都有最早的日期。

+-------------+--------+-------+
|    DATE     |  VALUE | COUNT |
+-------------+--------+-------+
|  01-09-2020 |   5    |   1   |
|  02-03-2020 |   8    |   2   |
|  02-23-2020 |   5    |   3   |
|  02-28-2020 |   3    |   4   |
+-------------+--------+-------+

任何帮助将不胜感激

Answer 1

您可以使用滞后和累积总和以及子查询：

SELECT value,
       SUM(CASE WHEN prev_value = value THEN 0 ELSE 1 END) OVER (ORDER BY date)
FROM (SELECT t.*, LAG(value) OVER (ORDER BY date) as prev_value
      FROM t
     ) t

Here 是一个 db<>fiddle.

Answer 2

您可以递归地使用 lag() 然后 row_number() 解析函数：

WITH t2 AS
(
SELECT LAG(value,1,value-1) OVER (ORDER BY date) as lg,
       t.*
  FROM t
)
SELECT t2.date,t2.value, ROW_NUMBER() OVER (ORDER BY t2.date) as count
  FROM t2
 WHERE value - lg != 0

Demo

并过滤掉这些函数返回值之间的不等式。

Answer 3

您可以结合使用 Row_number 和 Dense_rank 函数来获得所需的结果，如下所示：

;with cte
as
(
select t.DATE,t.VALUE
,Dense_rank() over(partition by t.VALUE order by t.DATE) as d_rank
,Row_number() over(partition by t.VALUE order by t.DATE) as r_num
from table t 
)
Select t.Date,t.Value,d_rank as count
from cte
where r_num = 1

SQL 按更改列分组

SQL group by changing column

sql

scala

lag

gaps-and-islands

apache-spark