Presto中按id和按月的累计总和
Cumulative sum by id and by month in Presto
在 Amazon Athena 中,我有一个 table 看起来像这样:
id amount date
1 100 2018-04-05
1 50 2018-06-18
2 10 2018-04-23
2 100 2018-04-28
2 50 2018-07-07
2 10 2018-08-08
我想要
这样的结果
id cum_sum date
1 100 2018-04
1 100 2018-05
1 150 2018-06
1 150 2018-07
1 150 2018-08
2 110 2018-04
2 110 2018-05
2 110 2018-06
2 160 2018-07
2 170 2018-08
所以我想获得每个 ID 每个月底(每月最后一天)的累计金额。我知道如何逐月进行,但不知道如何在一次查询中进行。
另一个问题也变成了填补空白月份(即ID 1没有所有月份的条目,所以累积总和只需要重复使用)。
如果 MySQL 也有解决方案,我也将不胜感激。
我希望这是有道理的,并提前致谢。
这是一个 MySQL 8+ 解决方案,但是它可以很容易地适应早期版本,或者适应另一个支持 CTE 的数据库。它为 id
值和日期使用日历表。在生成 months/ids 的金额后,它会进行累加求和以获得最终结果。
WITH ids AS (
SELECT 1 AS id FROM dual UNION ALL
SELECT 2 FROM dual
),
months AS (
SELECT '2018-04-01' AS month UNION ALL -- use the first of the month
SELECT '2018-05-01' UNION ALL -- to represent a given month
SELECT '2018-06-01' UNION ALL
SELECT '2018-07-01' UNION ALL
SELECT '2018-08-01'
),
cte AS (
SELECT
i.id,
m.month,
SUM(amount) AS amount
FROM ids i
CROSS JOIN months m
LEFT JOIN yourTable t
ON t.id = i.id AND
t.date >= m.month AND t.date < DATE_ADD(m.month, INTERVAL 1 MONTH)
GROUP BY
i.id,
m.month
)
SELECT
id,
(SELECT SUM(t2.amount) FROM cte t2
WHERE t1.id = t2.id AND t2.month <= t1.month) cum_sum,
DATE_FORMAT(month, '%Y-%m') AS date
FROM cte t1
ORDER BY
id,
month;
让上述内容在 MySQL 的早期版本或 PrestoDB 上运行的主要挑战取决于可能删除 CTE 以及日期函数逻辑。除此之外,查询应该保持不变。
您可以在 PrestoDB 中使用 window 函数。您可以生成日期。列出这些也很简单:
with months as (
selecct '2018-04-01' as yyyy_mm union all -- use the first of the month
select '2018-05-01' union all
select '2018-06-01' union all
select '2018-07-01' union all
select '2018-08-01'
)
select i.id, m.yyyy_mm, sum(t.amt) as month_amount,
sum(sum(t.amt)) over (partition by i.id order by m.yyyy_mm) as cumulative_amt
from (select distinct id from t) i cross join
months m left join
t
on t.id = i.id and
t.date >= m.yyyy_mm and
t.date < m.yyyy_mm + interval '1 day'
group by i.id, m.yyyy_mm
order by i.id, m.yyyy_mm;
这也适用于 MySQL 8.0。在早期版本中,您需要变量或相关子查询。第一个在 PrestoDB 中不起作用。第二个可能性能更差。
在 Amazon Athena 中,我有一个 table 看起来像这样:
id amount date
1 100 2018-04-05
1 50 2018-06-18
2 10 2018-04-23
2 100 2018-04-28
2 50 2018-07-07
2 10 2018-08-08
我想要
这样的结果id cum_sum date
1 100 2018-04
1 100 2018-05
1 150 2018-06
1 150 2018-07
1 150 2018-08
2 110 2018-04
2 110 2018-05
2 110 2018-06
2 160 2018-07
2 170 2018-08
所以我想获得每个 ID 每个月底(每月最后一天)的累计金额。我知道如何逐月进行,但不知道如何在一次查询中进行。
另一个问题也变成了填补空白月份(即ID 1没有所有月份的条目,所以累积总和只需要重复使用)。
如果 MySQL 也有解决方案,我也将不胜感激。
我希望这是有道理的,并提前致谢。
这是一个 MySQL 8+ 解决方案,但是它可以很容易地适应早期版本,或者适应另一个支持 CTE 的数据库。它为 id
值和日期使用日历表。在生成 months/ids 的金额后,它会进行累加求和以获得最终结果。
WITH ids AS (
SELECT 1 AS id FROM dual UNION ALL
SELECT 2 FROM dual
),
months AS (
SELECT '2018-04-01' AS month UNION ALL -- use the first of the month
SELECT '2018-05-01' UNION ALL -- to represent a given month
SELECT '2018-06-01' UNION ALL
SELECT '2018-07-01' UNION ALL
SELECT '2018-08-01'
),
cte AS (
SELECT
i.id,
m.month,
SUM(amount) AS amount
FROM ids i
CROSS JOIN months m
LEFT JOIN yourTable t
ON t.id = i.id AND
t.date >= m.month AND t.date < DATE_ADD(m.month, INTERVAL 1 MONTH)
GROUP BY
i.id,
m.month
)
SELECT
id,
(SELECT SUM(t2.amount) FROM cte t2
WHERE t1.id = t2.id AND t2.month <= t1.month) cum_sum,
DATE_FORMAT(month, '%Y-%m') AS date
FROM cte t1
ORDER BY
id,
month;
让上述内容在 MySQL 的早期版本或 PrestoDB 上运行的主要挑战取决于可能删除 CTE 以及日期函数逻辑。除此之外,查询应该保持不变。
您可以在 PrestoDB 中使用 window 函数。您可以生成日期。列出这些也很简单:
with months as (
selecct '2018-04-01' as yyyy_mm union all -- use the first of the month
select '2018-05-01' union all
select '2018-06-01' union all
select '2018-07-01' union all
select '2018-08-01'
)
select i.id, m.yyyy_mm, sum(t.amt) as month_amount,
sum(sum(t.amt)) over (partition by i.id order by m.yyyy_mm) as cumulative_amt
from (select distinct id from t) i cross join
months m left join
t
on t.id = i.id and
t.date >= m.yyyy_mm and
t.date < m.yyyy_mm + interval '1 day'
group by i.id, m.yyyy_mm
order by i.id, m.yyyy_mm;
这也适用于 MySQL 8.0。在早期版本中,您需要变量或相关子查询。第一个在 PrestoDB 中不起作用。第二个可能性能更差。