什么会导致提取的 Google 分析报告中出现重复行?

What could cause duplicate rows in fetched Google Analytics reports?

我正在开发一种工具,可以从站点获取大约 3 年的历史数据,以便执行一些数据分析和机器学习。

我要求的报告维度是:

[ ga:cityId, ga:dateHour, ga:userType, ga:deviceCategory ]

我的出发点是导入到 postgres 数据库(数据最终可能位于其他地方,但我们有充分的理由从关系数据库开始)。

我已经在 [ ga:cityId, ga:dateHour, ga:userType, ga:deviceCategory ] 元组上为 postgres table 定义了一个唯一索引,我的导入作业目前通常每 30000-50000 行失败一次,因为该元组重复。

什么会导致 google 到 return 行重复?

我按 1000 行/语句对插入进行批处理,因为一次一行会非常耗时,所以我认为我最好的解决方法是在初始导入期间禁用唯一索引,删除重复数据,然后重新启用它,每天一次一行地导入新数据。其他策略?

如果时间范围是唯一的,则不应有从 google 返回的重复报告。

您使用的是绝对日期还是相对(当前)日期?如果是后者,则应确保相对时间(即现在)的进展引起的时间段变化不会导致重叠。

使用相对时间段也可能导致数据出现间隙。