Google 分析 - 抽样数据呈现的会话多于 API 查询

Google Analytics - Sampled Data presents more sessions than API query

我正在使用 Core Reporting API V3 自动化 Google 分析报告。

当我为包含我之前定义的段的查询请求数据时,会发生以下情况

通过 API 获得的查询报告的会话、用户和网页浏览量等指标高于 Google 分析报告中显示的指标。 我注意到在 GA 提交的报告中,他们提到他们是抽样的。 这引起了怀疑,因为我认为抽样效果的指标会低于全部计算的指标。

这有什么意义? (非抽样报告中指标的级别高于抽样报告中的指标)

抽样只是意味着数据不太准确:它有可能大于或小于真实值。

举例来说,假设我在一家正好有 10,000 名员工的公司工作。大奶酪想要对他们的劳动力进行非常详细的调查,以确保每个人都满意,但认为损失 10,000 小时的工作时间是不对的。相反,他们随机 select 1,000 名员工。只要 selection 是真正随机的,那应该是一个有代表性的样本,这意味着这个群体的性别平衡、种族、有孩子的百分比、平均通勤时间等将与劳动力大致相同一个整体。

同样,如果您要求 Google Analytics 运行 一份需要大量聚合的报告,它可能会决定只查看您的一半数据。即使是最简单的请求也常常需要大量的计算;从他们的角度来看,随机 select 只有 40% 或 50% 的会话并扩大结果要便宜得多。

他们事后乘以结果进行补偿,所以你看到的结果会和真实值大致相等。最大的变化会出现在不经常发生的事情上;假设您为 'someone just spent £1,000' 举办了一场活动,该活动很可能每年举行一次。如果这在 Google 的样本中随机出现,它可能会决定它每年发生两次。否则,它可能认为它永远不会发生。

如果您面临大量采样,有多种方法可以避免。我推荐以下内容:

  • 避免使用用户指标;这是最耗时的计算之一。
  • 保持时间短。
  • 避免使用复杂的段。
  • 尽量不要一次使用太多维度。
  • 尽量不要点击率那么高!你有很多多余的事件吗?您是否在多个网站上使用相同的代码?过度使用虚拟页面浏览量?

如果您有 Google Analytics Premium,您可以请求非抽样报告,但您应该注意为“用户”指标提供的导出总数;他们仍然搞砸了。

采样可以以任何速度进行;在极端情况下,他们可能会将您的会话减少到不到 1%。你应该对任何抽样统计数据持保留态度,但也要明白他们知道自己在做什么。如果您的样本量为 50% 或更多,则没有问题。低于 40%,你就应该开始担心了。如果您得到的百分比不到 1%,那么您确实在 Google 分析超出了它的临界点,所以如果它没有尽力帮助您,请不要感到惊讶。