Google 分析 API：事件时间与会话时间？

Question

假设我有以下查询：

d1 = service.data().ga().get(
      ids='ga:xxxxxxx',
      start_date='2016-04-25',
      end_date='2016-05-14',
      metrics='ga:users',
      dimensions='ga:dimension1,ga:hour,ga:date',
      sort='-ga:date',
      start_index='1',
      max_results='1500').execute()

d2 = service.data().ga().get(
      ids='ga:xxxxxxx',
      start_date='2016-04-25',
      end_date='2016-05-14',
      metrics='ga:uniqueEvents',
      dimensions='ga:dimension1,ga:eventCategory,ga:eventAction,ga:eventLabel,ga:date,ga:hour',
      sort='-ga:date',
      start_index='1',
      max_results='1500').execute()

ga:dimension1 正在填充每个用户唯一的用户范围的客户端 ID。

目标是在 ga:date、ga:hour 和 ga:dimension1.

加入 d1 和 d2

但假设用户在 10 点开始会话，并在 12 点触发事件。d1 会给出 hour = 10，但 d2 会给出 hour = 10 还是 12？

Answer 1

事件将获得事件发生的时间，即 d2 在您的示例中将给出 hour=12。

我解决这个问题的方法是在查询中添加维度 ga:sessionDurationBucket，以秒为单位给出会话持续时间（请参阅 here）。我不知道你用什么语言访问api，反正我不会post代码，只是解决问题的步骤。（我使用 R 当然我可以 post 我的代码如果你认为它有帮助的话。

我为来自 ga:date、ga:hour 和 ga:minute
我按 ga:dimension1 和 ga:sessionDurationBucket
对于每个组，在一个循环中：(a) 我得到较旧的时间戳，并添加会话持续时间 (ga:sessionDurationBucket/60+1)/(60*24 ) 获取 "last" 时间戳，(b) 我将会话的第一个时间戳到最后一个时间戳的所有记录分配给会话，并且 (c) 如果还有记录，则新的第一个时间戳是较旧的这些剩余记录的时间戳，然后我转到 (a)
循环后，"all"个寄存器被分配给一个session，我做处理（我把所有都放在引号之间，因为过程中可能有一些寄存器我无法分配, 但通常是一个可以忽略不计的数字)

我希望它足够清楚并且对您有所帮助。如果你觉得有用，我可以 post R 代码，或者如果你告诉我你使用的是哪种编程语言，我可以尝试重写它...

评论后添加：R中的示例代码

我正在使用 RGoogleAnalytics 库，这是我运行的查询（注意在这种情况下我不使用 dimension1 因为我正在使用的网站确实没有设置):

query.coll.d <- Init(start.date=start_date.d,
                     end.date=end_date.d,
                     dimensions=c("ga:date",
                                  "ga:hour",
                                  "ga:minute",
                                  "ga:sourceMedium",
                                  "ga:pagePath",
                                  "ga:previousPagePath",
                                  "ga:sessionDurationBucket"),
                     metrics=c("ga:sessions",
                               "ga:pageviews",
                               "ga:newUsers"),
                     table.id="ga:XXX view id XXX",
                     sort="-ga:date,-ga:hour,-ga:minute",
                     max.results = 20000)

ga.query.d <- QueryBuilder(query.coll.d)
ga.data.coll.d <- GetReportData(ga.query.d, token, paginate_query=TRUE)

据此，我构建了时间戳（注意 GA 不提供秒数），

require(chron)
ga.data.coll.d$datetime <- chron(ga.data.coll.d$date, paste(ga.data.coll.d$hour,
                                                            ga.data.coll.d$minute,
                                                            '00',
                                                            sep=":"),
                                 format=c("ymd","h:m:s"))

这是一个使用全局变量创建唯一用户 ID 的函数，以便我以后可以在我的函数中使用它。

userId <- 1
getNewId <- function() {
  current <- get("userId", envir = .GlobalEnv)
  current <- current + 1
  assign("userId", current, envir = .GlobalEnv)
  return(current)
}

这是我根据上面试图描述的算法处理group by结果的函数，其中sessionDurationBucket是一个整数，datetimes和sessions 是分组依据的会话列表和时间戳。

one_minute <- 1/(60*24)
setUserId <- function(datetimes, sessions, sessionDurationBucket) {
  if (length(datetimes) == 1) {
    # just one row received
    return(getNewId())
  }
  if (sum(sessions) == 1) {
    # just one session, all rows belong to the same user
    return(getNewId())
  }
  users <- rep(NA, length(datetimes))
  if (sessionDurationBucket == 0) {
    # sessions of 1 page and length 0 => assign a user per session
    for (i in 1:length(datetimes)) {
      users[i] <- getNewId()
    }
    return(users)
  }
  # general case
  minutes <- ceiling(as.numeric(sessionDurationBucket)/60) + 1
  i <- 1
  while(TRUE) {
    index_lag <- (datetimes >= datetimes[i] - minutes*one_minute) & is.na(users)
    sessions_lag <- sum(sessions[index_lag])
    if (sessions_lag == 1) {
      users[index_lag] <- getNewId()
    } else {
      # two or more sessions mixed together
      users[index_lag] <- 0
    }
    # look for remaining users (without id yet)
    rem_users <- which(is.na(users))
    if (length(rem_users) == 0) {
      break
    }
    i <- min(rem_users)
  }
  return(users)
}

并且我使用 data.table 作为运行分组依据并创建新列（请注意，在您的情况下，您可以使用 dimension1 而不是 sourceMedium在组中）。另请注意，它假定寄存器按日期倒序排列，这是在 GA 查询中完成的。

require(data.table)
ga.data.coll.dt <- data.table(ga.data.coll.d)
ga.data.coll.dt[, userId:=setUserId(datetime, sessions, sessionDurationBucket), by=list(sessionDurationBucket, sourceMedium)]

最后，我删除了所有 userId 等于 0 的寄存器，因为对于这些寄存器，上面的代码无法解析会话。就我而言，一个可以忽略不计的数字。

其实我打算在我不起眼的博客里写一篇post，包括更多的解释，但我要到月底才能完成......希望它能有所帮助。

Google 分析 API：事件时间与会话时间？

Google Analytics API: hour of event vs hour of session?

google-analytics

google-analytics-api