Google 分析 API:事件时间与会话时间?
Google Analytics API: hour of event vs hour of session?
假设我有以下查询:
d1 = service.data().ga().get(
ids='ga:xxxxxxx',
start_date='2016-04-25',
end_date='2016-05-14',
metrics='ga:users',
dimensions='ga:dimension1,ga:hour,ga:date',
sort='-ga:date',
start_index='1',
max_results='1500').execute()
d2 = service.data().ga().get(
ids='ga:xxxxxxx',
start_date='2016-04-25',
end_date='2016-05-14',
metrics='ga:uniqueEvents',
dimensions='ga:dimension1,ga:eventCategory,ga:eventAction,ga:eventLabel,ga:date,ga:hour',
sort='-ga:date',
start_index='1',
max_results='1500').execute()
ga:dimension1
正在填充每个用户唯一的用户范围的客户端 ID。
目标是在 ga:date
、ga:hour
和 ga:dimension1
.
加入 d1
和 d2
但假设用户在 10 点开始会话,并在 12 点触发事件。d1
会给出 hour = 10,但 d2
会给出 hour = 10 还是 12?
事件将获得事件发生的时间,即 d2
在您的示例中将给出 hour=12。
我解决这个问题的方法是在查询中添加维度 ga:sessionDurationBucket
,以秒为单位给出会话持续时间(请参阅 here)。我不知道你用什么语言访问api,反正我不会post代码,只是解决问题的步骤。 (我使用 R
当然我可以 post 我的代码如果你认为它有帮助的话。
我为来自 ga:date
、ga:hour
和 ga:minute
的每条记录构建了一个时间戳
我按 ga:dimension1
和 ga:sessionDurationBucket
对记录进行分组
对于每个组,在一个循环中:(a) 我得到较旧的时间戳,并添加会话持续时间 (ga:sessionDurationBucket
/60+1)/(60*24 ) 获取 "last" 时间戳,(b) 我将会话的第一个时间戳到最后一个时间戳的所有记录分配给会话,并且 (c) 如果还有记录,则新的第一个时间戳是较旧的这些剩余记录的时间戳,然后我转到 (a)
循环后,"all"个寄存器被分配给一个session,我做处理(我把所有都放在引号之间,因为过程中可能有一些寄存器我无法分配, 但通常是一个可以忽略不计的数字)
我希望它足够清楚并且对您有所帮助。如果你觉得有用,我可以 post R
代码,或者如果你告诉我你使用的是哪种编程语言,我可以尝试重写它...
评论后添加:R中的示例代码
我正在使用 RGoogleAnalytics
库,这是我 运行 的查询(注意在这种情况下我不使用 dimension1
因为我正在使用的网站确实没有设置):
query.coll.d <- Init(start.date=start_date.d,
end.date=end_date.d,
dimensions=c("ga:date",
"ga:hour",
"ga:minute",
"ga:sourceMedium",
"ga:pagePath",
"ga:previousPagePath",
"ga:sessionDurationBucket"),
metrics=c("ga:sessions",
"ga:pageviews",
"ga:newUsers"),
table.id="ga:XXX view id XXX",
sort="-ga:date,-ga:hour,-ga:minute",
max.results = 20000)
ga.query.d <- QueryBuilder(query.coll.d)
ga.data.coll.d <- GetReportData(ga.query.d, token, paginate_query=TRUE)
据此,我构建了时间戳(注意 GA 不提供秒数),
require(chron)
ga.data.coll.d$datetime <- chron(ga.data.coll.d$date, paste(ga.data.coll.d$hour,
ga.data.coll.d$minute,
'00',
sep=":"),
format=c("ymd","h:m:s"))
这是一个使用全局变量创建唯一用户 ID 的函数,以便我以后可以在我的函数中使用它。
userId <- 1
getNewId <- function() {
current <- get("userId", envir = .GlobalEnv)
current <- current + 1
assign("userId", current, envir = .GlobalEnv)
return(current)
}
这是我根据上面试图描述的算法处理group by结果的函数,其中sessionDurationBucket
是一个整数,datetimes
和sessions
是分组依据的会话列表和时间戳。
one_minute <- 1/(60*24)
setUserId <- function(datetimes, sessions, sessionDurationBucket) {
if (length(datetimes) == 1) {
# just one row received
return(getNewId())
}
if (sum(sessions) == 1) {
# just one session, all rows belong to the same user
return(getNewId())
}
users <- rep(NA, length(datetimes))
if (sessionDurationBucket == 0) {
# sessions of 1 page and length 0 => assign a user per session
for (i in 1:length(datetimes)) {
users[i] <- getNewId()
}
return(users)
}
# general case
minutes <- ceiling(as.numeric(sessionDurationBucket)/60) + 1
i <- 1
while(TRUE) {
index_lag <- (datetimes >= datetimes[i] - minutes*one_minute) & is.na(users)
sessions_lag <- sum(sessions[index_lag])
if (sessions_lag == 1) {
users[index_lag] <- getNewId()
} else {
# two or more sessions mixed together
users[index_lag] <- 0
}
# look for remaining users (without id yet)
rem_users <- which(is.na(users))
if (length(rem_users) == 0) {
break
}
i <- min(rem_users)
}
return(users)
}
并且我使用 data.table
作为 运行 分组依据并创建新列(请注意,在您的情况下,您可以使用 dimension1
而不是 sourceMedium
在组中)。另请注意,它假定寄存器按日期倒序排列,这是在 GA 查询中完成的。
require(data.table)
ga.data.coll.dt <- data.table(ga.data.coll.d)
ga.data.coll.dt[, userId:=setUserId(datetime, sessions, sessionDurationBucket), by=list(sessionDurationBucket, sourceMedium)]
最后,我删除了所有 userId
等于 0 的寄存器,因为对于这些寄存器,上面的代码无法解析会话。就我而言,一个可以忽略不计的数字。
其实我打算在我不起眼的博客里写一篇post,包括更多的解释,但我要到月底才能完成......希望它能有所帮助。
假设我有以下查询:
d1 = service.data().ga().get(
ids='ga:xxxxxxx',
start_date='2016-04-25',
end_date='2016-05-14',
metrics='ga:users',
dimensions='ga:dimension1,ga:hour,ga:date',
sort='-ga:date',
start_index='1',
max_results='1500').execute()
d2 = service.data().ga().get(
ids='ga:xxxxxxx',
start_date='2016-04-25',
end_date='2016-05-14',
metrics='ga:uniqueEvents',
dimensions='ga:dimension1,ga:eventCategory,ga:eventAction,ga:eventLabel,ga:date,ga:hour',
sort='-ga:date',
start_index='1',
max_results='1500').execute()
ga:dimension1
正在填充每个用户唯一的用户范围的客户端 ID。
目标是在 ga:date
、ga:hour
和 ga:dimension1
.
d1
和 d2
但假设用户在 10 点开始会话,并在 12 点触发事件。d1
会给出 hour = 10,但 d2
会给出 hour = 10 还是 12?
事件将获得事件发生的时间,即 d2
在您的示例中将给出 hour=12。
我解决这个问题的方法是在查询中添加维度 ga:sessionDurationBucket
,以秒为单位给出会话持续时间(请参阅 here)。我不知道你用什么语言访问api,反正我不会post代码,只是解决问题的步骤。 (我使用 R
当然我可以 post 我的代码如果你认为它有帮助的话。
我为来自
ga:date
、ga:hour
和ga:minute
的每条记录构建了一个时间戳
我按
ga:dimension1
和ga:sessionDurationBucket
对记录进行分组
对于每个组,在一个循环中:(a) 我得到较旧的时间戳,并添加会话持续时间 (
ga:sessionDurationBucket
/60+1)/(60*24 ) 获取 "last" 时间戳,(b) 我将会话的第一个时间戳到最后一个时间戳的所有记录分配给会话,并且 (c) 如果还有记录,则新的第一个时间戳是较旧的这些剩余记录的时间戳,然后我转到 (a)循环后,"all"个寄存器被分配给一个session,我做处理(我把所有都放在引号之间,因为过程中可能有一些寄存器我无法分配, 但通常是一个可以忽略不计的数字)
我希望它足够清楚并且对您有所帮助。如果你觉得有用,我可以 post R
代码,或者如果你告诉我你使用的是哪种编程语言,我可以尝试重写它...
评论后添加:R中的示例代码
我正在使用 RGoogleAnalytics
库,这是我 运行 的查询(注意在这种情况下我不使用 dimension1
因为我正在使用的网站确实没有设置):
query.coll.d <- Init(start.date=start_date.d,
end.date=end_date.d,
dimensions=c("ga:date",
"ga:hour",
"ga:minute",
"ga:sourceMedium",
"ga:pagePath",
"ga:previousPagePath",
"ga:sessionDurationBucket"),
metrics=c("ga:sessions",
"ga:pageviews",
"ga:newUsers"),
table.id="ga:XXX view id XXX",
sort="-ga:date,-ga:hour,-ga:minute",
max.results = 20000)
ga.query.d <- QueryBuilder(query.coll.d)
ga.data.coll.d <- GetReportData(ga.query.d, token, paginate_query=TRUE)
据此,我构建了时间戳(注意 GA 不提供秒数),
require(chron)
ga.data.coll.d$datetime <- chron(ga.data.coll.d$date, paste(ga.data.coll.d$hour,
ga.data.coll.d$minute,
'00',
sep=":"),
format=c("ymd","h:m:s"))
这是一个使用全局变量创建唯一用户 ID 的函数,以便我以后可以在我的函数中使用它。
userId <- 1
getNewId <- function() {
current <- get("userId", envir = .GlobalEnv)
current <- current + 1
assign("userId", current, envir = .GlobalEnv)
return(current)
}
这是我根据上面试图描述的算法处理group by结果的函数,其中sessionDurationBucket
是一个整数,datetimes
和sessions
是分组依据的会话列表和时间戳。
one_minute <- 1/(60*24)
setUserId <- function(datetimes, sessions, sessionDurationBucket) {
if (length(datetimes) == 1) {
# just one row received
return(getNewId())
}
if (sum(sessions) == 1) {
# just one session, all rows belong to the same user
return(getNewId())
}
users <- rep(NA, length(datetimes))
if (sessionDurationBucket == 0) {
# sessions of 1 page and length 0 => assign a user per session
for (i in 1:length(datetimes)) {
users[i] <- getNewId()
}
return(users)
}
# general case
minutes <- ceiling(as.numeric(sessionDurationBucket)/60) + 1
i <- 1
while(TRUE) {
index_lag <- (datetimes >= datetimes[i] - minutes*one_minute) & is.na(users)
sessions_lag <- sum(sessions[index_lag])
if (sessions_lag == 1) {
users[index_lag] <- getNewId()
} else {
# two or more sessions mixed together
users[index_lag] <- 0
}
# look for remaining users (without id yet)
rem_users <- which(is.na(users))
if (length(rem_users) == 0) {
break
}
i <- min(rem_users)
}
return(users)
}
并且我使用 data.table
作为 运行 分组依据并创建新列(请注意,在您的情况下,您可以使用 dimension1
而不是 sourceMedium
在组中)。另请注意,它假定寄存器按日期倒序排列,这是在 GA 查询中完成的。
require(data.table)
ga.data.coll.dt <- data.table(ga.data.coll.d)
ga.data.coll.dt[, userId:=setUserId(datetime, sessions, sessionDurationBucket), by=list(sessionDurationBucket, sourceMedium)]
最后,我删除了所有 userId
等于 0 的寄存器,因为对于这些寄存器,上面的代码无法解析会话。就我而言,一个可以忽略不计的数字。
其实我打算在我不起眼的博客里写一篇post,包括更多的解释,但我要到月底才能完成......希望它能有所帮助。