如何 运行 基于每年事件发生频率的线性回归模型

How to run a Linear Regression Model based off the frequency of events per year

我有一个数据集,其中详细介绍了自 1990 年代以来全球数千场足球比赛。我想绘制然后 运行 一个简单的线性模型 games ~ Year.

我是否需要创建一个新的数据框来计算每年的游戏总数?或者是否有我可以在 lmplot 中使用的函数?

是的,您需要先将数据制成表格。假设每场比赛有一个观察,即数据看起来像这样:

dd <- data.frame(year=rep(1999:2002,times=c(1:3,2)),other=NA)

然后你需要(1)制表并转换为数据框; (2) 将年份转换回数字(表格中的类别最初总是因子),(3) 进行线性回归。

tt <-  as.data.frame(table(year=dd$year))
tt$year <- as.numeric(as.character(tt$year))  ## convert from factor to numeric
lm(Freq ~ year, data=tt)

你可能想使用类似 Freq ~ I(year-min(year)) 的东西,这样你的截距就意味着一些合理的东西(数据集中第一年的预测比赛数量,而不是公元一年的预测比赛数量(CE ) 0).