面板数据说明
Panel Data Descriptives
非常简单的问题,但不知何故我被卡住了。
我有用户日常任务的面板数据。现在我想知道一个用户平均完成多少任务,但我不知道怎么做。以及每个用户平均花费多长时间完成一项任务。另外,如果可能的话,我想绘制这些数据。
我做了正常的描述,但我觉得这不是我需要的。
数据看起来有点像这样
用户(1、1、1、2、2、3)
任务(1、1、2、3、4、5)
天(1、2、1、1、2、1)
任务创建 (1,1,1,4,4,3)
截止日期(5,5,5,9,9,4)
id_task id_user day completion_yesno day_created has_deadline deadline created_before active overdue completed_before
16416 37033 5272 61 0 61 1 172 0 0 0 0
16417 37033 5272 62 0 61 1 172 2 2 0 0
16418 37033 5272 63 0 61 1 172 2 2 0 0
16419 37033 5272 64 0 61 1 172 2 2 0 0
16420 37033 5272 65 0 61 1 172 2 2 0 0
16421 37033 5272 66 0 61 1 172 2 2 0 0
16422 37033 5272 67 0 61 1 172 2 2 0 0
16423 37033 5272 68 0 61 1 172 2 2 0 0
16424 37033 5272 69 0 61 1 172 2 2 0 0
16425 37033 5272 70 0 61 1 172 2 2 0 0
16426 37033 5272 71 0 61 1 172 2 2 0 0
16427 37033 5272 72 0 61 1 172 2 2 0 0
16428 37033 5272 73 0 61 1 172 2 2 0 0
16429 37033 5272 74 0 61 1 172 2 2 0 0
16430 37033 5272 75 0 61 1 172 2 2 0 0
16431 37033 5272 76 0 61 1 172 2 2 0 0
16432 37033 5272 77 0 61 1 172 2 2 0 0
16433 37033 5272 78 0 61 1 172 2 2 0 0
16434 37033 5272 79 0 61 1 172 2 2 0 0
16435 37033 5272 80 0 61 1 172 2 2 0 0
在这种情况下,一个用户平均会处理 2 个任务,但我只是通过计数发现的。
只保留有关用户、任务和已完成的信息。删除重复的行,然后按用户分组并计算每个用户完成的任务数:
df_by_user <- df %>%
select(id_user, id_task, completion_yesno) %>%
unique() %>%
group_by(id_user) %>%
summarise(n = sum(completion_yesno))
然后计算平均值:
mean(df_by_user$n)
非常简单的问题,但不知何故我被卡住了。 我有用户日常任务的面板数据。现在我想知道一个用户平均完成多少任务,但我不知道怎么做。以及每个用户平均花费多长时间完成一项任务。另外,如果可能的话,我想绘制这些数据。 我做了正常的描述,但我觉得这不是我需要的。 数据看起来有点像这样 用户(1、1、1、2、2、3) 任务(1、1、2、3、4、5) 天(1、2、1、1、2、1) 任务创建 (1,1,1,4,4,3) 截止日期(5,5,5,9,9,4)
id_task id_user day completion_yesno day_created has_deadline deadline created_before active overdue completed_before
16416 37033 5272 61 0 61 1 172 0 0 0 0
16417 37033 5272 62 0 61 1 172 2 2 0 0
16418 37033 5272 63 0 61 1 172 2 2 0 0
16419 37033 5272 64 0 61 1 172 2 2 0 0
16420 37033 5272 65 0 61 1 172 2 2 0 0
16421 37033 5272 66 0 61 1 172 2 2 0 0
16422 37033 5272 67 0 61 1 172 2 2 0 0
16423 37033 5272 68 0 61 1 172 2 2 0 0
16424 37033 5272 69 0 61 1 172 2 2 0 0
16425 37033 5272 70 0 61 1 172 2 2 0 0
16426 37033 5272 71 0 61 1 172 2 2 0 0
16427 37033 5272 72 0 61 1 172 2 2 0 0
16428 37033 5272 73 0 61 1 172 2 2 0 0
16429 37033 5272 74 0 61 1 172 2 2 0 0
16430 37033 5272 75 0 61 1 172 2 2 0 0
16431 37033 5272 76 0 61 1 172 2 2 0 0
16432 37033 5272 77 0 61 1 172 2 2 0 0
16433 37033 5272 78 0 61 1 172 2 2 0 0
16434 37033 5272 79 0 61 1 172 2 2 0 0
16435 37033 5272 80 0 61 1 172 2 2 0 0
在这种情况下,一个用户平均会处理 2 个任务,但我只是通过计数发现的。
只保留有关用户、任务和已完成的信息。删除重复的行,然后按用户分组并计算每个用户完成的任务数:
df_by_user <- df %>%
select(id_user, id_task, completion_yesno) %>%
unique() %>%
group_by(id_user) %>%
summarise(n = sum(completion_yesno))
然后计算平均值:
mean(df_by_user$n)