如何计算条件间隔的案例？小费

Question

所以我希望我能表达我的问题，这里我有以下我编造的例子：

result <- c(1,1,1,1,1,1,1,1,1,1)
con1 <- c(1,2,2,2,1,1,2,2,2,2)
con2 <- c(2,1,2,2,1,1,2,2,2,1)
con3 <- c(2,2,1,1,1,2,2,2,2,1)
con4 <- c(2,1,2,2,1,1,2,1,1,2)
con5 <- c(1,2,2,2,1,2,2,2,2,1)
a <- tibble(Result=result,Con1=con1,Con2=con2,Con3=con3,Con4=con4,Con5=con5)

上面的代码给出了以下小标题，其中每一行都是一个病人：

> a
# A tibble: 10 x 6
   Result  Con1  Con2  Con3  Con4  Con5
    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
 1      1     1     2     2     2     1
 2      1     2     1     2     1     2
 3      1     2     2     1     2     2
 4      1     2     2     1     2     2
 5      1     1     1     1     1     1
 6      1     1     1     2     1     2
 7      1     2     2     2     2     2
 8      1     2     2     2     1     2
 9      1     2     2     2     1     2
10      1     2     1     1     2     1

结果是市长疾病呈阳性的病例（这就是为什么所有病例都是 1 的原因），而 Con_i 是患者的是或否问题，其中 1=是，2=否，我想得到回答“是”的患者数量：0 个问题、1 个问题、2-3 个问题和 4 个或更多问题。

到目前为止，我已经尝试这样做了：

a1 <-a %>% add_column(X=1) 
a1$X <- case_when(a$Con1==2 & a$Con2==2 & a$Con3==2 & a$Con4==2 & a$Con5==2 ~ 0,
                    a$Con1==1 & a$Con2==2 & a$Con3==2 & a$Con4==2 & a$Con5==2 |
                    a$Con1==2 & a$Con2==1 & a$Con3==2 & a$Con4==2 & a$Con5==2|
                    a$Con1==2 & a$Con2==2 & a$Con3==1 & a$Con4==2 & a$Con5==2|
                    a$Con1==2 & a$Con2==2 & a$Con3==2 & a$Con4==1 & a$Con5==2|
                    a$Con1==2 & a$Con2==2 & a$Con3==2 & a$Con4==2 & a$Con5==1 ~ 1)
table <- a1 %>% group_by(X) %>% count(X,Result)
table
> table
# A tibble: 3 x 3
# Groups:   X [3]
      X Result     n
  <dbl>  <dbl> <int>
1     0      1     1
2     1      1     4
3    NA      1     5

但我知道这不是最有效的方法，而且我需要为 2-3 个案例和 4 个以上案例进行所有组合，并且不可扩展，所以我正在寻找一种更简单的方法它并对其进行缩放，希望我能得到你的帮助并提前致谢！

Answer 1

旋转数据，使所有 Con 变量成为一列，每个 Con 的 yes/no 值位于单独的列中。然后你可以使用 group_by 和 summarise 操作来得到你的分组：

a %>%
  mutate(patient = letters[row_number()]) %>%
  pivot_longer(starts_with("Con")) %>%
  group_by(patient) %>%
  summarise(yes = sum(value == 1),
            no = sum(value == 2)) %>%
  group_by(yes) %>%
  summarise(yes_ct = n()) %>%
  mutate(yes_grp = case_when(
    yes %in% 2:3 ~ "2-3",
    yes >= 4 ~ "ge4",
    TRUE ~ as.character(yes)
  )) %>%
  group_by(yes_grp) %>%
  summarise(ct = sum(yes_ct))

# A tibble: 4 x 2
  yes_grp    ct
  <chr>   <int>
1 0           1
2 1           4
3 2-3         4
4 ge4         1

我创建了一个明确的 patient 变量（基本上只是行号）以使数据透视表和分组操作更容易。

Answer 2

也许是最简单的：

table(rowSums(a[,-1] < 2))
# 0 1 2 3 5     <--- counts of "1" in each row
# 1 4 2 2 1     <--- number of patients with that count

既然需要分组2-3和4+，那么

table(cut(rowSums(a[,-1] < 2), c(0, 1, 2, 4, Inf), include.lowest = TRUE))
#   [0,1]   (1,2]   (2,4] (4,Inf] 
#       5       2       2       1

虽然逻辑使用 < 2，但检查 == 1L 或类似的相等性同样容易。

一步步追踪：

a[,-1] == 1
#        Con1  Con2  Con3  Con4  Con5
#  [1,]  TRUE FALSE FALSE FALSE  TRUE
#  [2,] FALSE  TRUE FALSE  TRUE FALSE
#  [3,] FALSE FALSE  TRUE FALSE FALSE
#  [4,] FALSE FALSE  TRUE FALSE FALSE
#  [5,]  TRUE  TRUE  TRUE  TRUE  TRUE
#  [6,]  TRUE  TRUE FALSE  TRUE FALSE
#  [7,] FALSE FALSE FALSE FALSE FALSE
#  [8,] FALSE FALSE FALSE  TRUE FALSE
#  [9,] FALSE FALSE FALSE  TRUE FALSE
# [10,] FALSE  TRUE  TRUE FALSE  TRUE
rowSums(a[,-1] == 1)
#  [1] 2 2 1 1 5 3 0 1 1 3

最后一个是每个“患者”（行）的 1 的数量。

据此算一0、四1、二2加二3、零4加一5。这应该总共 5, 2, 2, 1 ... 所以 @andrew_reece 是正确的，让我们使用 cut(...,right=FALSE):

table(cut(rowSums(a[,-1] < 2), c(0, 1, 2, 4, Inf), right = FALSE))
#   [0,1)   [1,2)   [2,4) [4,Inf) 
#       1       4       4       1

我应该早点抓到 [0,1]（之前的答案），表示 0 和 1 是 close-ended，这意味着 0 和 1 都包含在同一个 bin 中。

Answer 3

试试这个：

library(data.table)
df <- setDT(a) - 1

df$sum <- 5 - rowSums( df[,2:6] )
freq <- data.table(table(df$sum))
names(freq) <- c('Questions_Yes', 'Patients')

freq <- freq[,`:=`(
  Questions_Yes = case_when(
    Questions_Yes %in% c(2:3) ~ "2-3",
    Questions_Yes >= 4 ~ "4+",
    TRUE ~ as.character(Questions_Yes)
  ))
][, .(Patients = sum(Patients)), by = Questions_Yes] 


  Questions_Yes Patients
1:             0        1
2:             1        4
3:           2-3        4
4:            4+        1

Answer 4

带有 Reduce 和 table

的选项

table(Reduce(`+`, lapply(a[-1], `<`, 2)))

# 0 1 2 3 5 
#1 4 2 2 1

如何计算条件间隔的案例？小费

How to count cases at intervarls with conditions? for a tibble

r

dplyr

tibble