使用 apply 使用多个数据源？

Question

我仍处于 R 的初级阶段，但我已经掌握了一些功能，现在我正在寻找我的最终 "project."

我创建了一个函数，它获取我的四个数据源（不同人群）中的每一个并创建直方图，执行 kolmogorov-smirnov 测试，然后绘制给定行的任何重要结果。我想做的是把它变成一个应用函数。但是，问题是我的函数需要四个变量，而且我不知道如何让 apply 获取四个数据源。

hist_fx <- function(w,x,y,z) {
  hist(w,prob=TRUE,col="green",xlim=c(-1,1),ylim=c(0,3))
    lines(density(w),col="red")
    abline(v=c(mean(w)),col="red")

  hist(x,prob=TRUE,col="blue",xlim=c(-1,1),ylim=c(0,3))
    lines(density(x),col="red")
    abline(v=c(mean(x)),col="red")


  hist(y,prob=TRUE,col="yellow",xlim=c(-1,1),ylim=c(0,3))
    lines(density(y),col="red")
    abline(v=c(mean(y)),col="red")


  hist(z,prob=TRUE,col="purple",xlim=c(-1,1),ylim=c(0,3))
    lines(density(z),col="red")
    abline(v=c(mean(z)),col="red")

  all <- c(w,x,y,z)
    hist(all,prob=TRUE,xlim=c(-1,0.5),ylim=c(0,3))
    lines(density(w),col="purple")
    lines(density(x),col="red")
    lines(density(y),col="blue")
    lines(density(z),col="green")

  plot(ecdf(w),col="green")
  plot(ecdf(x),col="blue",add=TRUE)
  plot(ecdf(y),col="red",add=TRUE)
  plot(ecdf(z),col="purple",add=TRUE)

  t1 <- ks.test(w,x)
    print(t1)
  t2 <- ks.test(w,y)
    print(t2)
  t3 <- ks.test(w,z)
    print(t3)

  if(t1$p.value < 0.05) {
        plot(ecdf(w),col="green")
        plot(ecdf(x),col="blue",add=TRUE)
    }
  if(t2p.value < 0.05) {
        plot(ecdf(w),col="green")
        plot(ecdf(y),col="red",add=TRUE)
    }
  if(t3$p.value < 0.05) {
        plot(ecdf(w),col="green")
        plot(ecdf(z),col="purple",add=TRUE)
    }
}

我可以将此函数用于一次申请一个人口（即将 hist_fx 变成一个变量的函数）。但是，我无法找到一种方法让这四个人群同时工作。我已经弄乱了一些 for 循环，虽然他们还没有成功。

最后一件事可能有用：我的数据是这样排列的，自变量是行，因变量是列。因此，我需要每行运行这些（因此我想到了 for 循环）。

编辑：

这是其中一个群体的输入：

dput(k2) structure(c(-0.15, 0.13, 0.23, -0.23, 0.06, -0.11, 0.107, 0.06, -0.17, 0.12, 0.06, -0.25, -0.32, 0.13, 0.06, -0.2, -0.08, 0.06, 0.12, 0.02, 0.11, -0.11, -0.15, 0.097, 0.347, -0.307, 0.097, -0.047, 0.09, 0.01, -0.217, 0.117, 0.03, -0.3, -0.33, 0.13, 0.19, -0.24, -0.08, -0.01, 0.15, 0.61, 0.18, -0.15, -0.103, 0.135, 0.31, -0.25, 0.157, -0.105, -0.08, 0.01, -0.165, 0.17, 0.1, -0.23, -0.28, 0.15, 0.13, -0.14, -0.06, 0.01, 0.07, -0.02, 0.11, -0.06, -0.123, 0.13, 0.35, -0.27, 0.165, -0.065, 0.135, 0.13, -0.17, 0.135, 0.08, -0.21, -0.25, 0.2, 0.16, -0.18, NA, -0.04, 0.05, -0.02, 0.13, -0.14, -0.13, 0.098, 0.27, -0.193, 0.062, -0.08, 0.057, 0.028, -0.199, 0.1, 0.04, -0.24, -0.32, 0.13, 0.13, -0.15, -0.05, 0.01, 0.08, -0.04, 0.1, -0.1, -0.14, 0.154, 0.261, -0.194, 0.1, -0.129, 0.063, 0.142, -0.136, 0.136, 0.08, -0.23, -0.24, 0.12, 0.1, -0.16, -0.06, 0.04, 0.09, -0.01, 0.04, -0.08, -0.127, 0.133, 0.337, -0.06, 0.11, -0.107, 0.16, 0.167, -0.183, 0.103, 0.05, -0.2, -0.3, 0.22, -0.01, -0.17, -0.14, 0.02, 0.07, 0.01, 0.11, -0.11, -0.155, 0.221, 0.22, -0.172, 0.09, -0.15, 0.12, 0.03, -0.153, 0.146, 0.11, -0.2, -0.24, 0.16, 0.07, -0.19, -0.1, 0.03, 0.17, 0.02, 0.09, -0.16, -0.062, 0.19, 0.269, -0.265, 0.118, -0.11, 0.126, 0.094, -0.186, 0.151, 0.08, -0.26, -0.31, 0.13, 0.09, -0.23, -0.12, 0.05, 0.13, 0.01, 0.11, -0.14, -0.095, 0.14, 0.24, -0.46, 0.09, -0.17, 0.08, 0.01, -0.24, 0.16, 0.04, -0.38, -0.39, 0.11, 0.06, -0.31, -0.25, 0.03, 0.21, -0.14, 0, -0.22, -0.07, 0.148, 0.311, -0.27, 0.11, -0.055, 0.16, 0.04, -0.197, 0.064, 0.09, -0.24, -0.34, 0.17, 0.07, -0.15, -0.18, 0.03, 0.13, 0.07, 0.13, -0.08, -0.136, 0.142, 0.27, -0.257, 0.1, -0.13, 0.103, 0.064, -0.197, 0.118, 0.06, -0.29, -0.35, 0.13, 0.1, -0.19, -0.13, 0.01, 0.1, -0.01, 0.13, -0.15), .Dim = c(22L, 12L))

为了进一步说明，这里是实际数据框的格式：

c1 c2 c3 c4

r2 x x x

r3 x x x

r4 x x x

每列代表行中变量的星号值。因此，我想为每个数据集的每一行创建一个直方图。

对于函数的值，为了简单起见，我只是使用了那些变量。 w = 人口 1，x = 人口 2，y = 人口 3，z = 人口 4。

举个例子：

 > hist_fx(k2[1,],n2[1,],j2[1,],g2[1,])

    Two-sample Kolmogorov-Smirnov test

data:  w and x
D = 1, p-value = 1.229e-05
alternative hypothesis: two-sided


    Two-sample Kolmogorov-Smirnov test

data:  w and y
D = 1, p-value = 1.229e-05
alternative hypothesis: two-sided


    Two-sample Kolmogorov-Smirnov test

data:  w and z
D = 1, p-value = 1.229e-05
alternative hypothesis: two-sided

我的问题是目前，我一次只能运行函数一行。我希望能够对所有行执行此操作。我正在考虑使用 apply ，因为我在非常相似的上下文中使用过它，除了一个数据源。

Answer 1

不太确定您的需求，但考虑转置，t() 至运行按列绘制行数据。并考虑使用 mapply()，应用族的多元类型，它运行同时对等长对象进行逐元素操作。甚至将操作分开，因为运行将它们组合在一起可能只会 print/plot 筛选的最后一次迭代。

转置（使用的数据是发布的输出矩阵的轻微变化）

pop1 <- data.frame(t(data))
pop2 <- data.frame(t(data))
pop3 <- data.frame(t(data))
pop4 <- data.frame(t(data))

直方图

hist_fx <- function(w,x,y,z) {

  whist <- hist(w,prob=TRUE,col="green",xlim=c(-1,1),ylim=c(0,3))
  lines(density(w),col="red")
  abline(v=c(mean(w)),col="red")

  xhist <- hist(x,prob=TRUE,col="blue",xlim=c(-1,1),ylim=c(0,3))
  lines(density(x),col="red")
  abline(v=c(mean(x)),col="red")      

  yhist <- hist(y,prob=TRUE,col="yellow",xlim=c(-1,1),ylim=c(0,3))
  lines(density(y),col="red")
  abline(v=c(mean(y)),col="red")      

  zhist <- hist(z,prob=TRUE,col="purple",xlim=c(-1,1),ylim=c(0,3))
  lines(density(z),col="red")
  abline(v=c(mean(z)),col="red")

}

# HISTOGRAM PLOTS FOR EACH DF COLUMN 
output <- mapply(hist_fx, w=pop1, x=pop2, y=pop3, z=pop4)

Kolmogorov-Smirnov 测试（使用 dput 数据的轻微变化）

hist_fx <- function(w,x,y,z) {
  t1 <- ks.test(w,x)      
  t2 <- ks.test(w,y)      
  t3 <- ks.test(w,z)   

  if(t1$p.value < 0.05) {
     plot(ecdf(w),col="green")
     plot(ecdf(x),col="blue",add=TRUE)
  }
  if(t2$p.value < 0.05) {
     plot(ecdf(w),col="green")
     plot(ecdf(y),col="red",add=TRUE)
  }
  if(t3$p.value < 0.05) {
     plot(ecdf(w),col="green")
     plot(ecdf(z),col="purple",add=TRUE)
  }

  return(c(t1, t2, t3))
}

output <- mapply(hist_fx, w=pop1, x=pop2, y=pop3, z=pop4)

output    
#             X1                                  
# statistic   0.1666667                           
# p.value     0.9962552                           
# alternative "two-sided"                         
# method      "Two-sample Kolmogorov-Smirnov test"
# data.name   "w and x"                           
# statistic   0.25                                
# p.value     0.8474885                           
# alternative "two-sided"                         
# method      "Two-sample Kolmogorov-Smirnov test"
# data.name   "w and y"                           
# statistic   0.08333333                          
# p.value     1                                   
# alternative "two-sided"                         
# method      "Two-sample Kolmogorov-Smirnov test"
# data.name   "w and z"                           
#             X2                                  
# statistic   0.25                                
# p.value     0.8474885                           
# alternative "two-sided"                         
# method      "Two-sample Kolmogorov-Smirnov test"
# data.name   "w and x"                           
# statistic   0.08333333                          
# p.value     1                                   
# alternative "two-sided"                         
# method      "Two-sample Kolmogorov-Smirnov test"
# data.name   "w and y"                           
# statistic   0.1666667                           
# p.value     0.9962552                           
# alternative "two-sided"                         
# method      "Two-sample Kolmogorov-Smirnov test"
# data.name   "w and z"           
# ...

使用 apply 使用多个数据源？

Using apply using multiple sources of data?

for-loop

r

apply