R 中数据帧的并行处理
Parallel processing in R for a Data Frame
我有这样一个数据框:
Open High Low Close Volume
1998-09-08 10:32:00 106.44 106.44 106.44 106.44 1
1998-09-08 10:33:00 106.42 106.42 106.35 106.35 628225
1998-09-08 10:34:00 106.31 106.38 106.31 106.38 135840
1998-09-08 10:35:00 106.35 106.35 106.32 106.34 170010
1998-09-08 10:36:00 106.35 106.36 106.35 106.36 309560
1998-09-08 10:37:00 106.44 106.50 106.44 106.50 115540
1998-09-08 10:38:00 106.49 106.53 106.49 106.52 427620
1998-09-08 10:39:00 106.53 106.54 106.52 106.53 321350
1998-09-08 10:40:00 106.55 106.60 106.54 106.54 317647
1998-09-08 10:41:00 106.56 106.63 106.56 106.63 233901
我需要在并行处理中更改 Open
。我写了一个这样的函数:
parTest <- function(x){
foreach(i = 1:nrow(x)) %dopar% {
x[i,1] <- i
}
return(x)
}
但是当我调用这个函数时没有任何变化,它 return 没有改变数据框。
zz <- parTest (x)
zz
当我使用简单的 for loop
时,它可以工作,但 foreach
不工作!
我也使用了适当的包和内核设置:
library(foreach)
library(doParallel)
cl <- makeCluster(4)
registerDoParallel(cl)
感谢您的帮助。
foreach
将从代码块中获取 return 值并以某种方式组合它。在您的情况下,由于您没有指定 .combine
参数,因此它是 returning 列表中的每个实例。 (help(foreach)
第一段是这么说的。)
好的,那么代码块的每个实例化都发生了什么?它正在从调用开始时查看 data.frame (意味着第 2 行看不到第 1 行的更改 data.frame,等等),更新这个 data.frame,然后 returning "something".
这个"something"不是你想的那样。要查看此内容,请尝试使用 (x[1,1] <- 1)
之类的内容手动更新 data.frame;这表明赋值中的 return 值 是值“1”,而不是 x
的内容。换句话说,赋值的 return 值是分配的值,而不是分配给它的整个变量。
因此,在您的情况下,x[i,1] <- i
是静默 return i
,因此来自 foreach
的子进程的 returned 值(你没有捕获)是 1:nrow(x)
的列表,对你没用。如果您从 foreach
分配结果并从 foreach
代码块显式 return 编辑它,您会看到这个。
我觉得你想要的是把代码块return调整到具体的行,然后组合成一个data.frame在末尾。请注意,如果您 return 整个 data.frame,那么 foreach
中的 return 将是 data.frame 的列表,而不是(我认为)您想要的.
有很多方法可以做到这一点,我将展示三种。第一个会工作得很好,而且它在你如何管理 data.frame.
方面更直白一些。
parTest <- function(x) {
ret <- foreach(i = 1:nrow(x)) %dopar% {
x[i,1] <- i
x[i,,drop=FALSE]
}
do.call('rbind', ret)
}
如果您的 data.frame 相当大,请注意您正在制作此 data.frame 的大量副本。如果你只需要一行(我假设你的例子是作为一个简单的 MWE 设计的),那么这是不必要的。您可以通过以下方式稍微简化一下:
parTest <- function(x) {
foreach(i = 1:nrow(x), .combine=rbind) %dopar% {
x[i,1] <- i
x[i,,drop=FALSE]
}
}
另一种技术,使用 iterators
包:
library(iterators)
parTest <- function(x) {
foreach(df = iter(x, by='row'), .combine=rbind) %dopar% {
df[,1] <- 1
df
}
}
后一种技术在我看来更具可读性。而且,如果您真的一次只关心一行,它可能会比另一行执行得更快。
顺便说一句:我假设您真的在寻找结果 data.frame,而不是专门针对更改 data.frame 的 副作用 在现在的环境下。使用 %dopar%
处理并行内容时,要意识到子进程无法看到或使用 实际 调用环境。
我有这样一个数据框:
Open High Low Close Volume
1998-09-08 10:32:00 106.44 106.44 106.44 106.44 1
1998-09-08 10:33:00 106.42 106.42 106.35 106.35 628225
1998-09-08 10:34:00 106.31 106.38 106.31 106.38 135840
1998-09-08 10:35:00 106.35 106.35 106.32 106.34 170010
1998-09-08 10:36:00 106.35 106.36 106.35 106.36 309560
1998-09-08 10:37:00 106.44 106.50 106.44 106.50 115540
1998-09-08 10:38:00 106.49 106.53 106.49 106.52 427620
1998-09-08 10:39:00 106.53 106.54 106.52 106.53 321350
1998-09-08 10:40:00 106.55 106.60 106.54 106.54 317647
1998-09-08 10:41:00 106.56 106.63 106.56 106.63 233901
我需要在并行处理中更改 Open
。我写了一个这样的函数:
parTest <- function(x){
foreach(i = 1:nrow(x)) %dopar% {
x[i,1] <- i
}
return(x)
}
但是当我调用这个函数时没有任何变化,它 return 没有改变数据框。
zz <- parTest (x)
zz
当我使用简单的 for loop
时,它可以工作,但 foreach
不工作!
我也使用了适当的包和内核设置:
library(foreach)
library(doParallel)
cl <- makeCluster(4)
registerDoParallel(cl)
感谢您的帮助。
foreach
将从代码块中获取 return 值并以某种方式组合它。在您的情况下,由于您没有指定 .combine
参数,因此它是 returning 列表中的每个实例。 (help(foreach)
第一段是这么说的。)
好的,那么代码块的每个实例化都发生了什么?它正在从调用开始时查看 data.frame (意味着第 2 行看不到第 1 行的更改 data.frame,等等),更新这个 data.frame,然后 returning "something".
这个"something"不是你想的那样。要查看此内容,请尝试使用 (x[1,1] <- 1)
之类的内容手动更新 data.frame;这表明赋值中的 return 值 是值“1”,而不是 x
的内容。换句话说,赋值的 return 值是分配的值,而不是分配给它的整个变量。
因此,在您的情况下,x[i,1] <- i
是静默 return i
,因此来自 foreach
的子进程的 returned 值(你没有捕获)是 1:nrow(x)
的列表,对你没用。如果您从 foreach
分配结果并从 foreach
代码块显式 return 编辑它,您会看到这个。
我觉得你想要的是把代码块return调整到具体的行,然后组合成一个data.frame在末尾。请注意,如果您 return 整个 data.frame,那么 foreach
中的 return 将是 data.frame 的列表,而不是(我认为)您想要的.
有很多方法可以做到这一点,我将展示三种。第一个会工作得很好,而且它在你如何管理 data.frame.
方面更直白一些。parTest <- function(x) {
ret <- foreach(i = 1:nrow(x)) %dopar% {
x[i,1] <- i
x[i,,drop=FALSE]
}
do.call('rbind', ret)
}
如果您的 data.frame 相当大,请注意您正在制作此 data.frame 的大量副本。如果你只需要一行(我假设你的例子是作为一个简单的 MWE 设计的),那么这是不必要的。您可以通过以下方式稍微简化一下:
parTest <- function(x) {
foreach(i = 1:nrow(x), .combine=rbind) %dopar% {
x[i,1] <- i
x[i,,drop=FALSE]
}
}
另一种技术,使用 iterators
包:
library(iterators)
parTest <- function(x) {
foreach(df = iter(x, by='row'), .combine=rbind) %dopar% {
df[,1] <- 1
df
}
}
后一种技术在我看来更具可读性。而且,如果您真的一次只关心一行,它可能会比另一行执行得更快。
顺便说一句:我假设您真的在寻找结果 data.frame,而不是专门针对更改 data.frame 的 副作用 在现在的环境下。使用 %dopar%
处理并行内容时,要意识到子进程无法看到或使用 实际 调用环境。