R doParallel foreach 为独立工作者提供错误处理
R doParallel foreach with error handling for independant workers
我必须 运行 很多随机森林模型,所以我想在我的 8 核服务器上使用 doParallel 来加速这个过程。
然而,有些模型需要比其他模型更长的时间,甚至可能会抛出错误。我想并行 运行 8 个模型,如果模型抛出错误 and/or 被跳过,那么工作人员应该继续。每个模型结果都保存在硬盘上,以便我以后可以访问和组合它们。
TryCatch
或
.errorhandling="remove"
没有解决问题。我得到
Error in unserialize(socklist[[n]]) : error reading from connection
代码示例:我尝试使用 %do% 和模型 2-7 运行 成功。然而在 %dopar% 我得到了显示的错误
foreach(model=1:8, .errorhandling="remove") %dopar% {
tryCatch({
outl <- rf_perform(...)
saveRDS(outl,file=getwd() %+% "/temp/result_" %+% model %+% ".rds")
}, error = function(e) {print(e)}, finally = {})
}
我想我发现了问题:如果你导出到集群的对象太大,要么R不能处理了and/or有一个超时
我的数据对象导出是 500 万行和 300 个变量,导出到 16 个集群。
cl <- makeCluster(16)
registerDoParallel(cl)
clusterExport(cl, "data")
#data must not be too large
我将对象缩小为更小的部分,现在它可以工作了。作者可能想在 doParallel 的文档中提及这一点,或者在对象太大时发出警告。
我必须 运行 很多随机森林模型,所以我想在我的 8 核服务器上使用 doParallel 来加速这个过程。
然而,有些模型需要比其他模型更长的时间,甚至可能会抛出错误。我想并行 运行 8 个模型,如果模型抛出错误 and/or 被跳过,那么工作人员应该继续。每个模型结果都保存在硬盘上,以便我以后可以访问和组合它们。
TryCatch
或
.errorhandling="remove"
没有解决问题。我得到
Error in unserialize(socklist[[n]]) : error reading from connection
代码示例:我尝试使用 %do% 和模型 2-7 运行 成功。然而在 %dopar% 我得到了显示的错误
foreach(model=1:8, .errorhandling="remove") %dopar% {
tryCatch({
outl <- rf_perform(...)
saveRDS(outl,file=getwd() %+% "/temp/result_" %+% model %+% ".rds")
}, error = function(e) {print(e)}, finally = {})
}
我想我发现了问题:如果你导出到集群的对象太大,要么R不能处理了and/or有一个超时
我的数据对象导出是 500 万行和 300 个变量,导出到 16 个集群。
cl <- makeCluster(16)
registerDoParallel(cl)
clusterExport(cl, "data")
#data must not be too large
我将对象缩小为更小的部分,现在它可以工作了。作者可能想在 doParallel 的文档中提及这一点,或者在对象太大时发出警告。