如何在不自动增加文件大小的情况下并行保存文件？

Ann*_*aya 9 r plyr

我有 2 个完全相同的脚本。

但是一个脚本生成了 3 个权重为 82.7 KB 的 RData 文件，另一个脚本创建了 3 个权重为 120 KB 的 RData 文件。

第一个没有并行：

library("plyr")
ddply(.data = iris,
      .variables = "Species",
      ##.parallel=TRUE,##Without parallel
      .fun = function(SpeciesData){

      #Create Simple Model -------------------------------------------------------------  
      Model <- lm(formula = "Sepal.Length~Sepal.Width+Petal.Length+Petal.Width",data = SpeciesData)

      #Save The Model -------------------------------------------------------------               
       save(Model,
            compress = FALSE,
            file = gsub(x =  "Species.RData",
                        pattern = "Species",
                        replacement = unique(SpeciesData$Species)))

 })

Run Code Online (Sandbox Code Playgroud)

第二个是并行：

library("plyr")
doSNOW::registerDoSNOW(cl<-snow::makeCluster(3))
ddply(.data = iris,
      .variables = "Species",
      .parallel=TRUE,##With parallel
      .fun = function(SpeciesData){

      #Create Simple Model -------------------------------------------------------------  
      Model <- lm(formula = "Sepal.Length~Sepal.Width+Petal.Length+Petal.Width",data = SpeciesData)

      #Save The Model -------------------------------------------------------------               
       save(Model,
            compress = FALSE,
            file = gsub(x =  "Species.RData",
                        pattern = "Species",
                        replacement = unique(SpeciesData$Species)))

 })
snow::stopCluster(cl)

Run Code Online (Sandbox Code Playgroud)

第二个脚本创建的文件重量增加了 42%。

如何在不自动增加文件大小的情况下并行保存文件？

我没有使用 ddply 来并行保存对象，所以我猜文件会变得更大，因为当您保存模型对象时，它还带有一些有关保存它的环境的信息。

因此，使用上面的 ddply 代码，我的尺寸是：

sapply(dir(pattern="RData"),file.size)
setosa.RData versicolor.RData  virginica.RData 
       36002            36002            36002

Run Code Online (Sandbox Code Playgroud)

有两种选择，一种是使用 purrr /furrr：

library(furrr)
library(purrr)

func = function(SpeciesData){
  Model <- lm(formula = "Sepal.Length~Sepal.Width+Petal.Length+Petal.Width",data = SpeciesData)
  save(Model,
       compress = FALSE,
       file = gsub(x =  "Species.RData",
                   pattern = "Species",
                   replacement = unique(SpeciesData$Species)))
}

split(iris,iris$Species) %>% future_map(func)

sapply(dir(pattern="RData"),file.size)
    setosa.RData versicolor.RData  virginica.RData 
           25426            27156            27156

Run Code Online (Sandbox Code Playgroud)

或者使用 saveRDS （和 ddply？），因为您只有一个要保存的对象：

ddply(.data = iris,
      .variables = "Species",
      .parallel=TRUE,##With parallel
      .fun = function(SpeciesData){
        Model <- lm(formula = "Sepal.Length~Sepal.Width+Petal.Length+Petal.Width",data = SpeciesData)
        saveRDS(Model,
             gsub(x =  "Species.rds",
                         pattern = "Species",
                         replacement = unique(SpeciesData$Species)))

      })

sapply(dir(pattern="rds"),file.size)
    setosa.rds versicolor.rds  virginica.rds 
          6389           6300           6277

Run Code Online (Sandbox Code Playgroud)

您将执行以下操作readRDS而不是load获取文件：

m1 = readRDS("setosa.rds")
m1
Call:
lm(formula = "Sepal.Length~Sepal.Width+Petal.Length+Petal.Width", 
    data = SpeciesData)

Coefficients:
 (Intercept)   Sepal.Width  Petal.Length   Petal.Width  
      2.3519        0.6548        0.2376        0.2521

Run Code Online (Sandbox Code Playgroud)

我们可以将系数与 rda 对象进行比较：

m2 = get(load("setosa.RData"))
m2

Call:
lm(formula = "Sepal.Length~Sepal.Width+Petal.Length+Petal.Width", 
    data = SpeciesData)

Coefficients:
 (Intercept)   Sepal.Width  Petal.Length   Petal.Width  
      2.3519        0.6548        0.2376        0.2521

Run Code Online (Sandbox Code Playgroud)

由于环境部分的原因，这些对象并不相同，但就预测或我们通常使用它的其他东西而言，它是有效的：

identical(predict(m1,data.frame(iris[1:10,])),predict(m2,data.frame(iris[1:10,])))

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，11 月前
查看次数：	378 次
最近记录：	5 年，11 月前

用数据框中的NA替换字符值 59

调整图标题(主)位置 43

有效调试Shiny应用程序 34

使用ggplot2组合Boxplot和直方图 22

查找多个/重叠匹配子串的索引 15

所有/任何列都大于特定值的子集行 15

更快地评估从右到左的矩阵乘法 14

如何以与参考线本身相同的角度注释参考线？ 10

在Mac OS X版本10.6.7上,当.parallel = TRUE时,ddply较慢 6

如何对一组多列进行透视？以及如何从长格式恢复到原始宽格式？ 3

C#中字符串和字符串有什么区别？ 6250

C++中指针变量和引用变量之间有什么区别？ 3115

检查字典中是否已存在给定键 2683

将Git分支合并到master中的最佳(也是最安全)方法是什么？ 1977

如何使用逗号作为千位分隔符在JavaScript中打印数字 1589

如何检查Bash中是否设置了变量？ 1417

我在哪里可以找到有关在JavaScript中格式化日期的文档？ 1381

在HTML中嵌入PDF的推荐方法？ 1128

PHP和枚举 1114

如何将本地jar文件添加到Maven项目？ 1053