小编Jam*_*ers的帖子

在打印时舍入dplyr tbl_df中的数值

我试图在dplyr表(tbl_df)中保留真值,但显示舍入版本.我觉得必须有一个打印方法参数来做到这一点.

这是我想要的一个例子:

my_tbl <- iris %>% group_by(Species) %>% summarise_each(funs((sum(.*12345e20))))
Run Code Online (Sandbox Code Playgroud)

而不是这个:

print(my_tbl)
Source: local data frame [3 x 5]

     Species Sepal.Length  Sepal.Width Petal.Length  Petal.Width
      (fctr)        (dbl)        (dbl)        (dbl)        (dbl)
1     setosa 3.089954e+26 2.115933e+26 9.024195e+25 1.518435e+25
2 versicolor 3.663996e+26 1.709783e+26 2.629485e+26 8.184735e+25
3  virginica 4.066443e+26 1.835702e+26 3.426972e+26 1.250549e+26
Run Code Online (Sandbox Code Playgroud)

我想要类似的东西

print(my_tbl, signif=3)
Source: local data frame [3 x 5]

     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
      (fctr)        (dbl)       (dbl)        (dbl)       (dbl)
1     setosa     3.09e+26    2.12e+26     9.02e+25    1.52e+25
2 versicolor     3.66e+26    1.71e+26     2.63e+26    8.18e+25
3  virginica …
Run Code Online (Sandbox Code Playgroud)

r dplyr

4
推荐指数
2
解决办法
2967
查看次数

ggplot2 每个主要中断的次要中断的整数倍

这个答案展示了如何指定小中断应该去的位置。在文档中它说这minor_breaks可以是一个函数。然而,正如我预期的那样,这将绘图限制作为输入,而不是下方和上方主要网格线的位置。

制作一个能让我返回每个专业 4 个辅修课程的脚本似乎并不简单。这是我想做的事情,因为我有一个想要在多个不同数据集上使用的脚本。我事先不知道限制,所以我无法对它们进行硬编码。我当然可以创建一个函数,在绘图之前从数据集中获取我需要的值,但这似乎有点矫枉过正。

有没有通用的方法来说明每个主要中断的次要中断数量?

r ggplot2

4
推荐指数
1
解决办法
1678
查看次数

使用caret包运行带有controls = cforest_unbiased()的cforest

我想使用插入包运行一个没有偏见的cforest.这可能吗?

tc <- trainControl(method="cv",
               number=f,
               index=indexList,
               savePredictions=T,
               classProbs = TRUE,
               summaryFunction = twoClassSummary)
createCfGrid <- function(len, data) {
    g = createGrid("cforest", len, data)
    g = expand.grid(.controls = cforest_unbiased(mtry = 5, ntree = 1000))
    return(g)
}
set.seed(1)
(cfMatFit <- train(as.factor(f1win) ~ .,
                   data=df,
                   method="cforest",
                   metric="ROC",
                   trControl=tc,
                   tuneGrid = createCfGrid))
Run Code Online (Sandbox Code Playgroud)

错误是 Error in as.character.default(<S4 object of class "ForestControl">) : no method for coercing this S4 class to a vector

这是因为cforest_control()无法强制转换为数据框.如果我使用,该功能可以工作:

...
g = expand.grid(.mtry = 5)
...
Run Code Online (Sandbox Code Playgroud)

但是,如果我想更改ntree,这没有任何效果:

...
g = expand.grid(.mtry …
Run Code Online (Sandbox Code Playgroud)

r random-forest r-caret

3
推荐指数
1
解决办法
3550
查看次数

如何以编程方式处理文件夹系统中的音频文件?

我有几百个口语讲座的音频文件.我需要一个可以从命令行调用的软件,以各种方式处理音频,例如更改格式,规范化等.

到目前为止,我已尝试使用Audacity批量处理文件,使用此视频中的chain详细信息.但是,这并不令人满意,因为我无法从命令行调用它(因此可以灵活地批量处理文件以适应大小/文件类型等).

您是否能够指向可以从命令行执行此类音频处理的任何软件?

audio audacity

3
推荐指数
1
解决办法
4039
查看次数

使用RMSE的插入二进制分类

有没有办法让插入符号使用RMSE和二进制分类问题?

如果您尝试使用metric = "RMSE"分类问题,您将收到以下消息:

Error in train.default(x, y, weights = w, ...) :
    Metric RMSE not applicable for classification models
Run Code Online (Sandbox Code Playgroud)

这是有道理的.但有没有办法定义自定义指标?例如,如果你的结局是01,你可以定义误差outcome - p其中p是由模型预测的概率.

编辑====================

为了给出这个背景以及想要使用这个测量背后的一些推理,请参阅Michael J.Procopio 在自主户外机器人导航中学习漂移概念的分类器集合的实验分析中的 2.7.1 ,或者关于so​​ftclassval论文

r r-caret

2
推荐指数
1
解决办法
3139
查看次数

SLURM:更改正在运行的阵列作业的最大同时运行任务数

我有一组数组作业如下:

sbatch --array=1:100%5 ...
Run Code Online (Sandbox Code Playgroud)

这会将同时运行的任务数量限制为 5。作业现在正在运行,我想将此数字更改为 10(即我希望我运行sbatch --array=1:100%10 ...)。

阵列作业文档提到您可以scontrol在作业开始后使用更改选项。不幸的是,目前还不清楚该选项的变量名是什么,我不认为这是sbatch命令的文档中列出这里

任何指针都受到好评。

slurm sbatch

1
推荐指数
1
解决办法
1121
查看次数

标签 统计

r ×4

r-caret ×2

audacity ×1

audio ×1

dplyr ×1

ggplot2 ×1

random-forest ×1

sbatch ×1

slurm ×1