我试图让 Docker 使用我的硬件上所有可用的 CPU 内核 (4)。Docker只能看到一个CPU核心:
$ docker run --cpuset-cpus="0-3" -ti ubuntu bash
C:\Program Files\Docker Toolbox\docker.exe: Error response from daemon: Requested CPUs are not available - requested 0-3, available: 0.
See 'C:\Program Files\Docker Toolbox\docker.exe run --help'.
Run Code Online (Sandbox Code Playgroud)
如何让 Docker 使用所有可用的内核?
Docker 文档声称将 cpus 标志设置为 0.000 会强制 Docker 使用所有可用的内核,但这对我不起作用:
$ docker run --cpus=0.000 -ti ubuntu bash
root@36855ab28928:/# cat /proc/cpuinfo
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 58
model name : Intel(R) Core(TM) i7-3520M CPU @ 2.90GHz
stepping …
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用 R 包 mlr 在非常普通的硬件(我的带有 4GB RAM 的笔记本电脑 --- 我不可以使用更多的 CPU 肌肉)。我决定使用 mlr,因为我需要使用嵌套交叉验证来调整分类器的超参数并评估最终模型的预期性能。据我所知,目前 caret 或 h2o 都没有提供嵌套交叉验证,但 mlr 提供了执行此操作的基础结构。但是,我发现 mlr 提供的大量功能非常难以应付,而且很难知道如何将所有内容放在一起来实现我的目标。什么去哪里?它们是如何组合在一起的?我在这里阅读了整个文档:https://mlr-org.github.io/mlr-tutorial/release/html/我仍然很困惑。有一些代码片段显示了如何做特定的事情,但(对我而言)不清楚如何将它们拼接在一起。大局是什么?我寻找了一个完整的工作示例以用作模板,但只找到了这个:https : //www.bioconductor.org/help/course-materials/2015/CSAMA2015/lab/classification.html我一直在使用它作为我的开始观点。任何人都可以帮助填补空白吗?
这是我想要做的:
使用网格搜索或随机网格搜索(或任何更快,如果存在的话——迭代 F 赛车?自适应重采样?)和分层 k 折交叉验证内循环来调整 glmnet 模型的超参数(l1 和 l2 正则化参数),使用外部交叉验证循环来评估预期的最终性能。我想在内循环中包含一个特征预处理步骤,包括居中、缩放和 Yeo-Johnson 变换,以及基于过滤器的快速特征选择(后者是必需的,因为我的硬件非常适中,我需要缩小特征空间以减少训练时间)。我有不平衡的类(正类约为 20%)所以我选择使用 AUC 作为我的优化目标,但这只是对真正感兴趣的指标的替代,with 是少数真阳性固定点的假阳性率(即,我想知道 TPR = 0.6、0.7、0.8 的 FPR)。我想调整概率阈值以实现这些 TPR,并注意这在嵌套 CV 中是可能的,但目前尚不清楚这里正在优化什么: https://github.com/mlr-org/mlr/issues/856 我想知道在不引起信息泄漏的情况下应该在哪里进行剪辑,所以我想使用 CV 选择它。
我使用 glmnet 是因为我宁愿将 CPU 周期花在构建一个健壮的模型上,而不是一个会产生过于乐观的结果的花哨模型。如果我发现 GBM 或随机森林可以做得足够快,则可以稍后进行,但我不希望我的数据中的特征提供足够的信息,以至于花费大量时间来训练任何特别复杂的东西。
最后,在获得对最终模型的预期性能的估计之后,我想实际构建最终模型并获得 glmnet 模型的系数 --- 包括哪些为零,所以我知道哪些特征已被 LASSO 惩罚选中。
希望这一切都有意义!
这是我到目前为止所得到的:
df <- as.data.frame(DT)
task <- makeClassifTask(id = "glmnet", …
Run Code Online (Sandbox Code Playgroud) 我正在使用R Markdown撰写期刊论文,我想使用默认的书目引用样式"unsrt".或者"平淡无奇".要么会这样做.我们仍然在我的领域使用这些.
此页面提供有关R Markdown的引文和引文样式的信息:http: //rmarkdown.rstudio.com/authoring_bibliographies_and_citations.html#citations_for_pdf_output但是那里的链接没有提供任何关于如何获得"普通"或"unsrt"的线索样式.它们似乎不可用!如何指定这些默认样式?
或者,如何将.bst文件转换为.csl文件,或者Zotero样式存档中哪种样式最接近plain或unsrt?
对不起,新手R问题...
我有一个data.frame,其中包含单个变量的度量。根据被测物是A型还是B型,这些测量的分布将有所不同。也就是说,您可以想象我的列名是:度量,键入标签(A或B)。我想分别绘制A和B的测量直方图,并将这两个直方图放在同一图中,每个直方图都归一化为单位面积(这是因为我期望A和B的比例会有显着差异)。单位面积是指A和B各自具有单位面积,而不是A + B具有单位面积。基本上,我想要geom_density之类的东西,但是我不想为每个元素分配一个平滑的分布。我想要直方图条。没有交错,但在另一个之上绘制了一个。没有堆叠,尽管也知道如何进行也会很有趣。(此图的目的是探索分布形状的差异,这表明A和B之间存在数量差异,可以用来区分它们。)同一张图中的两个或多个直方图-不是平滑的密度图-每个直方图均归一化为单位面积。谢谢!
我想使用 data.frame 的所有列绘制一个 ggplot2 boxplot,并且我想按每列的中位数对列重新排序,旋转 x 轴标签,并用对应于相同中位数的颜色填充每个框。我不知道如何做最后一部分。填充颜色对应一个因子变量的例子有很多,但我还没有看到使用连续变量的明确例子控制填充颜色的变量。(我尝试这样做的原因是结果图将为带有节点的力导向网络图提供上下文,这些节点将以与箱线图相同的方式进行颜色编码——然后颜色将提供之间的映射两个图。)如果我可以为以后的图重新使用值到颜色的映射,以便图之间的颜色保持一致,那就太好了。因此,例如,与具有高中值的列变量对应的框将具有表示此映射的颜色,并且与其他图中相同列变量的颜色完美匹配(例如力导向网络中的相应节点图形)。
到目前为止,我有这样的事情:
# Melt the data.frame:
DT.m <- melt(results, id.vars = NULL) # using reshape2
# I can now make a boxplot for every column in the data.frame:
g <- ggplot(DT.m, aes(x = reorder(variable, value, FUN=median), y = value)) +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
stat_summary(fun.y=mean, colour="darkred", geom="point") +
geom_boxplot(???, alpha=0.5)
Run Code Online (Sandbox Code Playgroud)
颜色填充信息是我所坚持的。“值”是 [0,1] 范围内的连续变量,我的 data.frame 中有 55 列。我尝试过的各种方法似乎导致盒子在中间垂直分开,我没有进一步。有任何想法吗?