通常,当人们想要sparklyr
在自定义函数(即 ** 非翻译函数)上使用时,他们会将它们放在spark_apply()
. 然而,我只遇到例子,其中一个单一的本地数据帧或者是copy_to()
或spark_read_csv()
到远程数据源,然后使用spark_apply()
它。一个示例,仅用于说明目的:
library(sparklyr)
sc <- spark_connect(master = "local")
n_sim = 100
iris_samps <- iris %>% dplyr::filter(Species == "virginica") %>%
sapply(rep.int, times=n_sim) %>% cbind(replicate = rep(1:n_sim, each = 50)) %>%
data.frame() %>%
dplyr::group_by(replicate) %>%
dplyr::sample_n(50, replace = TRUE)
iris_samps_tbl <- copy_to(sc, iris_samps)
iris_samps_tbl %>%
spark_apply(function(x) {mean(x$Petal_Length)},
group_by = "replicate") %>%
ggplot(aes(x = result)) + geom_histogram(bins = 20) + ggtitle("Histogram of 100 Bootstrapped Means using sparklyr")
Run Code Online (Sandbox Code Playgroud)
因此,只要数据驻留在 …
我最近在Github上找到了一个软件包,其中开发人员分析了由Antonio Prohias出版的248期Spy vs Spy漫画中的粉丝精选数据.
他进行了一些基本的探索性数据分析,计算了黑暗间谍胜利的运行净得分,然后进行了非参数测试(Wald Wolfowitz测试)以查看其中一个间谍的连续胜利集群,以确定Prohias是否保留通过扭转之前的结果,或者如果他可能选择了最爱,得分平衡.
虽然我发现这是一个有趣的练习,但我最感兴趣的是Spy Plot.
Spy Plot的点数据实际上来自MATLAB复活节彩蛋 spy()
包,开发人员将这一点数据作为tibble :: tribble放入R中.
我的问题是如何从图像中创建点数据?是否可以在R中imager()
进行边缘检测以获得轮廓
然后以某种方式将此图像数据转换为tbl_df
?我不熟悉位图数组,但答案可能就是这样的?
我正在尝试实现异常处理,RSelenium
并需要帮助.请注意,我已检查使用该robotstxt
程序包抓取此页面的权限.
library(RSelenium)
library(XML)
library(janitor)
library(lubridate)
library(magrittr)
library(dplyr)
remDr <- remoteDriver(
remoteServerAddr = "192.168.99.100",
port = 4445L
)
remDr$open()
# Open TightVNC to follow along as RSelenium drives the browser
# navigate to the main page
remDr$navigate("https://docs.google.com/spreadsheets/d/1o1PlLIQS8v-XSuEz1eqZB80kcJk9xg5lsbueB7mTg1U/pub?output=html&widget=true#gid=690408156")
# look for table element
tableElem <- remDr$findElement(using = "id", "pageswitcher-content")
# switch to table
remDr$switchToFrame(tableElem)
# parse html for first table
doc <- htmlParse(remDr$getPageSource()[[1]])
table_tmp <- readHTMLTable(doc)
table_tmp <- table_tmp[[1]][-2, -1]
table_tmp <- table_tmp[-1, ]
colnames(table_tmp) <- c("team_name", "team_size", …
Run Code Online (Sandbox Code Playgroud) 我认为MaxRSS
是用来了解SLURM
工作的内存要求;然而,现在我在质疑自己。
SLURM
我收到了我的工作失败的通知。
SLURM Job_id=7347729 名称=job.cph.proband 已结束,运行时间 00:01:21,OUT_OF_MEMORY
我曾经sacct
检查工作失败的原因;但是,看起来它因OOM错误而失败。这很奇怪,因为它看起来只是尝试使用1.61 Gb
所请求的3 Gb
(如下所示2.93
)。
要么我的理解MaxRSS
是错误的,要么这项工作因其他原因而失败?
我正在尝试学习更多 CSS/HTML 来自定义 xaringan 幻灯片,并且可以使用一些帮助。
我想将一些 GIF 放在一个图像网格中,就像这里显示的那样,放入 xaringan 幻灯片中。
我知道通常可以通过使用.pull-left[]
&.pull-right[]
或使用自定义 CSS 定义部分来并排显示两个图像,如下所示:
.left-code {
color: #777;
width: 38%;
height: 92%;
float: left;
}
.right-plot {
width: 60%;
float: right;
padding-left: 1%;
}
Run Code Online (Sandbox Code Playgroud)
然后将图像放入带有 R 代码的 xaringan 幻灯片中,如下所示:
.pull-left[
<img src=figure1.jpg>
]
.pull-right[
<img src=figure2.jpg>
]
Run Code Online (Sandbox Code Playgroud)
对于图像网格,自定义 CSS 将是:
.row {
display: flex;
flex-wrap: wrap;
padding: 0 4px;
}
/* Create two equal columns that sits next to each other */
.column {
flex: …
Run Code Online (Sandbox Code Playgroud) 是否可以通过magick
包装去除图像的背景?
我知道如何在Gimp / Inkscape中使用边缘检测来裁剪轮廓。但是,我希望使用来自动处理大量图像R
。
我的最终目标是使用该ggimage
程序包将这些图像绘制为x,y
坐标,但是这些图像的背景当前与该绘制重叠(与芬克相比,这只狗是狗)
library("ggplot2")
library("ggimage")
set.seed(2017-02-21)
d <- data.frame(x = rnorm(10),
y = rnorm(10),
image = sample(c("http://www.supercoloring.com/sites/default/files/silhouettes/2015/05/cairn-terrier-black-silhouette.svg", "https://jeroenooms.github.io/images/frink.png"),
size=10, replace = TRUE)
)
ggplot(d, aes(x, y)) + geom_image(aes(image=image))
Run Code Online (Sandbox Code Playgroud)
可以使用image magick的图像修剪图像的边缘 image_trim()
img <- image_read_svg("http://www.supercoloring.com/sites/default/files/silhouettes/2015/05/cairn-terrier-black-silhouette.svg")
image_trim(img)
Run Code Online (Sandbox Code Playgroud)
但这不是我想要的。
有任何想法吗?