我正在尝试使用sourcetree通过bitbucket上的https协议来推送我的项目.
但是我无法使用我的登录名和密码(在网站上工作)连接到bitbucket,我有一个致命的错误:"身份验证失败".
我在其他帖子上看到我可以使用ssh协议而不是https来解决问题,所以我按照源树常见问题解答的说明设置了一个ssh密钥.但是现在我不知道当我想推送代码时如何更改为ssh协议.有人知道我怎么做到这一点?谢谢.
我曾经用dplyr实现我的数据争论,但有些计算是"慢"的.特别是按组子集,我读到dplyr很慢,当有很多组并且基于这个基准数据时.表可能更快,所以我开始学习data.table.
以下是如何使用250k行和大约230k组重现与我的实际数据接近的内容.我想按id1,id2进行分组,并将max(datetime)每个组的行子集化.
# random datetime generation function by Dirk Eddelbuettel
# https://stackoverflow.com/questions/14720983/efficiently-generate-a-random-sample-of-times-and-dates-between-two-dates
rand.datetime <- function(N, st = "2012/01/01", et = "2015/08/05") {
st <- as.POSIXct(as.Date(st))
et <- as.POSIXct(as.Date(et))
dt <- as.numeric(difftime(et,st,unit="sec"))
ev <- sort(runif(N, 0, dt))
rt <- st + ev
}
set.seed(42)
# Creating 230000 ids couples
ids <- data.frame(id1 = stringi::stri_rand_strings(23e4, 9, pattern = "[0-9]"),
id2 = stringi::stri_rand_strings(23e4, 9, pattern = "[0-9]"))
# Repeating randomly the ids[1:2000, ] to create groups
ids <- …Run Code Online (Sandbox Code Playgroud) 我想检查字符串是否以空格结尾.如果不是,我想在字符串的末尾添加一个尾随空格字符.
实际上,我检查字符串是否以空格结尾,grepl然后我paste在末尾有一个空格.
append_space <- function(x) {
if(!grepl("(\\s)$", x))
x <- paste0(x, " ")
return(x)
}
Run Code Online (Sandbox Code Playgroud)
但是,我认为我可以直接使用该sub功能,使用负面前瞻,!但我不知道如何使用它.
有谁知道我怎么做sub?
我想用ggplot2创建一个简单的条形图,我的问题是我的x变量包含长字符串,所以标签是重叠的.
这是假数据和情节:
library(dplyr)
library(tidyr)
library(ggplot2)
set.seed(42)
datas <- data.frame(label = sprintf("aLongLabel%d", 1:8),
ok = sample(seq(0, 1, by = 0.1), 8, rep = TRUE)) %>%
mutate(err = abs(ok - 1)) %>%
gather(type, freq, ok, err)
datas %>%
ggplot(aes(x = label, y = freq)) +
geom_bar(aes(fill = type), stat = "identity")
Run Code Online (Sandbox Code Playgroud)

我想用较短的标签替换标签,并创建一个图例来显示匹配.
我尝试过的:
我在geo_point中使用了形状aes参数,它将创建一个带有形状的图例(以及我隐藏的图形形状alpha = 0).然后我改变形状scale_shape_manual并用x替换x标签scale_x_discrete.随着guides我重写我的形状的α参数,以便他们不会在图例中不可见.
leg.txt <- levels(datas$label)
x.labels <- structure(LETTERS[seq_along(leg.txt)],
.Names = leg.txt)
datas %>%
ggplot(aes(x = label, y = freq)) + …Run Code Online (Sandbox Code Playgroud) "epitools"包的一些示例存在一些问题,例如具有该epicurve.dates功能.
这是一个流行曲线的简单例子(按天计算epicurve.dates)
sampdates <- seq(as.Date("2014-01-01"), Sys.Date(), 1)
x <- sample(sampdates, 100, rep=TRUE)
epicurve.dates(x)
Run Code Online (Sandbox Code Playgroud)
这是结果情节:

什么都没有绘制,如果我们查看epicurve.dates代码,我们可以看到问题发生时,它试图将日期向量编码为一个因素.只有NAs生产.
format <- "%Y-%m-%d"; before <- after <- 7
dates0 <- as.Date(x, format = format)
min.date <- min(dates0, na.rm = TRUE) - before
max.date <- max(dates0, na.rm = TRUE) + after
cdates <- seq(min.date, max.date, by = 1)
> factor(dates0, levels = cdates)
[1] <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> …Run Code Online (Sandbox Code Playgroud) 我正在使用Cloudera Quickstart VM 5.3.0(在Windows 7上的Virtual Box 4.3中运行),我想学习Spark(在YARN上).
我创办了Cloudera Manager.在侧边栏中我可以看到所有服务,有Spark但是在独立模式下.所以我点击"添加新服务",选择"Spark".然后我必须为这个服务选择一组依赖项,我没有选择我必须选择HDFS/YARN/zookeeper.下一步我必须选择历史服务器和网关,我在本地模式下运行VM,所以我只能选择localhost.
我单击"继续",发生此错误(+ 69个跟踪):
发生服务器错误.将以下信息发送给Cloudera.
路径:http:// localhost:7180/cmf/clusters/1/add-service/reviewConfig
版本:Cloudera Express 5.3.0(#155由jenkins在20141216-1458上建立git:e9aae1d1d1ce2982d812b22bd1c29ff7af355226)
org.springframework.web.bind.MissingServletRequestParameterException:org.springframework.web.servlet.mvc.annotation.AnnotationMethodHandlerAdapter中的AnnotationMethodHandlerAdapter.java第738行不存在必需的长参数'serviceId'$ ServletHandlerMethodInvoker raiseMissingParameterException()
我不知道是否需要互联网连接,但我确切地说我无法通过VM连接到互联网.(编辑:即使有互联网连接我也得到同样的错误)
我不知道如何添加此服务,我尝试使用或不使用网关,许多网络选项,但它从来没有工作过.我检查了已知的问题; 没有...
有人知道如何解决这个错误或我如何解决?谢谢你的帮助.
cloudera cloudera-manager apache-spark cloudera-quickstart-vm
如何获取Windows计算机的总磁盘空间/可用磁盘空间?
如果没有R函数,可能有一个我可以在R system函数中使用的Windows命令,但我无法找到该命令.
我创建了一个热图geom_tile,其中 x 和 y 值相同并以相同的方式排序。我想在图表对角线的瓷砖周围放置黑色边框。
set.seed(42L)
data <- data.frame(x = rep(letters[1:3], each = 3L),
y = rep(letters[1:3], 3L),
fill = rnorm(9L))
Run Code Online (Sandbox Code Playgroud)
我的选择是使用coloraes 并将变量设置为TRUEorNA并使用scale_color_manual删除NA值的灰色边框。
data$diag <- data$x == data$y
data$diag[!data$diag] <- NA
ggplot(data, aes(x = x, y = y, fill = fill)) +
geom_tile(aes(color = diag), size = 2) +
scale_color_manual(guide = FALSE, values = c(`TRUE` = "black"))
Run Code Online (Sandbox Code Playgroud)
但是渲染不是那么干净,边界似乎有点被“不可见”的 NA 边界覆盖。
如何改进我的图表?还有另一种方法吗?谢谢你
我有一个这样的嵌套列表:
x <- list(x = list(a = 1,
b = 2),
y = list(a = 3,
b = 4))
Run Code Online (Sandbox Code Playgroud)
我想将嵌套列表转换为data.frames,然后将所有数据帧绑定到一个.
对于这种嵌套级别,我可以用这一行来做:
do.call(rbind.data.frame, lapply(x, as.data.frame, stringsAsFactors = FALSE))
Run Code Online (Sandbox Code Playgroud)
结果是:
a b
x 1 2
y 3 4
Run Code Online (Sandbox Code Playgroud)
我的问题是,无论嵌套程度如何,我都希望实现这一目标.此列表的另一个示例:
x <- list(X = list(x = list(a = 1,
b = 2),
y = list(a = 3,
b = 4)),
Y = list(x = list(a = 1,
b = 2),
y = list(a = 3,
b = 4)))
do.call(rbind.data.frame, lapply(x, function(x) do.call(rbind.data.frame, lapply(x, …Run Code Online (Sandbox Code Playgroud) 我有一个包含大约250k行的40个数据帧的列表,我想为每个数据帧附加一个新变量.这个新变量period是从包含Date对象的另一个变量计算出来的,转换非常简单,如果年份部分的日期低于2015年期间则设置为"new",否则为"old".
我认为使用矢量化计算会非常快,但需要大约41秒才能完成!(使用for循环或lapply给出相同的表现).
可重复的例子:
datas.d <- function(nDf, nRow) {
lapply(seq_len(nDf), function(x) {
data.frame(
id1 = sample(7e8:9e8, nRow),
id2 = sample(1e9, nRow),
id3 = sample(1e9, nRow),
date = sample(seq(as.Date("2012-01-01"), Sys.Date(), by = 1), nRow, rep = TRUE),
code1 = sample(10, nRow, rep = TRUE),
code2 = sample(10, nRow, rep = TRUE),
code3 = sample(10, nRow, rep = TRUE)
)
})
}
datasDate <- datas.d(40, 25e4)
forLoopDate <- function(datas) {
for (i in seq_along(datas)) {
datas[[i]]$period <- rep("old", nrow(datas[[i]]))
datas[[i]]$period[format(datas[[i]]$date, "%Y") …Run Code Online (Sandbox Code Playgroud) r ×8
ggplot2 ×2
performance ×2
apache-spark ×1
bitbucket ×1
cloudera ×1
cmd ×1
data.table ×1
date ×1
datetime ×1
dplyr ×1
legend ×1
r-factor ×1
regex ×1
windows ×1