小编Err*_*404的帖子

Linux中两个目录的区别

我正在尝试查找存在于一个目录中但不存在于另一个目录中的文件,我尝试使用此命令:

diff -q dir1 dir2
Run Code Online (Sandbox Code Playgroud)

上面命令的问题是,它既可以找到文件dir1但不包含在文件中但不在dir2文件dir2dir1,

我试图找到文件,dir1但不是dir2只.

这是我的数据的一个小样本

dir1    dir2    dir3
1.txt   1.txt   1.txt
2.txt   3.txt   3.txt
5.txt   4.txt   5.txt
6.txt   7.txt   8.txt
Run Code Online (Sandbox Code Playgroud)

我想到的另一个问题是如何在单个命令dir1dir2dir3在单个命令中找到文件?

linux bash diff

295
推荐指数
11
解决办法
40万
查看次数

在for循环中跳过错误

我正在做一个for循环,为我的6000 X 180矩阵生成180个图形(每列1个图形),一些数据不符合我的标准,我得到错误:

"Error in cut.default(x, breaks = bigbreak, include.lowest = T) 
'breaks' are not unique". 
Run Code Online (Sandbox Code Playgroud)

我对错误很好,我希望程序继续运行for循环,并给我一个列出这个错误的列(作为包含列名的变量可能?).

这是我的命令:

for (v in 2:180){
    mypath=file.path("C:", "file1", (paste("graph",names(mydata[columnname]), ".pdf", sep="-")))
    pdf(file=mypath)
    mytitle = paste("anything")
    myplotfunction(mydata[,columnnumber]) ## this function is defined previously in the program
    dev.off()
}
Run Code Online (Sandbox Code Playgroud)

注意:我发现了很多关于tryCatch的帖子,但没有一个对我有效(或者至少我无法正确应用这个功能).帮助文件也不是很有帮助.

帮助将不胜感激.谢谢.

for-loop r

53
推荐指数
2
解决办法
10万
查看次数

删除高度相关的变量

我有一个巨大的数据帧5600 X 6592,我想删除被彼此相关的变量比0.99更我不知道该怎么做这很长的路,一步步也就是形成一个相关矩阵,取整数值,除去类似那些并使用索引来再次获得我的"减少"数据.

cor(mydata)
mydata <- round(mydata,2)
mydata <- mydata[,!duplicated (mydata)]
## then do the indexing...
Run Code Online (Sandbox Code Playgroud)

我想知道这是否可以在短命令或一些高级功能中完成.我正在学习如何使用R语言中的强大工具,这避免了这么长时间不必要的命令

我在想类似的东西

mydata <- mydata[, which(apply(mydata, 2, function(x) !duplicated(round(cor(x),2))))]
Run Code Online (Sandbox Code Playgroud)

对不起,我知道上面的命令不起作用,但我希望我能做到这一点.

适用于该问题的播放数据:

mydata <- structure(list(V1 = c(1L, 2L, 5L, 4L, 366L, 65L, 43L, 456L, 876L, 
78L, 687L, 378L, 378L, 34L, 53L, 43L), V2 = c(2L, 2L, 5L, 4L, 
366L, 65L, 43L, 456L, 876L, 78L, 687L, 378L, 378L, 34L, 53L, 
41L), V3 = c(10L, 20L, 10L, 20L, 10L, 20L, 1L, 0L, 1L, 2010L, 
20L, 10L, 10L, …
Run Code Online (Sandbox Code Playgroud)

r function subset correlation

30
推荐指数
3
解决办法
4万
查看次数

删除R中的常量列

当我收到此错误时,我正在使用prcomp函数

Error in prcomp.default(x, ...) : 
cannot rescale a constant/zero column to unit variance
Run Code Online (Sandbox Code Playgroud)

我知道我可以手动扫描我的数据,但R中是否有任何函数或命令可以帮助我删除这些常量变量?我知道这是一个非常简单的任务,但我从来没有遇到任何这样做的功能.

谢谢,

r constants

25
推荐指数
3
解决办法
2万
查看次数

r中的5维图

我试图在R中绘制一个5维图.我目前正在使用rgl包在4维中绘制我的数据,使用3个变量作为x,y,z,坐标,另一个变量作为颜色.我想知道是否可以使用此包添加第五个变量,例如空间中点的大小或形状.这是我的数据和我当前代码的示例:

set.seed(1)
df <- data.frame(replicate(4,sample(1:200,1000,rep=TRUE)))
addme <- data.frame(replicate(1,sample(0:1,1000,rep=TRUE)))
df <- cbind(df,addme)
colnames(df) <- c("var1","var2","var3","var4","var5")
require(rgl)
plot3d(df$var1, df$var2, df$var3, col=as.numeric(df$var4), size=0.5, type='s',xlab="var1",ylab="var2",zlab="var3")
Run Code Online (Sandbox Code Playgroud)

我希望有可能做到第五维度.非常感谢,

plot r multi-dimensional-scaling rgl

13
推荐指数
1
解决办法
4885
查看次数

glm()模型的交叉验证

我正在尝试对我之前在R中构建的一些glm模型进行10倍交叉验证.虽然我已经阅读了很多帮助文件,但我cv.glm()boot包中的函数有点困惑.当我提供以下公式时:

library(boot)
cv.glm(data, glmfit, K=10)
Run Code Online (Sandbox Code Playgroud)

这里的"数据"参数是指整个数据集还是仅指测试集?

到目前为止我看到的例子提供了"数据"参数作为测试集,但这并没有真正有意义,例如为什么在同一测试集上有10倍?它们都会给出完全相同的结果(我假设!).

不幸的是,?cv.glm它以模糊的方式解释:

data:包含数据的矩阵或数据帧.行应为case,列对应变量,其中一个是响应

我的另一个问题是$delta[1]结果.这是10次试验的平均预测误差吗?如果我想获得每个折叠的错误怎么办?

这是我的脚本的样子:

##data partitioning
sub <- sample(nrow(data), floor(nrow(x) * 0.9))
training <- data[sub, ]
testing <- data[-sub, ]

##model building
model <- glm(formula = groupcol ~ var1 + var2 + var3,
        family = "binomial", data = training)

##cross-validation
cv.glm(testing, model, K=10)
Run Code Online (Sandbox Code Playgroud)

partitioning r prediction glm cross-validation

12
推荐指数
2
解决办法
2万
查看次数

完整的cor()函数

我正在为我的数据建立一个相关矩阵,看起来像这样

df <- structure(list(V1 = c(56, 123, 546, 26, 62, 6, NA, NA, NA, 15
), V2 = c(21, 231, 5, 5, 32, NA, 1, 231, 5, 200), V3 = c(NA, 
NA, 24, 51, 53, 231, NA, 153, 6, 700), V4 = c(2, 10, NA, 20, 
56, 1, 1, 53, 40, 5000)), .Names = c("V1", "V2", "V3", "V4"), row.names = c(NA, 
10L), class = "data.frame")
Run Code Online (Sandbox Code Playgroud)

这给出了以下数据框:

        V1  V2  V3   V4
    1   56  21  NA    2
    2  123 231  NA   10 …
Run Code Online (Sandbox Code Playgroud)

r matrix correlation na

11
推荐指数
1
解决办法
3万
查看次数

将主要组件作为变量添加到数据框中

我正在处理一个包含10000个数据点和100个变量的数据集.不幸的是,我所拥有的变量没有以良好的方式描述数据.我使用了PCA分析prcomp(),前3台PC似乎占据了数据的大部分可变性.据我了解,主要成分是不同变量的组合; 因此它具有对应于每个数据点的特定值,并且可以被视为新变量.我能将这些主要组件作为3个新变量添加到我的数据中吗?我需要它们进行进一步分析.

可重现的数据集:

set.seed(144)
x <- data.frame(matrix(rnorm(2^10*12), ncol=12))
y <- prcomp(formula = ~., data=x, center = TRUE, scale = TRUE, na.action = na.omit)
Run Code Online (Sandbox Code Playgroud)

variables r pca dataframe

10
推荐指数
1
解决办法
5540
查看次数

可以在R中读取PMML模型吗?

我有一个PMML文件,我试图在R中导入/读取它,根据它进行一些分析.虽然我发现了一个与PMML相关的软件包,但我找不到合适的函数来读取模型.有一种简单的方法可以将这种类型的文件读入R吗?

谢谢,

import r file pmml

9
推荐指数
2
解决办法
6002
查看次数

相关矩阵与名称

我有一个大约1000行X 500变量的矩阵,我试图用名称而不是数字为这些变量建立一个相关矩阵,所以结果应该是这样的

variable1    variable2    variable3    variable4 ...
  mrv1         mrv2         mrv3          mrv4   ...
 smrv1        smrv2        smrv3          smrv4   ...
   .             .           .             .
   .             .           .             .
   .             .           .             .
Run Code Online (Sandbox Code Playgroud)

其中mrv1 =变量1的最相关变量,smrv1 =第二个最相关的变量,依此类推.

我实际上已经建立了相关矩阵,但是使用了for循环和一个非常复杂的命令(可能是有史以来最糟糕的命令,但它实际上有效!).我期待通过适当的命令建立这个,这是我现在使用的命令.

mydata <- read.csv("location", header=TRUE, sep=",")
lgn <- length(mydata)
crm <- cor(mydata)

k <- crm[,1]
K <- data.frame(rev(sort(k)))
A <- data.frame(rownames(K))

for (x in 2:lgn){
k <- crm[,x]
K <- data.frame(rev(sort(k)))
B <- data.frame(rownames(K)) 
A <- cbind(A,B)
}
Run Code Online (Sandbox Code Playgroud)

任何更简单,更可靠的命令的想法?

谢谢,

r

7
推荐指数
1
解决办法
889
查看次数