我正在尝试查找存在于一个目录中但不存在于另一个目录中的文件,我尝试使用此命令:
diff -q dir1 dir2
Run Code Online (Sandbox Code Playgroud)
上面命令的问题是,它既可以找到文件dir1
但不包含在文件中但不在dir2
文件dir2
中dir1
,
我试图找到文件,dir1
但不是dir2
只.
这是我的数据的一个小样本
dir1 dir2 dir3
1.txt 1.txt 1.txt
2.txt 3.txt 3.txt
5.txt 4.txt 5.txt
6.txt 7.txt 8.txt
Run Code Online (Sandbox Code Playgroud)
我想到的另一个问题是如何在单个命令dir1
中dir2
或dir3
在单个命令中找到文件?
我正在做一个for循环,为我的6000 X 180矩阵生成180个图形(每列1个图形),一些数据不符合我的标准,我得到错误:
"Error in cut.default(x, breaks = bigbreak, include.lowest = T)
'breaks' are not unique".
Run Code Online (Sandbox Code Playgroud)
我对错误很好,我希望程序继续运行for循环,并给我一个列出这个错误的列(作为包含列名的变量可能?).
这是我的命令:
for (v in 2:180){
mypath=file.path("C:", "file1", (paste("graph",names(mydata[columnname]), ".pdf", sep="-")))
pdf(file=mypath)
mytitle = paste("anything")
myplotfunction(mydata[,columnnumber]) ## this function is defined previously in the program
dev.off()
}
Run Code Online (Sandbox Code Playgroud)
注意:我发现了很多关于tryCatch的帖子,但没有一个对我有效(或者至少我无法正确应用这个功能).帮助文件也不是很有帮助.
帮助将不胜感激.谢谢.
我有一个巨大的数据帧5600 X 6592,我想删除被彼此相关的变量比0.99更我不知道该怎么做这很长的路,一步步也就是形成一个相关矩阵,取整数值,除去类似那些并使用索引来再次获得我的"减少"数据.
cor(mydata)
mydata <- round(mydata,2)
mydata <- mydata[,!duplicated (mydata)]
## then do the indexing...
Run Code Online (Sandbox Code Playgroud)
我想知道这是否可以在短命令或一些高级功能中完成.我正在学习如何使用R语言中的强大工具,这避免了这么长时间不必要的命令
我在想类似的东西
mydata <- mydata[, which(apply(mydata, 2, function(x) !duplicated(round(cor(x),2))))]
Run Code Online (Sandbox Code Playgroud)
对不起,我知道上面的命令不起作用,但我希望我能做到这一点.
适用于该问题的播放数据:
mydata <- structure(list(V1 = c(1L, 2L, 5L, 4L, 366L, 65L, 43L, 456L, 876L,
78L, 687L, 378L, 378L, 34L, 53L, 43L), V2 = c(2L, 2L, 5L, 4L,
366L, 65L, 43L, 456L, 876L, 78L, 687L, 378L, 378L, 34L, 53L,
41L), V3 = c(10L, 20L, 10L, 20L, 10L, 20L, 1L, 0L, 1L, 2010L,
20L, 10L, 10L, …
Run Code Online (Sandbox Code Playgroud) 当我收到此错误时,我正在使用prcomp函数
Error in prcomp.default(x, ...) :
cannot rescale a constant/zero column to unit variance
Run Code Online (Sandbox Code Playgroud)
我知道我可以手动扫描我的数据,但R中是否有任何函数或命令可以帮助我删除这些常量变量?我知道这是一个非常简单的任务,但我从来没有遇到任何这样做的功能.
谢谢,
我试图在R中绘制一个5维图.我目前正在使用rgl
包在4维中绘制我的数据,使用3个变量作为x,y,z,坐标,另一个变量作为颜色.我想知道是否可以使用此包添加第五个变量,例如空间中点的大小或形状.这是我的数据和我当前代码的示例:
set.seed(1)
df <- data.frame(replicate(4,sample(1:200,1000,rep=TRUE)))
addme <- data.frame(replicate(1,sample(0:1,1000,rep=TRUE)))
df <- cbind(df,addme)
colnames(df) <- c("var1","var2","var3","var4","var5")
require(rgl)
plot3d(df$var1, df$var2, df$var3, col=as.numeric(df$var4), size=0.5, type='s',xlab="var1",ylab="var2",zlab="var3")
Run Code Online (Sandbox Code Playgroud)
我希望有可能做到第五维度.非常感谢,
我正在尝试对我之前在R中构建的一些glm模型进行10倍交叉验证.虽然我已经阅读了很多帮助文件,但我cv.glm()
对boot
包中的函数有点困惑.当我提供以下公式时:
library(boot)
cv.glm(data, glmfit, K=10)
Run Code Online (Sandbox Code Playgroud)
这里的"数据"参数是指整个数据集还是仅指测试集?
到目前为止我看到的例子提供了"数据"参数作为测试集,但这并没有真正有意义,例如为什么在同一测试集上有10倍?它们都会给出完全相同的结果(我假设!).
不幸的是,?cv.glm
它以模糊的方式解释:
data:包含数据的矩阵或数据帧.行应为case,列对应变量,其中一个是响应
我的另一个问题是$delta[1]
结果.这是10次试验的平均预测误差吗?如果我想获得每个折叠的错误怎么办?
这是我的脚本的样子:
##data partitioning
sub <- sample(nrow(data), floor(nrow(x) * 0.9))
training <- data[sub, ]
testing <- data[-sub, ]
##model building
model <- glm(formula = groupcol ~ var1 + var2 + var3,
family = "binomial", data = training)
##cross-validation
cv.glm(testing, model, K=10)
Run Code Online (Sandbox Code Playgroud) 我正在为我的数据建立一个相关矩阵,看起来像这样
df <- structure(list(V1 = c(56, 123, 546, 26, 62, 6, NA, NA, NA, 15
), V2 = c(21, 231, 5, 5, 32, NA, 1, 231, 5, 200), V3 = c(NA,
NA, 24, 51, 53, 231, NA, 153, 6, 700), V4 = c(2, 10, NA, 20,
56, 1, 1, 53, 40, 5000)), .Names = c("V1", "V2", "V3", "V4"), row.names = c(NA,
10L), class = "data.frame")
Run Code Online (Sandbox Code Playgroud)
这给出了以下数据框:
V1 V2 V3 V4
1 56 21 NA 2
2 123 231 NA 10 …
Run Code Online (Sandbox Code Playgroud) 我正在处理一个包含10000个数据点和100个变量的数据集.不幸的是,我所拥有的变量没有以良好的方式描述数据.我使用了PCA分析prcomp()
,前3台PC似乎占据了数据的大部分可变性.据我了解,主要成分是不同变量的组合; 因此它具有对应于每个数据点的特定值,并且可以被视为新变量.我能将这些主要组件作为3个新变量添加到我的数据中吗?我需要它们进行进一步分析.
可重现的数据集:
set.seed(144)
x <- data.frame(matrix(rnorm(2^10*12), ncol=12))
y <- prcomp(formula = ~., data=x, center = TRUE, scale = TRUE, na.action = na.omit)
Run Code Online (Sandbox Code Playgroud) 我有一个PMML文件,我试图在R中导入/读取它,根据它进行一些分析.虽然我发现了一个与PMML相关的软件包,但我找不到合适的函数来读取模型.有一种简单的方法可以将这种类型的文件读入R吗?
谢谢,
我有一个大约1000行X 500变量的矩阵,我试图用名称而不是数字为这些变量建立一个相关矩阵,所以结果应该是这样的
variable1 variable2 variable3 variable4 ...
mrv1 mrv2 mrv3 mrv4 ...
smrv1 smrv2 smrv3 smrv4 ...
. . . .
. . . .
. . . .
Run Code Online (Sandbox Code Playgroud)
其中mrv1 =变量1的最相关变量,smrv1 =第二个最相关的变量,依此类推.
我实际上已经建立了相关矩阵,但是使用了for循环和一个非常复杂的命令(可能是有史以来最糟糕的命令,但它实际上有效!).我期待通过适当的命令建立这个,这是我现在使用的命令.
mydata <- read.csv("location", header=TRUE, sep=",")
lgn <- length(mydata)
crm <- cor(mydata)
k <- crm[,1]
K <- data.frame(rev(sort(k)))
A <- data.frame(rownames(K))
for (x in 2:lgn){
k <- crm[,x]
K <- data.frame(rev(sort(k)))
B <- data.frame(rownames(K))
A <- cbind(A,B)
}
Run Code Online (Sandbox Code Playgroud)
任何更简单,更可靠的命令的想法?
谢谢,