我试图使用R包leaps来运行所有可能的回归模型组合 - 所有可能的大小 - 在单个因变量和大于50个可能的预测变量上.每个变量是大约50个数值的向量.
这是我尝试过没有成功的:
vars <- c("var1", "var2", "var3", ... , "var60")
xs <- as.formula(paste("yvar ~ ", paste(vars, collapse="+")))
model1 <- regsubsets(x=xs, y=yvar, really.big=TRUE,
method="exhaustive", data=data)
summary(model1)
Run Code Online (Sandbox Code Playgroud)
我收到的错误是:
Warning message:
In leaps.setup(x, y, wt = wt, nbest = nbest, nvmax = nvmax, force.in = force.in,:
15 linear dependencies found
Run Code Online (Sandbox Code Playgroud) 我有一个字符串数据框,其中大部分都是重复的.我想确定此数据框中至少出现x次的值.
df <- data.frame(x = c("str", "str", "str", "ing", "ing","."))
occurs <- 3
Run Code Online (Sandbox Code Playgroud)
数据框包含数百个独特的字符串,以及数万个元素.在这个例子中,我如何识别哪些字符串至少发生了三次?具体来说,我想输出符合此标准的字符串的名称,而不是数据框中的索引.