小编Stu*_*olf的帖子

sklearn中K-Fold Cross Validation中每个折叠的预测值

我对使用 python sklearn 的数据集进行了 10 倍交叉验证，

result = cross_val_score(best_svr, X, y, cv=10, scoring='r2')
print(result.mean())

Run Code Online (Sandbox Code Playgroud)

我已经能够得到 r2 分数的平均值作为最终结果。我想知道是否有办法打印出每个折叠的预测值（在本例中为 10 组值）。

python regression scikit-learn cross-validation

Kri*_*i H

2020 12-19

6
推荐指数

1
解决办法

2327
查看次数

R中的引导变量相关性

我的目的是编写几个函数，旨在找到两个协方差矩阵之间的整体相似性，方法是将它们与随机向量相乘并关联响应向量，或者通过自举矩阵之一来获得可用于比较的相关系数分布。但在这两种情况下，我都得到了错误的结果。观察到的矩阵间相关性高达 0.93，但分布最多仅达到 0.2。这是函数的代码：

resamplerSimAlt <- function(mat1, mat2, numR, graph = FALSE)
{
  statSim <- numeric(numR)
  mat1vcv <- cov(mat1)
  mat2vcvT <- cov(mat2)
  ltM1 <- mat1vcv[col(mat1vcv) <= row(mat1vcv)]
  ltM2T <- mat2vcvT[col(mat2vcvT) <= row(mat2vcvT)]
  statObs <- cor(ltM1, ltM2T)                           
  indice <- c(1:length(mat2))
  resamplesIndices <- lapply(1:numR, function(i) sample(indice, replace = F))
  for (i in 1:numR)
  {
    ss <- mat2[sample(resamplesIndices[[i]])]
    ss <- matrix(ss, nrow = dim(mat2)[[1]], ncol = dim(mat2)[[2]])
    mat2ss <- cov(ss)
    ltM2ss <- mat2ss[col(mat2ss) <= row(mat2ss)]
    statSim[i] <- cor(ltM1, ltM2ss)
  }
  if (graph == TRUE) …

Run Code Online (Sandbox Code Playgroud)

r correlation statistics-bootstrap

Fed*_*vic

2020 08-30

5
推荐指数

1
解决办法

1113
查看次数

PCA分析去除质心

我用来fviz_pca_ind制作 PCA 图，如下所示。

 fviz_pca_ind(res.pca,  geom="point",  pointsize = 1, habillage=iris$Species, addEllipses=TRUE, ellipse.level=0.95
             , palette = c("green", "orange", "grey"))

Run Code Online (Sandbox Code Playgroud)

我想删除质心，但保留我得到的不同颜色和椭圆habillage=iris$Species。

col.ind需要一个元素数量等于行数的向量。

r pca factoextra

Al1*_*l14

2022 01-04

5
推荐指数

1
解决办法

4302
查看次数

R：Bootstrap 百分位数置信区间

library(boot)
set.seed(1)
x=sample(0:1000,1000)
y=function(u,i) sum(x[i])
o=boot(x,y,1000)
theta1=NULL
theta1=cbind(theta1,o$t)
b=theta1[order(theta1)]
bp1=c(b[25], b[975])
ci=boot.ci(o,type="perc")

Run Code Online (Sandbox Code Playgroud)

我使用两种方法来构建引导百分位数置信区间，但我得到了两个不同的答案。

bp1=c(b[25], b[975]) get (480474,517834)

Run Code Online (Sandbox Code Playgroud)

同时ci=boot.ci(o,type="perc")得到 (480476, 517837 )

boot.ci 如何构建百分位区间？

r confidence-interval statistics-bootstrap

yap*_*yap

2020 08-30

5
推荐指数

1
解决办法

2320
查看次数

如何避免 KNN 模型中的时间泄漏？

我正在构建一个 KNN 模型来预测房价。我将检查我的数据和我的模型，然后是我的问题。

数据 -

# A tibble: 81,334 x 4
   latitude longitude close_date          close_price
      <dbl>     <dbl> <dttm>                    <dbl>
 1     36.4     -98.7 2014-08-05 06:34:00     147504.
 2     36.6     -97.9 2014-08-12 23:48:00     137401.
 3     36.6     -97.9 2014-08-09 04:00:40     239105.

Run Code Online (Sandbox Code Playgroud)

模型 -

library(caret)
training.samples <- data$close_price %>%
  createDataPartition(p = 0.8, list = FALSE)
train.data  <- data[training.samples, ]
test.data <- data[-training.samples, ]

model <- train(
  close_price~ ., data = train.data, method = "knn",
  trControl = trainControl("cv", number = 10),
  preProcess = c("center", "scale"),
  tuneLength …

Run Code Online (Sandbox Code Playgroud)

r machine-learning knn r-caret

goo*_*lan

2020 06-04

5
推荐指数

1
解决办法

244
查看次数

如何使用扫帚将多个模型的置信区间包含在整齐的输出中？

我正在尝试使用，从许多线性模型中输出一些结果，包括置信区间broom::tidy，但输出似乎只包括第一个模型的置信区间。

线性模型具有相同的预测变量但不同的响应。

考虑以下示例：

library(tidyverse)
library(broom)

# Create toy dataframe.

df <- tibble(
  x = sample(100, replace = TRUE),
  y1 = runif(100),
  y2 = rnorm(100)
)


# Fit linear models, each with x as predictor and y1 and y2 respectively as responses.

my_models <- lm(
  cbind(y1, y2) ~ x,
  data = df
)


# Output results as a tidy tibble.

tidy(my_models, conf.int = TRUE)


# Check confidence intervals with other function.

confint(my_models)

Run Code Online (Sandbox Code Playgroud)

该函数tidy(my_models, conf.int = TRUE)返回以下内容： …

r lm broom

ric*_*cke

2020 08-28

5
推荐指数

1
解决办法

1738
查看次数

XGBoost xgbTree 的插入符号 varImp 包装器是否使用 XGBoost Gain？

使用 XGBoostxgb.importance可以打印重要性矩阵，显示通过增益、覆盖率和频率测量的分类的可变重要性值。增益是推荐的可变重要性指标。使用脱字符重采样（repeatedcv，数量=10，重复=5）、特定的调整网格和训练method = "xgbTree"，脱字符varImp()函数显示从 0-100% 缩放的 k 倍特征重要性估计。

我的问题是插入符varImp(xgbMod)包装函数是否使用增益或增益、覆盖率和频率的所有组合？

r machine-learning r-caret

Cha*_*888

2020 06-20

5
推荐指数

1
解决办法

2258
查看次数