我与Airbnb的数据时,可以在这里对Kaggle,并预测国家的用户将预定他们的第一次旅行与XGBoost模型和R.近600个功能,通过50轮的5倍交叉验证的运行算法,我得到每次100%准确.在将模型拟合到训练数据并预测保持的测试集之后,我也获得了100%的准确度.这些结果不可能是真实的.我的代码肯定有问题,但到目前为止我还没弄清楚.我在下面列出了我的一部分代码.它基于这篇文章.继文章(使用文章的数据+复制代码),我收到类似的结果.无论如何将其应用于Airbnb的数据,我始终可以获得100%的准确率.我不知道发生了什么事.我是否错误地使用了xgboost包?感谢您的帮助和时间.
# set up the data
# train is the data frame of features with the target variable to predict
full_variables <- data.matrix(train[,-1]) # country_destination removed
full_label <- as.numeric(train$country_destination) - 1
# training data
train_index <- caret::createDataPartition(y = train$country_destination, p = 0.70, list = FALSE)
train_data <- full_variables[train_index, ]
train_label <- full_label[train_index[,1]]
train_matrix <- xgb.DMatrix(data = train_data, label = train_label)
# test data
test_data <- full_variables[-train_index, ]
test_label <- full_label[-train_index[,1]]
test_matrix <- xgb.DMatrix(data = test_data, label …Run Code Online (Sandbox Code Playgroud)