创建数据集的两个列表之间的差异

jbe*_*s94 0 r

我有一个像这样的数据集,mushrooms <- read.csv("mushrooms.csv")现在我已经有了一个mushrooms.training_set占整个数据集 1/3 的数据集。对于这两个变量,typeof()返回list

现在,我想选择原始数据集中mushrooms不在mushrooms.training_set. 我该怎么做?我已经尝试过以下方法:

  • mushrooms[c(!mushrooms.training_set),]但这会返回大约 64K 行的内容。
  • mushrooms[!mushrooms.training_set,]
  • mushrooms[!duplicated(mushrooms.training_set)]

谁帮帮我?

Gre*_*gor 5

从您所在的问题中,您可以使用dplyr::setdiff

library(dplyr)
mushroooms.test = setdiff(mushrooms, mushrooms.training_set)
Run Code Online (Sandbox Code Playgroud)

但大多数时候,与训练集同时创建测试集会更容易。这里有很多例子如何将数据拆分为训练集和测试集?