创建数据集的两个列表之间的差异

Question

我有一个像这样的数据集，mushrooms <- read.csv("mushrooms.csv")现在我已经有了一个mushrooms.training_set占整个数据集 1/3 的数据集。对于这两个变量，typeof()返回list。

现在，我想选择原始数据集中mushrooms不在mushrooms.training_set. 我该怎么做？我已经尝试过以下方法：

谁帮帮我？

Answer 1

从您所在的问题中，您可以使用dplyr::setdiff：

library(dplyr)
mushroooms.test = setdiff(mushrooms, mushrooms.training_set)

但大多数时候，与训练集同时创建测试集会更容易。这里有很多例子如何将数据拆分为训练集和测试集？