我准备了一个数据集来识别某种类型的对象(大约2240个负面对象示例,只有大约90个正面对象示例).但是,在为数据集中的每个对象计算10个要素之后,唯一训练实例的数量分别下降到大约130和30.
由于相同的训练实例实际上代表不同的对象,我可以说这种复制包含相关信息(例如对象特征值的分布),这可能在某种程度上有用吗?
statistics classification machine-learning training-data
classification ×1
machine-learning ×1
statistics ×1
training-data ×1