重复项在数据集中有用吗?

MrP*_*rik 5 classification machine-learning computer-vision bigdata

我下载了皮肤分割数据集,发现里面有很多重复的。
例如,这一行0 128 0 2遇到了 199 次。

请提供一些例子,什么时候重复是好的,什么时候是坏的。

lat*_*ian 2

当然可以,因为如果它是随机样本,则代表数据中的基本分布,这会告诉您该特定值具有更高的概率。删除重复项只会使数据集变得毫无用处。