重复项在数据集中有用吗?

Are duplicates useful in data sets?

我下载了Skin Segmentation Data Set,发现里面有很多重复的。
比如这一行0 128 0 2遇到了199次

请提供一些示例,说明什么时候复制是好的,什么时候复制是坏的。

当然可以,因为如果它是一个随机样本,它代表数据中的潜在分布,它告诉您这个特定值具有更高的概率。删除重复项只会使数据集变得毫无用处。

很重要。

例如:如果行 'a' 在您的数据中出现了 5 次,而另一行 'b' 只出现了一次,那么您希望对行 'a' 的分类优于 'b' 因为你在计算成本函数的时候,第'a'行出现的时间比较长,对成本的影响也比较大

并且,如果您的训练很好地代表了测试数据,那么第 'a' 行出现的次数很可能比第 'b' 行出现的次数多。