重复项在数据集中有用吗？

Are duplicates useful in data sets?

我下载了Skin Segmentation Data Set，发现里面有很多重复的。
比如这一行0 128 0 2遇到了199次

请提供一些示例，说明什么时候复制是好的，什么时候复制是坏的。

当然可以，因为如果它是一个随机样本，它代表数据中的潜在分布，它告诉您这个特定值具有更高的概率。删除重复项只会使数据集变得毫无用处。

很重要。

例如：如果行 'a' 在您的数据中出现了 5 次，而另一行 'b' 只出现了一次，那么您希望对行 'a' 的分类优于 'b' 因为你在计算成本函数的时候，第'a'行出现的时间比较长，对成本的影响也比较大

并且，如果您的训练很好地代表了测试数据，那么第 'a' 行出现的次数很可能比第 'b' 行出现的次数多。