k-means 聚类中 holdout 集的目的是什么？

What is the purpose of the holdout set in k-means clustering?

Link to the MIT problem set

这是我目前的想法——请指出我错的地方:)

我相信：抵制集的目的是挫败，对比，对于训练集 - 证明 k-means 消除每一轮的误差。

为了做到这一点，holdout 集在一开始就显示了错误- 宁，即它不重新计算每个集群的质心位于每个集群的中心，在每个集群之后点已分配。它只是停止，错误是计算。

训练集，初始80%的点—— 使用 randomPartition() 进行分区——只需通过整个 k-means 函数，以及 return 之后的错误那个。)

我可能错的地方：问题可能只是请求另一个运行的 k-means，但具有较小的集合。此外，计算训练集与保留集的误差的方法 set 对我来说似乎是一样的。他们可能不是。另外，我听说了一些涉及特征选择的事情。

基于目前的信念，我正在考虑的当前方法：复制 k-means 函数，并修改副本所以它 return 是集群，初始后的 maxDistance 运行。将此函数用于保持集。

聚类的目标是将相似的数据点分组。但是你怎么知道你分组的相似数据点是否正确分组？你如何判断你的结果？因此，您将可用数据分为 2 组：训练和坚持。

打个比方。

考虑将训练集作为某些考试的练习题。你做练习题，努力做到最好，提高你的技能。

你可以把holdout设置为实际考试。如果你在练习题（训练集）上做得很好，那么你可能会在考试（坚持集）中表现出色。

现在你知道你在练习和考试中的表现如何（当然是在尝试之后），你可以根据这些来推断你的整体表现并判断什么是好的（多少个集群是好的或多好是数据聚类）。

因此，您将在训练数据上应用您的聚类算法，而不是在保持数据上应用，并找出聚类中心（聚类的代表）。对于 holdout 数据，您只需使用从算法中找到的聚类中心，并将数据点分配给中心最近的聚类。根据某些性能指标（您的案例中的平方距离误差）计算您在训练和坚持数据上的表现。最后在不同的 k 值上比较这些指标以获得良好的判断。还有更多内容，但为了作业的缘故，这似乎已经足够了。

在实践中，还有很多其他的方法。但其中大多数的关键思想是相同的。有一个统计社区，您可以在其中找到更多类似的问题：https://stats.stackexchange.com/

参考文献：

https://en.wikipedia.org/wiki/Cross-validation_(statistics)#Holdout_method

k-means 聚类中 holdout 集的目的是什么？

What is the purpose of the holdout set in k-means clustering?

python

algorithm

cluster-analysis

k-means