k-means 聚类中 holdout 集的目的是什么?
What is the purpose of the holdout set in k-means clustering?
这是我目前的想法——请指出我错的地方:)
我相信:抵制集的目的是挫败,
对比,对于训练集 - 证明
k-means 消除每一轮的误差。
为了做到这一点,holdout 集在一开始就显示了错误-
宁,即它不重新计算每个集群的质心
位于每个集群的中心,在每个集群之后
点已分配。它只是停止,错误是
计算。
训练集,初始80%的点——
使用 randomPartition() 进行分区——只需通过
整个 k-means 函数,以及 return 之后的错误
那个。)
我可能错的地方:问题可能只是
请求另一个 运行 的 k-means,但具有较小的集合。
此外,计算训练集与保留集的误差的方法
set 对我来说似乎是一样的。他们可能不是。
另外,我听说了一些涉及特征选择的事情。
基于目前的信念,我正在考虑的当前方法:
复制 k-means 函数,并修改副本
所以它 return 是集群,初始后的 maxDistance
运行。将此函数用于保持集。
聚类的目标是将相似的数据点分组。但是你怎么知道你分组的相似数据点是否正确分组?你如何判断你的结果?因此,您将可用数据分为 2 组:训练和坚持。
打个比方。
考虑将训练集作为某些考试的练习题。你做练习题,努力做到最好,提高你的技能。
你可以把holdout设置为实际考试。如果你在练习题(训练集)上做得很好,那么你可能会在考试(坚持集)中表现出色。
现在你知道你在练习和考试中的表现如何(当然是在尝试之后),你可以根据这些来推断你的整体表现并判断什么是好的(多少个集群是好的或多好是数据聚类)。
因此,您将在训练数据上应用您的聚类算法,而不是在保持数据上应用,并找出聚类中心(聚类的代表)。对于 holdout 数据,您只需使用从算法中找到的聚类中心,并将数据点分配给中心最近的聚类。根据某些性能指标(您的案例中的平方距离误差)计算您在训练和坚持数据上的表现。最后在不同的 k 值上比较这些指标以获得良好的判断。还有更多内容,但为了作业的缘故,这似乎已经足够了。
在实践中,还有很多其他的方法。但其中大多数的关键思想是相同的。有一个统计社区,您可以在其中找到更多类似的问题:https://stats.stackexchange.com/
参考文献:
https://en.wikipedia.org/wiki/Cross-validation_(statistics)#Holdout_method
这是我目前的想法——请指出我错的地方:)
我相信:抵制集的目的是挫败, 对比,对于训练集 - 证明 k-means 消除每一轮的误差。
为了做到这一点,holdout 集在一开始就显示了错误- 宁,即它不重新计算每个集群的质心 位于每个集群的中心,在每个集群之后 点已分配。它只是停止,错误是 计算。
训练集,初始80%的点—— 使用 randomPartition() 进行分区——只需通过 整个 k-means 函数,以及 return 之后的错误 那个。)
我可能错的地方:问题可能只是 请求另一个 运行 的 k-means,但具有较小的集合。 此外,计算训练集与保留集的误差的方法 set 对我来说似乎是一样的。他们可能不是。 另外,我听说了一些涉及特征选择的事情。
基于目前的信念,我正在考虑的当前方法: 复制 k-means 函数,并修改副本 所以它 return 是集群,初始后的 maxDistance 运行。将此函数用于保持集。
聚类的目标是将相似的数据点分组。但是你怎么知道你分组的相似数据点是否正确分组?你如何判断你的结果?因此,您将可用数据分为 2 组:训练和坚持。
打个比方。
考虑将训练集作为某些考试的练习题。你做练习题,努力做到最好,提高你的技能。
你可以把holdout设置为实际考试。如果你在练习题(训练集)上做得很好,那么你可能会在考试(坚持集)中表现出色。
现在你知道你在练习和考试中的表现如何(当然是在尝试之后),你可以根据这些来推断你的整体表现并判断什么是好的(多少个集群是好的或多好是数据聚类)。
因此,您将在训练数据上应用您的聚类算法,而不是在保持数据上应用,并找出聚类中心(聚类的代表)。对于 holdout 数据,您只需使用从算法中找到的聚类中心,并将数据点分配给中心最近的聚类。根据某些性能指标(您的案例中的平方距离误差)计算您在训练和坚持数据上的表现。最后在不同的 k 值上比较这些指标以获得良好的判断。还有更多内容,但为了作业的缘故,这似乎已经足够了。
在实践中,还有很多其他的方法。但其中大多数的关键思想是相同的。有一个统计社区,您可以在其中找到更多类似的问题:https://stats.stackexchange.com/
参考文献:
https://en.wikipedia.org/wiki/Cross-validation_(statistics)#Holdout_method