python 中的 Cluster、dissimilarity 和 distance 是什么？

Question

我正在观看 MIT OpenCourseWare 6.0002 聚类视频，但我不理解其中的一些代码 class。

这是什么.Cluster？

for e in initialCentroids:
        clusters.append(cluster.Cluster([e]))

什么是 .distance？

  for e in examples:
            smallestDistance = e.distance(clusters[0].getCentroid())

什么是 .dissimilarity？

 minDissimilarity = cluster.dissimilarity(best)

从代码中我可以理解他们在做什么，但我想更详细地了解它。相关文档将不胜感激！

Answer 1

这些术语主要用于描述数据及其相互之间的关系。让我们从集群开始。

Cluster是一组在某种意义上可能具有相似特征的观测数据点。聚类主要是无监督学习的方法。很容易想象 - 地图是一组集群，按国籍对人进行分组，但在 ML 中，人们可能会分散到其他国家 - 这在某些年级之前是正常的。

如果我们取distance作为clusters之间的距离，这个术语是指cluster1的质心与cluster2的质心的距离。术语也可以通过测量点到所有集群质心的距离来指代给定点 - 其中点将由具有最小距离的集群拥有。

此外 dissimilarity 描述了与距离完全相同的值，它表明数据点与原始质心不相似。这意味着一旦距离很高 - 在我看来，差异性也很高 - 不确定这个。

希望对您有所帮助。

What is Cluster, dissimilarity and distance in python?