python 中的 Cluster、dissimilarity 和 distance 是什么?
What is Cluster, dissimilarity and distance in python?
我正在观看 MIT OpenCourseWare 6.0002 聚类视频,但我不理解其中的一些代码 class。
这是什么.Cluster
?
for e in initialCentroids:
clusters.append(cluster.Cluster([e]))
什么是 .distance
?
for e in examples:
smallestDistance = e.distance(clusters[0].getCentroid())
什么是 .dissimilarity
?
minDissimilarity = cluster.dissimilarity(best)
从代码中我可以理解他们在做什么,但我想更详细地了解它。相关文档将不胜感激!
这些术语主要用于描述数据及其相互之间的关系。让我们从集群开始。
Cluster
是一组在某种意义上可能具有相似特征的观测数据点。聚类主要是无监督学习的方法。很容易想象 - 地图是一组集群,按国籍对人进行分组,但在 ML 中,人们可能会分散到其他国家 - 这在某些年级之前是正常的。
如果我们取distance
作为clusters
之间的距离,这个术语是指cluster1的质心与cluster2的质心的距离。术语也可以通过测量点到所有集群质心的距离来指代给定点 - 其中点将由具有最小距离的集群拥有。
此外 dissimilarity
描述了与距离完全相同的值,它表明数据点与原始质心不相似。这意味着一旦距离很高 - 在我看来,差异性也很高 - 不确定这个。
希望对您有所帮助。
我正在观看 MIT OpenCourseWare 6.0002 聚类视频,但我不理解其中的一些代码 class。
这是什么.Cluster
?
for e in initialCentroids:
clusters.append(cluster.Cluster([e]))
什么是 .distance
?
for e in examples:
smallestDistance = e.distance(clusters[0].getCentroid())
什么是 .dissimilarity
?
minDissimilarity = cluster.dissimilarity(best)
从代码中我可以理解他们在做什么,但我想更详细地了解它。相关文档将不胜感激!
这些术语主要用于描述数据及其相互之间的关系。让我们从集群开始。
Cluster
是一组在某种意义上可能具有相似特征的观测数据点。聚类主要是无监督学习的方法。很容易想象 - 地图是一组集群,按国籍对人进行分组,但在 ML 中,人们可能会分散到其他国家 - 这在某些年级之前是正常的。
如果我们取distance
作为clusters
之间的距离,这个术语是指cluster1的质心与cluster2的质心的距离。术语也可以通过测量点到所有集群质心的距离来指代给定点 - 其中点将由具有最小距离的集群拥有。
此外 dissimilarity
描述了与距离完全相同的值,它表明数据点与原始质心不相似。这意味着一旦距离很高 - 在我看来,差异性也很高 - 不确定这个。
希望对您有所帮助。