Scikit 的 DBSCAN 聚类算法中的噪声样本是什么?
What are noisy samples in Scikit's DBSCAN clustering algorithm?
如果我在相似矩阵上应用 Scikit 的 DBSCAN (http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html),我会得到一系列标签。其中一些标签是 -1。文档称它们为噪声样本。
这些是什么?它们都属于一个集群,还是因为它们很吵,所以它们都属于自己的集群?
谢谢
这些不完全是集群的一部分。它们只是不属于任何簇的点,在某种程度上可以是 "ignored"。
请记住,DBSCAN 代表 "Density-Based Spatial Clustering of Applications with Noise." DBSCAN 检查以确保一个点在指定范围内有足够的邻居来将这些点分类到聚类中。
但是那些不符合落入任何主要集群标准的点会怎样呢?如果一个点在指定半径内没有足够的邻居被视为集群的一部分怎么办?这些点被赋予 -1
的聚类标签并被视为噪声。
那又怎么样?
好吧,如果您正在分析数据点并且只对一般集群感兴趣,则可以降低数据大小并消除噪音。或者,如果您正在使用聚类分析对数据进行分类,在某些情况下,可以将噪声作为异常值丢弃。
在异常检测中,不属于任何类别的点也很重要,因为它们可以表示问题或罕见事件。
如果我在相似矩阵上应用 Scikit 的 DBSCAN (http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html),我会得到一系列标签。其中一些标签是 -1。文档称它们为噪声样本。
这些是什么?它们都属于一个集群,还是因为它们很吵,所以它们都属于自己的集群?
谢谢
这些不完全是集群的一部分。它们只是不属于任何簇的点,在某种程度上可以是 "ignored"。
请记住,DBSCAN 代表 "Density-Based Spatial Clustering of Applications with Noise." DBSCAN 检查以确保一个点在指定范围内有足够的邻居来将这些点分类到聚类中。
但是那些不符合落入任何主要集群标准的点会怎样呢?如果一个点在指定半径内没有足够的邻居被视为集群的一部分怎么办?这些点被赋予 -1
的聚类标签并被视为噪声。
那又怎么样?
好吧,如果您正在分析数据点并且只对一般集群感兴趣,则可以降低数据大小并消除噪音。或者,如果您正在使用聚类分析对数据进行分类,在某些情况下,可以将噪声作为异常值丢弃。
在异常检测中,不属于任何类别的点也很重要,因为它们可以表示问题或罕见事件。