哪种聚类算法适合这项任务?
Which clustering algorithm is suitable for this task?
我想对一组数据进行聚类,如下:
{[1,2],
[2,3],
[3,2],
[9,8],
[8,10],
[7,9,8],
[7,10,5,9]
...
}
其中数据没有固定维度。
当K=2时,应将前3个元素聚为一组,其余4个为一组。
我了解k-means算法,但问题是它的距离计算不适合我的情况。由于维度不同,我使用杰卡德距离作为每两个元素的距离。
代替计算方法,一种想法是找到簇的质心。质心是与簇中所有其他点的距离总和最小的点。
我正在按照上面的思路做程序,实现k-means++聚类。我想要一个稳定的算法(每个运行的输出不应该有很大的不同),应该相对较快并且必须使用Jaccard距离。
第一次做数据聚类,所以来这里听取建议,所以可能是我遗漏了什么。如果有合适的算法请推荐给我或者指出我的错误。
而不是 k-means - 它需要固定数量的连续值维度来计算均值 - 为什么不使用更合适的
层次聚类
可以和杰卡德距离一起使用!
我想对一组数据进行聚类,如下:
{[1,2],
[2,3],
[3,2],
[9,8],
[8,10],
[7,9,8],
[7,10,5,9]
...
}
其中数据没有固定维度。
当K=2时,应将前3个元素聚为一组,其余4个为一组。
我了解k-means算法,但问题是它的距离计算不适合我的情况。由于维度不同,我使用杰卡德距离作为每两个元素的距离。
代替计算方法,一种想法是找到簇的质心。质心是与簇中所有其他点的距离总和最小的点。
我正在按照上面的思路做程序,实现k-means++聚类。我想要一个稳定的算法(每个运行的输出不应该有很大的不同),应该相对较快并且必须使用Jaccard距离。
第一次做数据聚类,所以来这里听取建议,所以可能是我遗漏了什么。如果有合适的算法请推荐给我或者指出我的错误。
而不是 k-means - 它需要固定数量的连续值维度来计算均值 - 为什么不使用更合适的
层次聚类
可以和杰卡德距离一起使用!