哪种聚类算法适合这项任务?

Which clustering algorithm is suitable for this task?

我想对一组数据进行聚类,如下:

  {[1,2],
   [2,3],
   [3,2],
   [9,8],
   [8,10],
   [7,9,8],
   [7,10,5,9]
   ...
  }

其中数据没有固定维度。

当K=2时,应将前3个元素聚为一组,其余4个为一组。

我了解k-means算法,但问题是它的距离计算不适合我的情况。由于维度不同,我使用杰卡德距离作为每两个元素的距离。

代替计算方法,一种想法是找到簇的质心。质心是与簇中所有其他点的距离总和最小的点。

我正在按照上面的思路做程序,实现k-means++聚类。我想要一个稳定的算法(每个运行的输出不应该有很大的不同),应该相对较快并且必须使用Jaccard距离。

第一次做数据聚类,所以来这里听取建议,所以可能是我遗漏了什么。如果有合适的算法请推荐给我或者指出我的错误。

而不是 k-means - 它需要固定数量的连续值维度来计算均值 - 为什么不使用更合适的

层次聚类

可以和杰卡德距离一起使用!