巨大数据集的 R clValid 函数错误

R clValid function Error for huge dataset

我正在尝试使用此包评估我的聚类结果 我 运行 以下但它给我错误;

intern <- clValid(test_clvalid, 3:25, maxitems = 260000, clMethods="kmeans", validation="internal")
Error in hclust(Dist, method) : size cannot be NA nor exceed 65536

test_clvalid 是我的数据集,它有 256342 个观测值和 5 个数值变量。

当我运行同样用较少的数据观察时,似乎运行还好。当我指定使用 k-means 评估时,不确定为什么 hclust() 是 called/giving 错误。

不幸的是,该包正在使用 hclust 将输入初始化为 kmeans, 如您所见 here。 这也意味着, before that, 计算交叉距离矩阵, 整个数据集具有 256,342 x 256,342 个维度。 hclust 函数被硬编码以处理最多 65536 x 65536 的矩阵, 所以您将无法使用该包来评估数据的 k-means。