文本聚类需要太多时间

Text clustering takes too much time

我在 MacBook pro 中使用 TF-IDF 和 k-means 聚类进行文本聚类。我的数据有 1400 个观察值,我想要 140 个簇。 TF-IDF 矩阵有 101611692 个元素 (780.9 Mb)。我已经花了 2 天时间,但 k-means 聚类步骤尚未完成。对于笔记本电脑来说,这在计算上是否过于昂贵,有没有更快的方法?谢谢。

K-Means 可能是所有聚类算法中最简单的。随着数据点数量的增加和维度数量的增加,它的复杂性和处理时间呈线性上升。因此,在具有许多数据点的高维空间中 运行 这种方法实际上变得不可行。删除停用词并在更小的样本上尝试它,比如你现在正在做的事情的 10%。确保它 运行s 并做你想做的事,否则你将耗尽 2 天时间,最终你会停在现在的位置,想知道发生了什么,因为什么都没做。