使用亲和传播对相似文本进行聚类并创建聚类图

Clustering similar texts using Affinity Propagation and creating a cluster plot

我有一份要根据相似性进行聚类的大学列表。例如,这个字符串 "University of Melbourne" 和这个字符串 "University of Meelbourne" 是一样的,但是有一个拼写错误。

我想使用亲和传播 (Scikit Learn) 技术将这些相似的字符串组合在一起。在 SciKit learn 上应用亲和传播之前,我是否需要先使用 Word2VEC 转换字符串?

是否有好的教程可以告诉我如何完成此操作?

不要滥用聚类来纠正拼写!

Word2vec 将无法工作。

它的词汇表中不会有 "Meelbourne",因为它是一种罕见的拼写错误。所以它会忽略这个词!对于 BOW 方法,它也没有帮助。

这不是集群可以解决的问题。请改用拼写校正器。