使用亲和传播对相似文本进行聚类并创建聚类图

Clustering similar texts using Affinity Propagation and creating a cluster plot

我有一份要根据相似性进行聚类的大学列表。例如，这个字符串 "University of Melbourne" 和这个字符串 "University of Meelbourne" 是一样的，但是有一个拼写错误。

我想使用亲和传播 (Scikit Learn) 技术将这些相似的字符串组合在一起。在 SciKit learn 上应用亲和传播之前，我是否需要先使用 Word2VEC 转换字符串？

是否有好的教程可以告诉我如何完成此操作？

不要滥用聚类来纠正拼写！

Word2vec 将无法工作。

它的词汇表中不会有 "Meelbourne"，因为它是一种罕见的拼写错误。所以它会忽略这个词！对于 BOW 方法，它也没有帮助。

这不是集群可以解决的问题。请改用拼写校正器。