使用亲和传播对相似文本进行聚类并创建聚类图
Clustering similar texts using Affinity Propagation and creating a cluster plot
我有一份要根据相似性进行聚类的大学列表。例如,这个字符串 "University of Melbourne" 和这个字符串 "University of Meelbourne" 是一样的,但是有一个拼写错误。
我想使用亲和传播 (Scikit Learn) 技术将这些相似的字符串组合在一起。在 SciKit learn 上应用亲和传播之前,我是否需要先使用 Word2VEC 转换字符串?
是否有好的教程可以告诉我如何完成此操作?
不要滥用聚类来纠正拼写!
Word2vec 将无法工作。
它的词汇表中不会有 "Meelbourne",因为它是一种罕见的拼写错误。所以它会忽略这个词!对于 BOW 方法,它也没有帮助。
这不是集群可以解决的问题。请改用拼写校正器。
我有一份要根据相似性进行聚类的大学列表。例如,这个字符串 "University of Melbourne" 和这个字符串 "University of Meelbourne" 是一样的,但是有一个拼写错误。
我想使用亲和传播 (Scikit Learn) 技术将这些相似的字符串组合在一起。在 SciKit learn 上应用亲和传播之前,我是否需要先使用 Word2VEC 转换字符串?
是否有好的教程可以告诉我如何完成此操作?
不要滥用聚类来纠正拼写!
Word2vec 将无法工作。
它的词汇表中不会有 "Meelbourne",因为它是一种罕见的拼写错误。所以它会忽略这个词!对于 BOW 方法,它也没有帮助。
这不是集群可以解决的问题。请改用拼写校正器。