Word2vec:从句法中分离语义

Word2vec: distangling semantic from syntactic

我想使用预训练词向量(例如,维基百科上的 fasttest)来查找一组词的聚类。但是,在单词列表中,我有 'kindness'、'kind'、'kindly' 之类的单词,它们属于不同的类别。也就是说,有时具有相似词性的单词会聚集在一起。我想知道如何才能拥有只捕捉意义的词向量?

您可以在使用 word2vec 之前对单词进行词形还原或词干化。

stemming 库实现了几个这样的算法。