我可以使用 BERT 通过预训练模型对短语进行聚类吗

Could I use BERT to Cluster phrases with pre-trained model

我发现我使用 Gensim 和 GoogleNews 预训练模型来聚类短语是一个失败:

我被告知。我的短语有点特定于 GoogleNews 模型,而我没有语料库来训练新模型。我只有短语。而现在我正在考虑转向BERT。但是BERT能不能像我上面预想的那样做到呢?谢谢。

您可以将一个短语输入预训练的 BERT 模型并获得一个嵌入,即一个固定维度的向量。所以 BERT 可以将你的短语嵌入到 space 中。然后您可以使用聚类算法(例如 k-means)对短语进行聚类。这些短语不需要出现在 BERT 的训练语料库中,只要它们组成的词在词汇表中即可。您将不得不尝试查看嵌入是否为您提供相关结果。