Fasttext 量化无监督模型

Fasttext Quantize Unsupervised model

我正在尝试使用此命令量化 fasttext 中的无监督模型。

model.quantize(input=train_data, qnorm=True, retrain=True, cutoff=200000)

它抛出一个错误,它只支持受监督的模型。

是否有任何替代方法来量化无监督模型?

paper which introduced the FastText team's quantization strategy 只评估了分类模型,并使用了一些可能只对标记的训练文档有意义的修剪步骤。 (不过,我没有看到 -quantize 的论点包括原始培训文档,因此不确定论文中描述的修剪技术是否已完全实施。)

虽然一些压缩步骤可以应用于无监督的密集向量,但我还没有看到提供该功能的库,但这对 implement/add 来说可能是一件好事。

但是,FastText 工作完成的分类可能是这些技术的“最佳选择”,并且应用于其他 word-vectors 它们会对下游使用产生更大的负面影响.因此,该技术的扩展应该伴随着一些证实其价值的实验。

虽然 Facebook 的原始 fastText 包不支持无监督模型的压缩,但我编写了包 compress-fasttext 将修剪和量化应用于无监督 fastText 模型(gensim 格式)以将其大小减少 10到 100 次。

This post on Medium 提供了我的方法背后的一些示例和解释。