我是否还需要在模型测试时加载 word2vec 模型?
Do I still need to load word2vec model at model testing?
这听起来像是一个幼稚的问题,但我对此很陌生。假设我使用 Google 预训练的 word2vector 模型 (https://github.com/dav/word2vec) 来训练分类模型。我保存我的分类模型。现在我将分类模型加载回内存中以测试新实例。我需要再次加载 Google word2vector 模型吗?或者它只用于训练我的模型?
这取决于您的语料库和测试示例的结构和预处理方式。
您可能正在使用预训练的词向量将文本转换为数字特征。首先,文本示例被矢量化以训练分类器。稍后,其他(test/production)个文本示例将被相同地向量化,并呈现给分类器以得到其判断。
因此,您需要对 test/production 文本示例使用与训练期间相同的文本到矢量过程。也许您已经在一个单独的早期批量步骤中完成了该操作,在这种情况下,您已经拥有分类器使用的向量形式的特征。但通常你的分类器管道本身会获取原始文本,并将其矢量化——在这种情况下,它将需要在测试时可用的与训练期间可用的相同的预训练(单词)->(矢量)映射。
这听起来像是一个幼稚的问题,但我对此很陌生。假设我使用 Google 预训练的 word2vector 模型 (https://github.com/dav/word2vec) 来训练分类模型。我保存我的分类模型。现在我将分类模型加载回内存中以测试新实例。我需要再次加载 Google word2vector 模型吗?或者它只用于训练我的模型?
这取决于您的语料库和测试示例的结构和预处理方式。
您可能正在使用预训练的词向量将文本转换为数字特征。首先,文本示例被矢量化以训练分类器。稍后,其他(test/production)个文本示例将被相同地向量化,并呈现给分类器以得到其判断。
因此,您需要对 test/production 文本示例使用与训练期间相同的文本到矢量过程。也许您已经在一个单独的早期批量步骤中完成了该操作,在这种情况下,您已经拥有分类器使用的向量形式的特征。但通常你的分类器管道本身会获取原始文本,并将其矢量化——在这种情况下,它将需要在测试时可用的与训练期间可用的相同的预训练(单词)->(矢量)映射。