Gensim - 使用 GoogleNews 向量模型的内存错误
Gensim - Memory error using GoogleNews-vector model
当我使用 GoogleNews-vectors-negative300.bin 或尝试使用带有维基百科数据集语料库的 Gensim 训练模型时,出现内存错误。(1 GB)。我的系统中有 4GB 内存。有没有办法绕过这个。
我们可以将它托管在像 AWS 这样的云服务上以获得更快的速度吗?
4GB 对于那个矢量集来说非常紧张;你应该有 8GB 或更多来加载全套。或者,您可以使用 load_word2vec_format()
的可选 limit
参数来仅加载一些向量。例如,limit=500000
将只加载前 500,000 个(而不是全部 300 万个)。由于该文件似乎将出现频率更高的标记放在首位,因此对于许多用途来说这可能就足够了。
没有办法摆脱 4G。
我可以在我的 8G RAM Macbook Pro 上加载和计算 GoogleNews-vectors-negative300.bin。然而,当我在 AWS 上加载这个巨大的预训练向量时,我不得不将它升级到 16G RAM,因为它同时为一个 webapp 提供服务。所以基本上如果你想在安全边际的webapp上使用它,你需要16G。
加载整个Google-News-Vector预训练模型真的很难。我能够使用 Jupyter Notebook 在我的 8 GB Ubuntu 机器上加载大约 50,000 个(即总数的 1/60)。是的,正如预期的那样,memory/resource 的使用达到了顶峰。
因此,使用至少 16 GB 来加载整个模型是安全的,否则使用 limit=30000
作为参数,如@gojomo 所建议的。
当我使用 GoogleNews-vectors-negative300.bin 或尝试使用带有维基百科数据集语料库的 Gensim 训练模型时,出现内存错误。(1 GB)。我的系统中有 4GB 内存。有没有办法绕过这个。
我们可以将它托管在像 AWS 这样的云服务上以获得更快的速度吗?
4GB 对于那个矢量集来说非常紧张;你应该有 8GB 或更多来加载全套。或者,您可以使用 load_word2vec_format()
的可选 limit
参数来仅加载一些向量。例如,limit=500000
将只加载前 500,000 个(而不是全部 300 万个)。由于该文件似乎将出现频率更高的标记放在首位,因此对于许多用途来说这可能就足够了。
没有办法摆脱 4G。 我可以在我的 8G RAM Macbook Pro 上加载和计算 GoogleNews-vectors-negative300.bin。然而,当我在 AWS 上加载这个巨大的预训练向量时,我不得不将它升级到 16G RAM,因为它同时为一个 webapp 提供服务。所以基本上如果你想在安全边际的webapp上使用它,你需要16G。
加载整个Google-News-Vector预训练模型真的很难。我能够使用 Jupyter Notebook 在我的 8 GB Ubuntu 机器上加载大约 50,000 个(即总数的 1/60)。是的,正如预期的那样,memory/resource 的使用达到了顶峰。
因此,使用至少 16 GB 来加载整个模型是安全的,否则使用 limit=30000
作为参数,如@gojomo 所建议的。