python 中的内存错误 TFIDF 余弦相似度

Question

有一个包含项目描述的大型数据集。它包含项目 ID 和文本描述。可以为描述中术语的 tf_idf 值构建一个余弦相似度矩阵。

我的数据集包含 300336 个项目的描述。尝试执行我的 python 代码时出现 MemmoryError:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import *

tf = TfidfVectorizer(analyzer='word',
                         ngram_range=(1, 1),
                         min_df=0)
tfidf_mx = tf.fit_transform(df.text)
cosine_similarities = linear_kernel(tfidf_mx)

我也试过另一种方式

sim_mx = cosine_similarity(tfidf_mx, dense_output=False)

但它也给我一个 MemoryError。

即使在用于余弦相似度计算的稀疏矩阵上也可能存在上限吗？

你知道为什么会出现MemoryError以及如何处理吗？

Answer 1

发生 MemoryError 是因为输出 (a) 大得离谱且 (b) 密集，无论它存储在稀疏矩阵还是密集矩阵中。

(a) 如果输入包含n个项目，则有n * (n - 1)个相似度需要计算，return。（由于 sim(i, j) = sim(j, i)，实际上只有 n * (n - 1) / 2 个相似点，但矩阵将每个相似点列出两次。）对于 300336 个项目，生成的矩阵将包含 90十亿条目。我相信这大约是 space 的 720 G。

(b) 如果这些条目中的大多数为 0，则稀疏矩阵将节省 space。但相似性分数通常不是这种情况。 Cosine(i,j) 将为 0，例如，仅对于具有 0 个共同单词的项目对。

python 中的内存错误 TFIDF 余弦相似度

Memory Error TFIDF cosine similarity in python

python

out-of-memory

sparse-matrix

cosine-similarity