gensim word2vec 日志文件中 in_qsize 和 out_qsize 的含义

Question

我是运行 gensim 中的 word2vec 模型。我不理解日志文件报告的 2 个指标 (in_qsize/out_qsize)。我花了一些时间搜索，但找不到解释。这是我的日志文件中的示例：

2020-04-17 21:04:09,032 : INFO : EPOCH 5 - PROGRESS: at 68.67% examples, 657466 words/s, in_qsize 18, out_qsize 1
2020-04-17 21:04:10,038 : INFO : EPOCH 5 - PROGRESS: at 68.92% examples, 657527 words/s, in_qsize 20, out_qsize 0
2020-04-17 21:04:11,078 : INFO : EPOCH 5 - PROGRESS: at 69.14% examples, 657513 words/s, in_qsize 20, out_qsize 1
2020-04-17 21:04:12,136 : INFO : EPOCH 5 - PROGRESS: at 69.39% examples, 657458 words/s, in_qsize 18, out_qsize 1
2020-04-17 21:04:13,139 : INFO : EPOCH 5 - PROGRESS: at 69.68% examples, 657687 words/s, in_qsize 17, out_qsize 4

Answer 1

in_qsize 和 out_qsize 是代码用于将工作发送到工作线程并接收结果的两个内部队列的长度。

它们在源代码中的名称是 job_queue 和 progress_queue，但您也可以通过在源代码中搜索打印 [=10 的行来找到它们以及更多关于它们的信息=] 和 out_qsize.

一般来说，它们是足够内部的细节，大多数用户不需要关心它们的值——除非调试一些非典型的性能问题。在某些情况下，它可以增加对语料库准备、workers 值或其他参数的不同选择如何影响吞吐量的理解。但一般来说，这种优化可以只涉及尝试很多不同的值，看看哪个在实践中实现了最佳吞吐量，而不关心那些内部队列大小。

gensim word2vec 日志文件中 in_qsize 和 out_qsize 的含义

meaning of in_qsize and out_qsize in gensim word2vec log files

python

nlp

gensim