如何判断来自 gensim 的 WikiCorpus 是否正常工作？

Question

我下载了完整的维基百科档案 14.9gb 我是运行这行代码：

wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")

我的代码似乎没有通过这里，现在已经运行一个小时了，我知道目标文件很大，但我想知道我怎么知道它在工作，或者它完成的预期时间是多少？

Answer 1

您可以经常使用 OS 特定的监控工具，例如 Linux/Unix/MacOS 系统上的 top，以了解您的 Python 进程是否在进行密集计算，使用内存，或继续 IO。

即使是在第一次实例化 WikiCorpus 时完成的简单词汇扫描也可能需要很长时间才能解压缩和 tokenize/tally，所以我不会对超过一个小时的运行时间感到惊讶。（如果它在这个简单的操作中依赖于任何 virtual-memory/swapping，从 top 或类似监控的输出中可以清楚地看出，那会进一步减慢速度。）

作为比较基线，您可以使用 shell 命令计算仅解压所需的时间，例如：

% time bzcat enwiki-latest-pages-articles.xml.bz2 | wc

（在我的 MacBook Pro 上进行的快速测试表明，15GB 的 BZ2 数据可能需要 30 多分钟才能解压。）

在某些情况下，在 INFO 级别打开 Python 日志记录将显示 gensim 模块的进度信息，但我不确定 WikiCorpus 是否显示任何内容直到它完成。启用 INFO 级别的日志记录非常简单：

import logging
logging.getLogger().setLevel(logging.INFO)

如何判断来自 gensim 的 WikiCorpus 是否正常工作？

How to tell if WikiCorpus from gensim is working?

python

gensim