如何判断来自 gensim 的 WikiCorpus 是否正常工作?
How to tell if WikiCorpus from gensim is working?
我下载了完整的维基百科档案 14.9gb 我是 运行 这行代码:
wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")
我的代码似乎没有通过这里,现在已经 运行 一个小时了,我知道目标文件很大,但我想知道我怎么知道它在工作,或者它完成的预期时间是多少?
您可以经常使用 OS 特定的监控工具,例如 Linux/Unix/MacOS 系统上的 top
,以了解您的 Python 进程是否在进行密集计算,使用内存,或继续 IO。
即使是在第一次实例化 WikiCorpus
时完成的简单词汇扫描也可能需要很长时间才能解压缩和 tokenize/tally,所以我不会对超过一个小时的运行时间感到惊讶。 (如果它在这个简单的操作中依赖于任何 virtual-memory/swapping,从 top
或类似监控的输出中可以清楚地看出,那会进一步减慢速度。)
作为比较基线,您可以使用 shell 命令计算仅解压所需的时间,例如:
% time bzcat enwiki-latest-pages-articles.xml.bz2 | wc
(在我的 MacBook Pro 上进行的快速测试表明,15GB 的 BZ2 数据可能需要 30 多分钟才能解压。)
在某些情况下,在 INFO
级别打开 Python 日志记录将显示 gensim
模块的进度信息,但我不确定 WikiCorpus
是否显示任何内容直到它完成。启用 INFO
级别的日志记录非常简单:
import logging
logging.getLogger().setLevel(logging.INFO)
我下载了完整的维基百科档案 14.9gb 我是 运行 这行代码:
wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")
我的代码似乎没有通过这里,现在已经 运行 一个小时了,我知道目标文件很大,但我想知道我怎么知道它在工作,或者它完成的预期时间是多少?
您可以经常使用 OS 特定的监控工具,例如 Linux/Unix/MacOS 系统上的 top
,以了解您的 Python 进程是否在进行密集计算,使用内存,或继续 IO。
即使是在第一次实例化 WikiCorpus
时完成的简单词汇扫描也可能需要很长时间才能解压缩和 tokenize/tally,所以我不会对超过一个小时的运行时间感到惊讶。 (如果它在这个简单的操作中依赖于任何 virtual-memory/swapping,从 top
或类似监控的输出中可以清楚地看出,那会进一步减慢速度。)
作为比较基线,您可以使用 shell 命令计算仅解压所需的时间,例如:
% time bzcat enwiki-latest-pages-articles.xml.bz2 | wc
(在我的 MacBook Pro 上进行的快速测试表明,15GB 的 BZ2 数据可能需要 30 多分钟才能解压。)
在某些情况下,在 INFO
级别打开 Python 日志记录将显示 gensim
模块的进度信息,但我不确定 WikiCorpus
是否显示任何内容直到它完成。启用 INFO
级别的日志记录非常简单:
import logging
logging.getLogger().setLevel(logging.INFO)