NLTK 库工作非常慢

NLTK library working terribly slow

我在两台电脑上安装了 NLTK 库,其中一台运行良好(大约 1 分钟处理 1000 个句子),而在我的另一台电脑上,10 个句子需要 1 分钟。

说我第二台电脑速度快,所以和我第二台电脑没有关系。

我是这样安装的:

pip install nltk

那我运行python

在 python 终端中:import nltk

然后,ntlk.download()

它说我有一些全语料库软件包已过时(我不知道为什么)但似乎只有这个:PanLex Lite Corpus,我认为这无关紧要我的问题....还有另一个未安装:Cross-Framework and Cross-Domain Parser Evaluation Shared Task。我不知道它是否可以做点什么...

这些是我正在使用的模块:

from nltk import pos_tag
from nltk import word_tokenize
from nltk.stem.wordnet import WordNetLemmatizer

而且他们的工作速度非常慢...

有谁知道为什么以及如何解决?

WordNetLemmatizer 可能是罪魁祸首。 Wordnet 需要读取多个文件才能工作。有很多文件访问 OS-level 东西可能会影响性能。考虑换个lemmatizer,看看是不是慢速电脑的硬盘坏了或者尝试整理碎片(如果在windows)