NLTK 库工作非常慢

Question

我在两台电脑上安装了 NLTK 库，其中一台运行良好（大约 1 分钟处理 1000 个句子），而在我的另一台电脑上，10 个句子需要 1 分钟。

说我第二台电脑速度快，所以和我第二台电脑没有关系。

我是这样安装的：

pip install nltk

那我运行python

在 python 终端中：import nltk

然后，ntlk.download()

它说我有一些全语料库软件包已过时（我不知道为什么）但似乎只有这个：PanLex Lite Corpus，我认为这无关紧要我的问题....还有另一个未安装：Cross-Framework and Cross-Domain Parser Evaluation Shared Task。我不知道它是否可以做点什么...

这些是我正在使用的模块：

from nltk import pos_tag
from nltk import word_tokenize
from nltk.stem.wordnet import WordNetLemmatizer

而且他们的工作速度非常慢...

有谁知道为什么以及如何解决？

Answer 1

WordNetLemmatizer 可能是罪魁祸首。 Wordnet 需要读取多个文件才能工作。有很多文件访问 OS-level 东西可能会影响性能。考虑换个lemmatizer，看看是不是慢速电脑的硬盘坏了或者尝试整理碎片（如果在windows）

NLTK 库工作非常慢

NLTK library working terribly slow

python

nlp

packages

nltk