NLTK 库工作非常慢
NLTK library working terribly slow
我在两台电脑上安装了 NLTK 库,其中一台运行良好(大约 1 分钟处理 1000 个句子),而在我的另一台电脑上,10 个句子需要 1 分钟。
说我第二台电脑速度快,所以和我第二台电脑没有关系。
我是这样安装的:
pip install nltk
那我运行python
在 python 终端中:import nltk
然后,ntlk.download()
它说我有一些全语料库软件包已过时(我不知道为什么)但似乎只有这个:PanLex Lite Corpus
,我认为这无关紧要我的问题....还有另一个未安装:Cross-Framework and Cross-Domain Parser Evaluation Shared Task
。我不知道它是否可以做点什么...
这些是我正在使用的模块:
from nltk import pos_tag
from nltk import word_tokenize
from nltk.stem.wordnet import WordNetLemmatizer
而且他们的工作速度非常慢...
有谁知道为什么以及如何解决?
WordNetLemmatizer 可能是罪魁祸首。 Wordnet 需要读取多个文件才能工作。有很多文件访问 OS-level 东西可能会影响性能。考虑换个lemmatizer,看看是不是慢速电脑的硬盘坏了或者尝试整理碎片(如果在windows)
我在两台电脑上安装了 NLTK 库,其中一台运行良好(大约 1 分钟处理 1000 个句子),而在我的另一台电脑上,10 个句子需要 1 分钟。
说我第二台电脑速度快,所以和我第二台电脑没有关系。
我是这样安装的:
pip install nltk
那我运行python
在 python 终端中:import nltk
然后,ntlk.download()
它说我有一些全语料库软件包已过时(我不知道为什么)但似乎只有这个:PanLex Lite Corpus
,我认为这无关紧要我的问题....还有另一个未安装:Cross-Framework and Cross-Domain Parser Evaluation Shared Task
。我不知道它是否可以做点什么...
这些是我正在使用的模块:
from nltk import pos_tag
from nltk import word_tokenize
from nltk.stem.wordnet import WordNetLemmatizer
而且他们的工作速度非常慢...
有谁知道为什么以及如何解决?
WordNetLemmatizer 可能是罪魁祸首。 Wordnet 需要读取多个文件才能工作。有很多文件访问 OS-level 东西可能会影响性能。考虑换个lemmatizer,看看是不是慢速电脑的硬盘坏了或者尝试整理碎片(如果在windows)