Python NLTK FreqDist - 列出频率大于 1000 的单词

Python NLTK FreqDist - Listing words with a frequency greater than 1000

我正在尝试输出在我的标记中出现超过 1000 次(> 1000)的每个单词并将其保存到 freq1000。

freq1000 = []

newtokens = []

for words in tokens:
    newtokens += words
FreqDist(newtokens)

fd_1 = FreqDist(newtokens)

for i in set(fd_1):
    if fd_1.count(i) == >1000:
        print(i)

这是我当前的代码,在此之后我完全卡住了,我不确定是否有 freqdist 函数可以帮助我。我已成功将 FreqDist 保存到 fd_1。我只是不确定如何获得出现次数超过 1000 次的单词的输出并将其保存到 freq1000。

如果您能提供任何帮助,我将不胜感激。

您可以使用 freqDist.items() 根据频率计数过滤单词,如下所示:

list(filter(lambda x: x[1]>=1000, fd_1.items()))

希望对您有所帮助:)