如何标记文件?

How to tokenize a file?

我希望能够使用 NLTK 分析我的本地 txt 文件。通过分析,我的意思是使用 NLTK 功能,例如标记化、情感分析等。

我的 Python 目录中有一个名为 'example.txt' 的本地文件。

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize


with open ('example.txt', 'r') as f:
    for line in f:
        f_contents = f.readlines()
        print(word_tokenize(f_contents))

我正在尝试以标记化格式打印 'f_contents'。 'F_contents' 在这种情况下应该是 'example.txt' 中的文本。

如有任何帮助,我们将不胜感激。

word_tokenize 的输入应该是一个字符串。

但是您正在提供 File.readlines() 的输出,这是一个字符串列表。

而且在遍历文件时你也在隐式地做 File.readlines()

很简单:

from nltk.tokenize import word_tokenize

with open ('example.txt') as fin:
    for line in fin:
        print(word_tokenize(line))