如何标记文件？

Question

我希望能够使用 NLTK 分析我的本地 txt 文件。通过分析，我的意思是使用 NLTK 功能，例如标记化、情感分析等。

我的 Python 目录中有一个名为 'example.txt' 的本地文件。

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize


with open ('example.txt', 'r') as f:
    for line in f:
        f_contents = f.readlines()
        print(word_tokenize(f_contents))

我正在尝试以标记化格式打印 'f_contents'。 'F_contents' 在这种情况下应该是 'example.txt' 中的文本。

如有任何帮助，我们将不胜感激。

Answer 1

word_tokenize 的输入应该是一个字符串。

但是您正在提供 File.readlines() 的输出，这是一个字符串列表。

而且在遍历文件时你也在隐式地做 File.readlines()。

很简单：

from nltk.tokenize import word_tokenize

with open ('example.txt') as fin:
    for line in fin:
        print(word_tokenize(line))

如何标记文件？

How to tokenize a file?

python

tokenize

nltk