如何标记文件?
How to tokenize a file?
我希望能够使用 NLTK 分析我的本地 txt 文件。通过分析,我的意思是使用 NLTK 功能,例如标记化、情感分析等。
我的 Python 目录中有一个名为 'example.txt' 的本地文件。
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
with open ('example.txt', 'r') as f:
for line in f:
f_contents = f.readlines()
print(word_tokenize(f_contents))
我正在尝试以标记化格式打印 'f_contents'。 'F_contents' 在这种情况下应该是 'example.txt' 中的文本。
如有任何帮助,我们将不胜感激。
word_tokenize
的输入应该是一个字符串。
但是您正在提供 File.readlines()
的输出,这是一个字符串列表。
而且在遍历文件时你也在隐式地做 File.readlines()
。
很简单:
from nltk.tokenize import word_tokenize
with open ('example.txt') as fin:
for line in fin:
print(word_tokenize(line))
我希望能够使用 NLTK 分析我的本地 txt 文件。通过分析,我的意思是使用 NLTK 功能,例如标记化、情感分析等。
我的 Python 目录中有一个名为 'example.txt' 的本地文件。
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
with open ('example.txt', 'r') as f:
for line in f:
f_contents = f.readlines()
print(word_tokenize(f_contents))
我正在尝试以标记化格式打印 'f_contents'。 'F_contents' 在这种情况下应该是 'example.txt' 中的文本。
如有任何帮助,我们将不胜感激。
word_tokenize
的输入应该是一个字符串。
但是您正在提供 File.readlines()
的输出,这是一个字符串列表。
而且在遍历文件时你也在隐式地做 File.readlines()
。
很简单:
from nltk.tokenize import word_tokenize
with open ('example.txt') as fin:
for line in fin:
print(word_tokenize(line))