如何在 NLTK 的 tokenize.regexp python 中将输入作为文本文件

Question

基本上我有文本文件作为 NLTK tokenize.regexp 的输入。如何将文本文件输入到以下代码：

'从 nltk.tokenize 导入 RegexpTokenizer

tokenizer = RegexpTokenizer(r'\w+')

raw = doc_a.lower() #instead of 'doc_a' 我想要我的文本文件作为输入

代币 = tokenizer.tokenize（原始）`

Answer 1

这一行之前：

raw = doc_a.lower() #instead of 'doc_a' i want my text file as input

添加代码以从您的文件中读取 doc_a，如下所示：

with open(r'path_to\my_text_file.txt', 'r') as input:
    doc_a = input.read()

然后继续小写和分词。

how to take input as text file in NLTK’s tokenize.regexp python