如何在 NLTK 的 tokenize.regexp python 中将输入作为文本文件

how to take input as text file in NLTK’s tokenize.regexp python

基本上我有文本文件作为 NLTK tokenize.regexp 的输入。如何将文本文件输入到以下代码:

'从 nltk.tokenize 导入 RegexpTokenizer

tokenizer = RegexpTokenizer(r'\w+')

raw = doc_a.lower() #instead of 'doc_a' 我想要我的文本文件作为输入

代币 = tokenizer.tokenize(原始)`

这一行之前:

raw = doc_a.lower() #instead of 'doc_a' i want my text file as input

添加代码以从您的文件中读取 doc_a,如下所示:

with open(r'path_to\my_text_file.txt', 'r') as input:
    doc_a = input.read()

然后继续小写和分词。