如何在 NLTK 的 tokenize.regexp python 中将输入作为文本文件
how to take input as text file in NLTK’s tokenize.regexp python
基本上我有文本文件作为 NLTK tokenize.regexp 的输入。如何将文本文件输入到以下代码:
'从 nltk.tokenize 导入 RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
raw = doc_a.lower() #instead of 'doc_a' 我想要我的文本文件作为输入
代币 = tokenizer.tokenize(原始)`
这一行之前:
raw = doc_a.lower() #instead of 'doc_a' i want my text file as input
添加代码以从您的文件中读取 doc_a
,如下所示:
with open(r'path_to\my_text_file.txt', 'r') as input:
doc_a = input.read()
然后继续小写和分词。
基本上我有文本文件作为 NLTK tokenize.regexp 的输入。如何将文本文件输入到以下代码:
'从 nltk.tokenize 导入 RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
raw = doc_a.lower() #instead of 'doc_a' 我想要我的文本文件作为输入
代币 = tokenizer.tokenize(原始)`
这一行之前:
raw = doc_a.lower() #instead of 'doc_a' i want my text file as input
添加代码以从您的文件中读取 doc_a
,如下所示:
with open(r'path_to\my_text_file.txt', 'r') as input:
doc_a = input.read()
然后继续小写和分词。