将字符串列表标记为 return 一个单词标记列表
Tokenizing lists of strings to return one list of tokenized of words
美好的一天,
我有一个函数应该能够降低和标记化文本和 returns 标记。
下面是函数:
def preprocess_text(text):
""" A function to lower and tokenize text data """
# Lower the text
lower_text = text.lower()
# tokenize the text into a list of words
tokens = nltk.tokenize.word_tokenize(lower_text)
return tokens
然后我希望将该函数应用于名为 data
的实际文本数据,这是一个包含字符串的列表。我想遍历 data
中的每个字符串并应用该函数来降低和标记文本数据。
最后,我希望将标记化的词附加到名为 tokenized_final
的最终列表,该列表应该是包含标记化词的最终列表。
下面是下一段代码:
# Final list with tokenized words
tokenized_final = []
# Iterating over each string in data
for x in data:
# Calliing preprocess text function
token = preprocess_text(x)
tokenized_final.append(token)
然而,当我完成所有这些并打印列表时 tokenized_final
。它输出一个包含列表的大列表。
print (tokeninized_final)
Output:
[['pfe', 'bulls', 'have', 'reasons', 'on'],
['to', 'pay', 'more', 'attention'],
['there', 'is', 'still']]
当我希望 tokenized_final
的输出在一个列表中如下所示时:
['pfe', 'bulls', 'have', 'reasons', 'on','to', 'pay','more', 'attention','there','is', 'still']
有没有办法纠正预处理功能并将其应用于数据以获得所需的输出。或者有什么办法可以做到这一点?...
在这里将不胜感激。
提前致谢
您只需要展平结果列表:
# Final list with tokenized words
tokenized_final = []
# Iterating over each string in data
for x in data:
# Calliing preprocess text function
token = preprocess_text(x)
tokenized_final.append(token)
flattened_tokeninized_final = [i for j in tokeninized_final for i in j]
美好的一天,
我有一个函数应该能够降低和标记化文本和 returns 标记。 下面是函数:
def preprocess_text(text):
""" A function to lower and tokenize text data """
# Lower the text
lower_text = text.lower()
# tokenize the text into a list of words
tokens = nltk.tokenize.word_tokenize(lower_text)
return tokens
然后我希望将该函数应用于名为 data
的实际文本数据,这是一个包含字符串的列表。我想遍历 data
中的每个字符串并应用该函数来降低和标记文本数据。
最后,我希望将标记化的词附加到名为 tokenized_final
的最终列表,该列表应该是包含标记化词的最终列表。
下面是下一段代码:
# Final list with tokenized words
tokenized_final = []
# Iterating over each string in data
for x in data:
# Calliing preprocess text function
token = preprocess_text(x)
tokenized_final.append(token)
然而,当我完成所有这些并打印列表时 tokenized_final
。它输出一个包含列表的大列表。
print (tokeninized_final)
Output:
[['pfe', 'bulls', 'have', 'reasons', 'on'],
['to', 'pay', 'more', 'attention'],
['there', 'is', 'still']]
当我希望 tokenized_final
的输出在一个列表中如下所示时:
['pfe', 'bulls', 'have', 'reasons', 'on','to', 'pay','more', 'attention','there','is', 'still']
有没有办法纠正预处理功能并将其应用于数据以获得所需的输出。或者有什么办法可以做到这一点?... 在这里将不胜感激。 提前致谢
您只需要展平结果列表:
# Final list with tokenized words
tokenized_final = []
# Iterating over each string in data
for x in data:
# Calliing preprocess text function
token = preprocess_text(x)
tokenized_final.append(token)
flattened_tokeninized_final = [i for j in tokeninized_final for i in j]