使用 NLTK 使用 pandas 将句子标记为单词

Question

我正在尝试将 csv 文件中的句子标记为单词，但我的循环没有跳到下一个句子，它只是在做第一列。知道错误在哪里吗？这是我的 CSV 文件的样子

import re
import string
import pandas as pd
text=pd.read_csv("data.csv")
from nltk.tokenize import word_tokenize
tokenized_docs=[word_tokenize(doc) for doc in text]
x=re.compile('[%s]' % re.escape(string.punctuation))
tokenized_docs_no_punctuation = []

我得到的输出是这样的

我希望将所有句子作为一个循环来做，而不仅仅是一个循环。

Answer 1

只需要改一下代码就可以抓取句子：

import re
import string
import pandas as pd
text=pd.read_csv("out157.txt", sep="|")
from nltk.tokenize import word_tokenize
tokenized_docs=[word_tokenize(doc) for doc in text['SENTENCES']]
x=re.compile('[%s]' % re.escape(string.punctuation))
tokenized_docs_no_punctuation = []

使用 NLTK 使用 pandas 将句子标记为单词

Using NLTK to tokeniz sentences to words using pandas

python

nltk

dataframe

pandas