使用 NLTK 使用 pandas 将句子标记为单词
Using NLTK to tokeniz sentences to words using pandas
我正在尝试将 csv 文件中的句子标记为单词,但我的循环没有跳到下一个句子,它只是在做第一列。知道错误在哪里吗?
这是我的 CSV 文件的样子
import re
import string
import pandas as pd
text=pd.read_csv("data.csv")
from nltk.tokenize import word_tokenize
tokenized_docs=[word_tokenize(doc) for doc in text]
x=re.compile('[%s]' % re.escape(string.punctuation))
tokenized_docs_no_punctuation = []
我得到的输出是这样的
我希望将所有句子作为一个循环来做,而不仅仅是一个循环。
只需要改一下代码就可以抓取句子:
import re
import string
import pandas as pd
text=pd.read_csv("out157.txt", sep="|")
from nltk.tokenize import word_tokenize
tokenized_docs=[word_tokenize(doc) for doc in text['SENTENCES']]
x=re.compile('[%s]' % re.escape(string.punctuation))
tokenized_docs_no_punctuation = []
我正在尝试将 csv 文件中的句子标记为单词,但我的循环没有跳到下一个句子,它只是在做第一列。知道错误在哪里吗?
这是我的 CSV 文件的样子
import re
import string
import pandas as pd
text=pd.read_csv("data.csv")
from nltk.tokenize import word_tokenize
tokenized_docs=[word_tokenize(doc) for doc in text]
x=re.compile('[%s]' % re.escape(string.punctuation))
tokenized_docs_no_punctuation = []
我得到的输出是这样的
我希望将所有句子作为一个循环来做,而不仅仅是一个循环。
只需要改一下代码就可以抓取句子:
import re
import string
import pandas as pd
text=pd.read_csv("out157.txt", sep="|")
from nltk.tokenize import word_tokenize
tokenized_docs=[word_tokenize(doc) for doc in text['SENTENCES']]
x=re.compile('[%s]' % re.escape(string.punctuation))
tokenized_docs_no_punctuation = []