Python NLTK 从 CSV 准备数据以进行标记化
Python NLTK Prepare Data from CSV for Tokenization
我是 Python 和 NLTK 的新手。从 csv 导入文本后,我正在尝试在 Python 中使用 NLTK 准备标记化文本。文件中只有一列包含自由文本。我想隔离那个特定的专栏,我这样做了……我想。
import spacy
import pandas as pd
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
import re
import unicodedata
pd.set_option('display.max_colwidth',50)
oiw = pd.read_csv(r'C:\Users\tgray\Documents\PythonScripts\Worksheets.csv')
text = oiw.drop(oiw.columns[[1,2,3]],axis=1)
for row in text:
for text['value'] in row:
tokens = word_tokenize(row)
print(tokens)
当我 运行 代码时,它给我的输出是 ['values'],这是列名。如何让其余行显示在输出中?
我在 'values' 列中的示例数据:
在线订购的方式太简单了。
一切都很好。
我太容易坏了
我希望收到的输出是:
['The','way','was','too','easy','to','order','online','Everything','is','great','It''s','for','me','break']
您需要更正的部分在段中。
oiw = pd.read_csv(r'C:\Users\tgray\Documents\PythonScripts\Worksheets.csv')
text = oiw.drop(columns=[1,2,3]) # correctly dropping columns named 1 2 and 3
for row in text['value']: # Correctly selecting the column
tokens = word_tokenize(row)
print(tokens) # Will print tokens in each row
print(tokens) # Will print the tokens of the last row
因此您将迭代数据框的正确列。
我是 Python 和 NLTK 的新手。从 csv 导入文本后,我正在尝试在 Python 中使用 NLTK 准备标记化文本。文件中只有一列包含自由文本。我想隔离那个特定的专栏,我这样做了……我想。
import spacy
import pandas as pd
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
import re
import unicodedata
pd.set_option('display.max_colwidth',50)
oiw = pd.read_csv(r'C:\Users\tgray\Documents\PythonScripts\Worksheets.csv')
text = oiw.drop(oiw.columns[[1,2,3]],axis=1)
for row in text:
for text['value'] in row:
tokens = word_tokenize(row)
print(tokens)
当我 运行 代码时,它给我的输出是 ['values'],这是列名。如何让其余行显示在输出中?
我在 'values' 列中的示例数据:
在线订购的方式太简单了。
一切都很好。
我太容易坏了
我希望收到的输出是:
['The','way','was','too','easy','to','order','online','Everything','is','great','It''s','for','me','break']
您需要更正的部分在段中。
oiw = pd.read_csv(r'C:\Users\tgray\Documents\PythonScripts\Worksheets.csv')
text = oiw.drop(columns=[1,2,3]) # correctly dropping columns named 1 2 and 3
for row in text['value']: # Correctly selecting the column
tokens = word_tokenize(row)
print(tokens) # Will print tokens in each row
print(tokens) # Will print the tokens of the last row
因此您将迭代数据框的正确列。