Python NLTK 从 CSV 准备数据以进行标记化

Question

我是 Python 和 NLTK 的新手。从 csv 导入文本后，我正在尝试在 Python 中使用 NLTK 准备标记化文本。文件中只有一列包含自由文本。我想隔离那个特定的专栏，我这样做了……我想。

import spacy
import pandas as pd
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
import re
import unicodedata


pd.set_option('display.max_colwidth',50)

oiw = pd.read_csv(r'C:\Users\tgray\Documents\PythonScripts\Worksheets.csv')

text = oiw.drop(oiw.columns[[1,2,3]],axis=1)

for row in text:
    for text['value'] in row:
        tokens = word_tokenize(row)
print(tokens)

当我运行代码时，它给我的输出是 ['values']，这是列名。如何让其余行显示在输出中？

我在 'values' 列中的示例数据：

在线订购的方式太简单了。

一切都很好。

我太容易坏了

我希望收到的输出是：

['The','way','was','too','easy','to','order','online','Everything','is','great','It''s','for','me','break']

Answer 1

您需要更正的部分在段中。

oiw = pd.read_csv(r'C:\Users\tgray\Documents\PythonScripts\Worksheets.csv')

text = oiw.drop(columns=[1,2,3]) # correctly dropping columns named 1 2 and 3 

for row in text['value']: # Correctly selecting the column 
    tokens = word_tokenize(row)
    print(tokens) # Will print tokens in each row
print(tokens) # Will print the tokens of the last row

因此您将迭代数据框的正确列。

Python NLTK 从 CSV 准备数据以进行标记化

Python NLTK Prepare Data from CSV for Tokenization

python

csv

tokenize

nltk