如何使用经过训练的模型来测试 python 中的新句子（sklearn）

Question

我有为 multi class text classification 训练模型的代码，它可以工作，但我无法使用该模型。这是我的训练代码

def training(df):
X = df.Text
y = df.Tags
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
lr = Pipeline([('vect', CountVectorizer()),
               ('tfidf', TfidfTransformer()),
               ('clf', LogisticRegression()),
               ])

lr.fit(X_train, y_train)
y_pred1 = lr.predict(X_test)
print(f"Accuracy is : {accuracy_score(y_pred1, y_test)}")
print(lr.predict('ماست کم چرب 900 گرمی رامک'))

当我运行代码得到这个结果 Accuracy is : 0.9957983193277311 和这个错误

回溯（最近调用最后）：文件“E:\Python\NLP Project\Beta_00\Level0\handleClassification.py”，第 100 行，位于训练（df）

文件“E:\Python\NLP Project\Beta_00\Level0\handleClassification.py”，第 85 行，在训练中 print(lr.predict('ماست کم چرب 900 گرمی رامک'))

文件“E:\Python\NLP Project\Beta_00\venv\lib\site-packages\sklearn\utils\metaestimators.py” 第 120 行，在 out = lambda *args, **kwargs: self.fn(obj, *args, **kwargs)

文件“E:\Python\NLP Project\Beta_00\venv\lib\site-packages\sklearn\pipeline.py”，第 418 行，在预测 Xt = transform.transform(Xt)

文件“E:\Python\NLPProject\Beta_00\venv\lib\site-
packages\sklearn\feature_extraction\text.py"，第 1248 行，在转换中提高 ValueError( ValueError：可迭代预期的原始文本文档，收到字符串对象。

Answer 1

以下几行需要更正：

lr.fit(X_train, y_train)
y_pred1 = lr.predict(X_test)
print(f"Accuracy is : {accuracy_score(y_test, y_pred1)}")   #<--- here
print(lr.predict(['ماست کم چرب 900 گرمی رامک']))   #<--- here

行 lr.predict(input) 应该接受 'array' 类型的输入。

如何使用经过训练的模型来测试 python 中的新句子（sklearn）

how to use trained model to test new sentence in python (sklearn)

python

nlp

scikit-learn

multiclass-classification