如何将 tfidf 特征与自制特征相结合

Question

对于一个简单的网页分类系统，我试图将一些自制的特征（HTML标签的频率，某些单词搭配的频率）与应用tfidf后获得的特征结合起来。但是，我面临以下问题，我真的不知道如何从这里开始。

现在我正在尝试将所有这些放在一个数据框中，主要是通过遵循以下 link 中的代码：

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

vectorizer = TfidfVectorizer(stop_words="english")
X_train_counts = vectorizer.fit_transform(train_data['text_no_punkt'])
feature_names = vectorizer.get_feature_names()
dense = X_train_counts.todense()
denselist = dense.tolist()

tfidf_df = pd.DataFrame(denselist, columns=feature_names, index=train_data['text_no_punkt'])

但这不是 return 我在原始数据框中的索引（从 0 到 2464）以及其他功能，它似乎也没有产生可读的列名，而不是使用不同的词作为标题，它使用数字。

此外，我不确定这是否是组合特征的正确方法，因为这将导致极其 high-dimensional 的数据帧，这可能不会对分类器有利。

Answer 1

您可以使用hstack合并两个稀疏矩阵，而无需转换为密集格式。

from scipy.sparse import hstack

hstack([X_train_counts, X_train_custom])

如何将 tfidf 特征与自制特征相结合

How to combine tfidf features with selfmade features

python

nlp

tf-idf

pandas

scikit-learn