将分类数据转换为数字数据 scikit-learn 优化

Convert categorical data to be numeric data scikit-learn optimization

我有一个包含分类数据的数据集,我使用 DictVectorizer 将数据转换为数字。

# training data
vect = DictVectorizer(sparse=False)
x =  vect.fit_transform(samples)
# test data
vect.transform(samples)

但是这段代码在大型数据集中会产生内存问题,因为当每个类别都包含许多类型时,它会消耗太多内存。

我想要一个解决方案或算法来解决内存成本问题

  1. 升级 scikit-learn
  2. 将稀疏更改为真

    vect = DictVectorizer(sparse=False)