将分类数据转换为数字数据 scikit-learn 优化
Convert categorical data to be numeric data scikit-learn optimization
我有一个包含分类数据的数据集,我使用 DictVectorizer 将数据转换为数字。
# training data
vect = DictVectorizer(sparse=False)
x = vect.fit_transform(samples)
# test data
vect.transform(samples)
但是这段代码在大型数据集中会产生内存问题,因为当每个类别都包含许多类型时,它会消耗太多内存。
我想要一个解决方案或算法来解决内存成本问题
- 升级 scikit-learn
将稀疏更改为真
vect = DictVectorizer(sparse=False)
我有一个包含分类数据的数据集,我使用 DictVectorizer 将数据转换为数字。
# training data
vect = DictVectorizer(sparse=False)
x = vect.fit_transform(samples)
# test data
vect.transform(samples)
但是这段代码在大型数据集中会产生内存问题,因为当每个类别都包含许多类型时,它会消耗太多内存。
我想要一个解决方案或算法来解决内存成本问题
- 升级 scikit-learn
将稀疏更改为真
vect = DictVectorizer(sparse=False)