如何在 scikit-learn 中加载包含 txt 文件的数据集

How load a data set contains txt file in scikit-learn

我将使用 scikit-learn 库实现我的 SVM 分类。

我的功能值是 0/1,我已将这些值保存在一个 txt 文件中用于功能,并在一个单独的 txt 文件中用于我的标签。

现在我的问题是如何使用 scikit-learn 加载我的外部数据集用于训练和测试阶段?

在 TXT/CSV 文件中保存矢量化和特别是压缩(稀疏)数据并不是最好的方法,因为你在读回它时可能会遇到问题——你会丢失数据类型、压缩/"sparseness"、等等。您甚至可能会遇到无法读取内存中的 TXT/CSV 文件的情况。

您可以看到将稀疏矩阵转换为以 MemoryError 结尾的普通 (numpy) 矩阵的示例。如果您将稀疏(压缩)矩阵保存为 CSV,然后尝试将其读回(未压缩),您可能会遇到这种情况。

所以我建议你使用 pickling:

保存/序列化您的数据:

from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl') 

其中 clf 是您训练的模型或另一个 sparse/compressed 数据结构

从磁盘读回:

from sklearn.externals import joblib
clf = joblib.load('filename.pkl')