如何在 scikit-learn 中加载包含 txt 文件的数据集
How load a data set contains txt file in scikit-learn
我将使用 scikit-learn 库实现我的 SVM 分类。
我的功能值是 0/1,我已将这些值保存在一个 txt 文件中用于功能,并在一个单独的 txt 文件中用于我的标签。
现在我的问题是如何使用 scikit-learn 加载我的外部数据集用于训练和测试阶段?
在 TXT/CSV 文件中保存矢量化和特别是压缩(稀疏)数据并不是最好的方法,因为你在读回它时可能会遇到问题——你会丢失数据类型、压缩/"sparseness"、等等。您甚至可能会遇到无法读取内存中的 TXT/CSV 文件的情况。
您可以看到将稀疏矩阵转换为以 MemoryError
结尾的普通 (numpy) 矩阵的示例。如果您将稀疏(压缩)矩阵保存为 CSV,然后尝试将其读回(未压缩),您可能会遇到这种情况。
所以我建议你使用 pickling:
保存/序列化您的数据:
from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl')
其中 clf
是您训练的模型或另一个 sparse/compressed 数据结构
从磁盘读回:
from sklearn.externals import joblib
clf = joblib.load('filename.pkl')
我将使用 scikit-learn 库实现我的 SVM 分类。
我的功能值是 0/1,我已将这些值保存在一个 txt 文件中用于功能,并在一个单独的 txt 文件中用于我的标签。
现在我的问题是如何使用 scikit-learn 加载我的外部数据集用于训练和测试阶段?
在 TXT/CSV 文件中保存矢量化和特别是压缩(稀疏)数据并不是最好的方法,因为你在读回它时可能会遇到问题——你会丢失数据类型、压缩/"sparseness"、等等。您甚至可能会遇到无法读取内存中的 TXT/CSV 文件的情况。
MemoryError
结尾的普通 (numpy) 矩阵的示例。如果您将稀疏(压缩)矩阵保存为 CSV,然后尝试将其读回(未压缩),您可能会遇到这种情况。
所以我建议你使用 pickling:
保存/序列化您的数据:
from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl')
其中 clf
是您训练的模型或另一个 sparse/compressed 数据结构
从磁盘读回:
from sklearn.externals import joblib
clf = joblib.load('filename.pkl')