使用 scikit-learn 生成难分类数据集

Generating Difficult Classification Data Sets using scikit-learn

我正在尝试使用 scikit-learn 中的 make_classification 生成一系列具有不同样本大小、流行率(即阳性 class 的比例)和准确性的合成数据集。改变样本大小和流行率相当简单,但我很难使用逻辑回归生成准确率低于 50% 的任何数据集。使用信息列的数量、每个 class 的聚类数量和 flip_y 参数(随机翻转给定观察比例的 class)似乎会降低准确性,但没有我想要的那么多。有没有办法改变 make_classification 的参数,从而进一步减少(例如,减少到 20%)?

谢谢!

一般来说,相当少的 n_samples、随机翻转标签的高概率 flip_y 和大量的 n_classes 的组合应该可以让你到达你想要的地方.

您可以尝试以下方法:

from sklearn.cross_validation import cross_val_score
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()

# 2-class problem
X, y = make_classification(n_samples=100, n_informative=2, flip_y=0.8, random_state=42)

cross_val_score(estimator=lr, X=X, y=y, scoring='accuracy', cv=10)

# Output
array([ 0.54545455,  0.27272727,  0.45454545,  0.2       ,  0.4       ,
        0.5       ,  0.7       ,  0.55555556,  0.55555556,  0.44444444])

# 8-class problem
X, y = make_classification(n_samples=100, n_classes=8, n_informative=4, n_clusters_per_class=1, flip_y=0.5, random_state=42)

cross_val_score(estimator=lr, X=X, y=y, scoring='accuracy', cv=5)

# Output
array([ 0.16666667,  0.19047619,  0.15      ,  0.16666667,  0.29411765])

如果你只使用二元分类,你应该谨慎选择 flip_y。例如,如果您选择 flip_y 为高,则意味着您几乎翻转了每个标签,从而使问题变得更容易!。 (保持一致性)

因此,在二进制分类中,flip_y实际上是min(flip_y,1-flip_y),将其设置为0.5会使分类变得非常困难。

您可以做的另一件事:创建数据后,使用 PCA:

进行降维
from sklearn.cross_validation import cross_val_score
from sklearn.datasets import make_classification
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression()

X, y = make_classification(n_samples=10000, n_informative=18,n_features=20, flip_y=0.15, random_state=217)
print cross_val_score(estimator=clf, X=X, y=y, scoring='accuracy', cv=4)
#prints [ 0.80287885  0.7904      0.796       0.78751501]

pca = PCA(n_components=10)
X = pca.fit_transform(X)

print cross_val_score(estimator=clf, X=X, y=y, scoring='accuracy', cv=4)
#prints [ 0.76409436  0.7684      0.7628      0.75830332]

您可以减少 n_components 以获得更差的结果,同时具有原始数量的特征:

pca = PCA(n_components=1)
X = pca.fit_transform(X)

X = np.concatenate((X, np.random.rand(X.shape[0],19)),axis=1) #concatenating random features
cross_val_score(estimator=clf, X=X, y=y, scoring='accuracy', cv=10)
print cross_val_score(estimator=clf, X=X, y=y, scoring='accuracy', cv=4)
#prints [ 0.5572  0.566   0.5552  0.5664]

获得低于 50% 的准确度是 'hard' - 即使您采用随机向量,准确度的期望仍然是 0.5:

X = np.random.rand(10000,20)
print np.average(cross_val_score(estimator=clf, X=X, y=y, scoring='accuracy', cv=100))
#prints 0.501489999

所以 55% 的准确率被认为是非常低的。