使用 scikit-learn 生成难分类数据集

Question

我正在尝试使用 scikit-learn 中的 make_classification 生成一系列具有不同样本大小、流行率（即阳性 class 的比例）和准确性的合成数据集。改变样本大小和流行率相当简单，但我很难使用逻辑回归生成准确率低于 50% 的任何数据集。使用信息列的数量、每个 class 的聚类数量和 flip_y 参数（随机翻转给定观察比例的 class）似乎会降低准确性，但没有我想要的那么多。有没有办法改变 make_classification 的参数，从而进一步减少（例如，减少到 20%）？

谢谢！

Answer 1

一般来说，相当少的 n_samples、随机翻转标签的高概率 flip_y 和大量的 n_classes 的组合应该可以让你到达你想要的地方.

您可以尝试以下方法：

from sklearn.cross_validation import cross_val_score
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()

# 2-class problem
X, y = make_classification(n_samples=100, n_informative=2, flip_y=0.8, random_state=42)

cross_val_score(estimator=lr, X=X, y=y, scoring='accuracy', cv=10)

# Output
array([ 0.54545455,  0.27272727,  0.45454545,  0.2       ,  0.4       ,
        0.5       ,  0.7       ,  0.55555556,  0.55555556,  0.44444444])

# 8-class problem
X, y = make_classification(n_samples=100, n_classes=8, n_informative=4, n_clusters_per_class=1, flip_y=0.5, random_state=42)

cross_val_score(estimator=lr, X=X, y=y, scoring='accuracy', cv=5)

# Output
array([ 0.16666667,  0.19047619,  0.15      ,  0.16666667,  0.29411765])

Answer 2

如果你只使用二元分类，你应该谨慎选择 flip_y。例如，如果您选择 flip_y 为高，则意味着您几乎翻转了每个标签，从而使问题变得更容易！。（保持一致性）

因此，在二进制分类中，flip_y实际上是min(flip_y,1-flip_y)，将其设置为0.5会使分类变得非常困难。

您可以做的另一件事：创建数据后，使用 PCA:

进行降维

from sklearn.cross_validation import cross_val_score
from sklearn.datasets import make_classification
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression()

X, y = make_classification(n_samples=10000, n_informative=18,n_features=20, flip_y=0.15, random_state=217)
print cross_val_score(estimator=clf, X=X, y=y, scoring='accuracy', cv=4)
#prints [ 0.80287885  0.7904      0.796       0.78751501]

pca = PCA(n_components=10)
X = pca.fit_transform(X)

print cross_val_score(estimator=clf, X=X, y=y, scoring='accuracy', cv=4)
#prints [ 0.76409436  0.7684      0.7628      0.75830332]

您可以减少 n_components 以获得更差的结果，同时具有原始数量的特征：

pca = PCA(n_components=1)
X = pca.fit_transform(X)

X = np.concatenate((X, np.random.rand(X.shape[0],19)),axis=1) #concatenating random features
cross_val_score(estimator=clf, X=X, y=y, scoring='accuracy', cv=10)
print cross_val_score(estimator=clf, X=X, y=y, scoring='accuracy', cv=4)
#prints [ 0.5572  0.566   0.5552  0.5664]

获得低于 50% 的准确度是 'hard' - 即使您采用随机向量，准确度的期望仍然是 0.5：

X = np.random.rand(10000,20)
print np.average(cross_val_score(estimator=clf, X=X, y=y, scoring='accuracy', cv=100))
#prints 0.501489999

所以 55% 的准确率被认为是非常低的。

使用 scikit-learn 生成难分类数据集

Generating Difficult Classification Data Sets using scikit-learn

scikit-learn