有没有办法用 scikit-learn 获取 "recreate" 数据?
Is there a way to "recreate" data with scikit-learn?
我的问题是关于 python 中的 scikit-learn。
假设我有 3 个特征 A、B 和 C,以及 A 和 B 能够在这样的代码中预测 C:
exampleModel.fit(AandB, C)
exampleModel.predict(C)
有没有办法让我输入一些 C 值,并得到 A 和 B 值需要达到 C 值?几乎是反过来输入。如果有方法,怎么称呼?
是的,有可能!
但是你需要非常清楚你想要什么:A、B 和 C 相关 - 决定什么是合适的预测模型。
您还需要认识到不能进行 "perfect" 重建。 A 和 B 通常比 C 更丰富。除非它们非常受限(例如 A 和 B 之间的高度相关),否则从 AB 到 C 时会丢失一些信息。此信息不能已恢复。
这不适用于所有模型,它对每个模型的作用都不同,并且它没有直接在 scikit-learn 中实现。换句话说,你将不得不做一些手工工作,你需要知道你在做什么。特别是,您需要了解您正在使用的模型。没有即插即用的解决方案。
假设A和B是连续的特征,C是离散的0或 1. 在这种情况下,合适的模型是 classifier。让我们进一步假设 A 和 B 在不同的 C 的不同 blob 中很好地聚类。在这种情况下,线性 classifier 可以工作。
我将提供一个示例Linear Discriminant Analysis。它的工作原理是将 class 中心线性投影到最具辨别力的方向。一般来说,我们需要反转这个投影,但我们很幸运,因为 LDA 暴露了原始的 class 中心。要从给定的 C 获得原始特征的表示,我们只需要找到正确的 class 中心。
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
np.random.seed(7)
def inverse_lda(lda, C):
c = np.flatnonzero(model.classes_ == C)
return model.means_[c]
AB, C = make_blobs(n_samples=333, n_features=2, centers=2) # toy data
A, B = AB.T
plt.scatter(A, B, c=C, alpha=0.5)
plt.xlabel('A')
plt.ylabel('B')
model = LDA(store_covariance=True).fit(AB, C)
# reconstruct A and B for C=[0, 1]
ABout = inverse_lda(model, C=[0, 1])
plt.plot(ABout[0, 0], ABout[0, 1], 'o', label='C=0')
plt.plot(ABout[1, 0], ABout[1, 1], 'o', label='C=1')
plt.legend()
我的问题是关于 python 中的 scikit-learn。 假设我有 3 个特征 A、B 和 C,以及 A 和 B 能够在这样的代码中预测 C:
exampleModel.fit(AandB, C)
exampleModel.predict(C)
有没有办法让我输入一些 C 值,并得到 A 和 B 值需要达到 C 值?几乎是反过来输入。如果有方法,怎么称呼?
是的,有可能!
但是你需要非常清楚你想要什么:A、B 和 C 相关 - 决定什么是合适的预测模型。
您还需要认识到不能进行 "perfect" 重建。 A 和 B 通常比 C 更丰富。除非它们非常受限(例如 A 和 B 之间的高度相关),否则从 AB 到 C 时会丢失一些信息。此信息不能已恢复。
这不适用于所有模型,它对每个模型的作用都不同,并且它没有直接在 scikit-learn 中实现。换句话说,你将不得不做一些手工工作,你需要知道你在做什么。特别是,您需要了解您正在使用的模型。没有即插即用的解决方案。
假设A和B是连续的特征,C是离散的0或 1. 在这种情况下,合适的模型是 classifier。让我们进一步假设 A 和 B 在不同的 C 的不同 blob 中很好地聚类。在这种情况下,线性 classifier 可以工作。
我将提供一个示例Linear Discriminant Analysis。它的工作原理是将 class 中心线性投影到最具辨别力的方向。一般来说,我们需要反转这个投影,但我们很幸运,因为 LDA 暴露了原始的 class 中心。要从给定的 C 获得原始特征的表示,我们只需要找到正确的 class 中心。
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
np.random.seed(7)
def inverse_lda(lda, C):
c = np.flatnonzero(model.classes_ == C)
return model.means_[c]
AB, C = make_blobs(n_samples=333, n_features=2, centers=2) # toy data
A, B = AB.T
plt.scatter(A, B, c=C, alpha=0.5)
plt.xlabel('A')
plt.ylabel('B')
model = LDA(store_covariance=True).fit(AB, C)
# reconstruct A and B for C=[0, 1]
ABout = inverse_lda(model, C=[0, 1])
plt.plot(ABout[0, 0], ABout[0, 1], 'o', label='C=0')
plt.plot(ABout[1, 0], ABout[1, 1], 'o', label='C=1')
plt.legend()