线性回归完全关闭

Linear Regression completely off

我目前正在尝试学习 scikit-learn,为此我对房屋价格相对于平方米大小进行了简单的线性回归。 我已经为一个位置完成了这个模型,一切正常,当我尝试使用另一个数据集时,数据分散得很好,但是 regression/prediction 完全关闭了!信心也很糟糕,经常是消极的。

这是截图:

代码如下:

style.use('ggplot')

dataset = pd.read_csv('/Path/Data.csv')

X = np.array(dataset[['size']])
y = np.array(dataset[['value']])

X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.2)

clf = LinearRegression()
clf.fit(X_train, y_train)

plt.scatter(X,y)
plt.plot(X, clf.predict(X))

plt.tight_layout()
plt.show()

confidence = clf.score(X_test, y_test)
print confidence

平方误差对异常值过于敏感。我最终删除了它们,因为它们完全关闭了