使用支持向量回归 R 预测新数据

predict new data using support-vector regression R

我正在尝试使用 e1071 包在 R 中使用支持向量回归来实现留一法交叉验证。我的数据和代码看起来或多或少是这样的:

library(e1071) 

#create fake dataset

y=rpois(30,3)-4+(rbinom(30,1,0.5))/2
x1=c(rep('C',16),rep('S',14))
x2=c(runif(16,0,1),runif(14,0,1)/10)
x3=c(runif(16,0,1)/5,runif(14,0,1))
dat=data.frame(y=y,x1=x1,x2=x2,x3=x3)
train=dat[-1,]
test=dat[1,]

# train the model

model=tune(svm, train$y ~ train$x1*train$x2*train$x3,kernel='linear',
ranges = list(epsilon = seq(0.1,0.6,0.1), cost = 2^(0:9)))
model=model$best.model

#predict

predict(model,newdata=test)

问题是预测函数 returns 只预测训练值,不预测测试数据集。我在这里看到了类似的问题 predict.svm does not predict new data,但该解决方案似乎不适用于我的代码。关于这个问题的任何想法?

任何时候您在公式 (~) 中使用 $,这表明事情可能会变得一团糟。以下是您应该如何重写 tune() 调用

model=tune(svm, y ~ x1*x2*x3, data=train, 
    kernel='linear', ranges = list(epsilon = seq(0.1,0.6,0.1), cost = 2^(0:9)))

这会专门从 train data.frame 中分离变量,并允许您预测到具有相同变量名称的新数据集。

这里有几件事 - 我不知道您是否想要 x1、x2 和 x3 之间的三重交互,或者您是否希望它们作为独立变量。下面将它们作为自变量运行。然而,最重要的是,您在模型公式中调用数据,这就是为什么您总是预测您的训练数据集 (train$x1)

model=tune(svm, y ~ x1+x2+x3,kernel='linear',data=train,
           ranges = list(epsilon = seq(0.1,0.6,0.1), cost = 2^(0:9)))
model=model$best.model

#predict

predict(model,newdata=test)