如何根据分类输入变量可视化(绘制)回归输出?
How to visualize (make plot) of regression output against categorical input variable?
我正在对多个变量进行线性回归。在我的数据中,我有 n = 143 个特征和 m = 13000 个训练示例。我的一些特征是连续(有序)变量(面积、年份、房间数)。但我也有分类变量(地区、颜色、类型)。现在,我将我的一些功能与预测价格进行了可视化。例如,这里是 area
与预测 price
的关系图:
因为 area
是连续的序数变量,所以我可以轻松地可视化数据。但现在我想以某种方式可视化我的分类变量(如地区)对预测价格的依赖性。
对于分类变量,我使用了单热(虚拟)编码。
比如这样的数据:
转为这种格式:
如果我以这种方式对地区使用序号编码:
DistrictA - 1
DistrictB - 2
DistrictC - 3
DistrictD - 4
DistrictE - 5
通过将 1-5 置于 X 轴并将价格置于 Y 轴,我可以很容易地根据预测价格绘制此值。
但我使用了虚拟编码,现在我不知道如何显示(可视化)价格和分类变量之间的依赖关系 'District' 表示为一系列零和一。
在使用虚拟编码的情况下,如何绘制显示地区与预测价格的回归线的图?
如果你只是想知道不同地区对你的预测有多大影响,你可以直接查看训练系数。高 theta 表示该地区提高了价格。
如果要绘制此图,一种可能的方法是根据设置的区域使用 x 坐标制作散点图。
像这样(未经测试):
plot.scatter(0, predict(data["DistrictA"==1]))
plot.scatter(1, predict(data["DistrictB"==1]))
等等。
(可能您需要提供与过滤数据向量大小相同的 x 向量。)
如果可以对 x 坐标添加轻微的随机扰动,效果会更好。
我正在对多个变量进行线性回归。在我的数据中,我有 n = 143 个特征和 m = 13000 个训练示例。我的一些特征是连续(有序)变量(面积、年份、房间数)。但我也有分类变量(地区、颜色、类型)。现在,我将我的一些功能与预测价格进行了可视化。例如,这里是 area
与预测 price
的关系图:
因为 area
是连续的序数变量,所以我可以轻松地可视化数据。但现在我想以某种方式可视化我的分类变量(如地区)对预测价格的依赖性。
对于分类变量,我使用了单热(虚拟)编码。
比如这样的数据:
转为这种格式:
如果我以这种方式对地区使用序号编码:
DistrictA - 1
DistrictB - 2
DistrictC - 3
DistrictD - 4
DistrictE - 5
通过将 1-5 置于 X 轴并将价格置于 Y 轴,我可以很容易地根据预测价格绘制此值。
但我使用了虚拟编码,现在我不知道如何显示(可视化)价格和分类变量之间的依赖关系 'District' 表示为一系列零和一。
在使用虚拟编码的情况下,如何绘制显示地区与预测价格的回归线的图?
如果你只是想知道不同地区对你的预测有多大影响,你可以直接查看训练系数。高 theta 表示该地区提高了价格。
如果要绘制此图,一种可能的方法是根据设置的区域使用 x 坐标制作散点图。 像这样(未经测试):
plot.scatter(0, predict(data["DistrictA"==1]))
plot.scatter(1, predict(data["DistrictB"==1]))
等等。 (可能您需要提供与过滤数据向量大小相同的 x 向量。) 如果可以对 x 坐标添加轻微的随机扰动,效果会更好。