在 Weka 中工作时,最后一个属性数据类型需要是名义上的吗?
While working in Weka do the last attribute data type need to be nominal?
我在 weka 中使用一个数据集,该数据集的最后一个属性是 count。数字数据类型的 count 属性是指在特定日期租用的自行车数量。例如。 12、15、30、11、45。我想在我的测试数据集中预测这些值。
这取决于你的算法。
分类算法通常需要标称值或二进制 "target" 值。
回归算法需要一个数值目标。
您可以使用带有数字目标属性的线性回归(Weka 称之为 "class attribute")。事实上,"classify" 选项卡下所有不可用的 Weka 算法(由于数字 class 属性)都将显示为灰色。
如果你有很多离散的自变量,例如"weather", "is_weekend", "payment mode", "customer_gender",...你也可以使用 Weka 的 "Discretize" 过滤器将数字 class 属性转换为离散的,例如间隔 class 例如 0-10 bikes/day、10-20 b./天等
为此,您必须暂时将 class 属性分配给任何其他属性,使用过滤器选项卡右下角顶部的选择框执行此操作。然后应用离散化过滤器,但仅适用于 class bikes_per_day 属性(默认情况下,过滤器将所有属性离散化)。然后将 class 属性重新分配给现在离散化的最后一个属性。
然后 Weka 的 class化算法如 J48 将可用(不再灰显)。他们可能会给出更简洁、可解释的结果,例如小决策树,例如:如果 season = summer and day= weekend and weather_forecasted=sunny then predicted_rented_class=40-50 bikes/day
我在 weka 中使用一个数据集,该数据集的最后一个属性是 count。数字数据类型的 count 属性是指在特定日期租用的自行车数量。例如。 12、15、30、11、45。我想在我的测试数据集中预测这些值。
这取决于你的算法。
分类算法通常需要标称值或二进制 "target" 值。
回归算法需要一个数值目标。
您可以使用带有数字目标属性的线性回归(Weka 称之为 "class attribute")。事实上,"classify" 选项卡下所有不可用的 Weka 算法(由于数字 class 属性)都将显示为灰色。
如果你有很多离散的自变量,例如"weather", "is_weekend", "payment mode", "customer_gender",...你也可以使用 Weka 的 "Discretize" 过滤器将数字 class 属性转换为离散的,例如间隔 class 例如 0-10 bikes/day、10-20 b./天等
为此,您必须暂时将 class 属性分配给任何其他属性,使用过滤器选项卡右下角顶部的选择框执行此操作。然后应用离散化过滤器,但仅适用于 class bikes_per_day 属性(默认情况下,过滤器将所有属性离散化)。然后将 class 属性重新分配给现在离散化的最后一个属性。
然后 Weka 的 class化算法如 J48 将可用(不再灰显)。他们可能会给出更简洁、可解释的结果,例如小决策树,例如:如果 season = summer and day= weekend and weather_forecasted=sunny then predicted_rented_class=40-50 bikes/day