如何增加决策树中列的重要性?

How to increase importance of a column in Decision Tree?

我有 name,ratings,ratings_count,genres 列的数据集。

例如:Movies_Data.csv

   Name             ratings ratings_count Action Adventure Horror Musical Thriller       
    Mad-Max            2           7         1        0       0       0       1
    Mitchell[1975]     3.25        2         1        0       0       0       1
    John Wick          4.23        4         1        0       0       0       0
    Insidious          3.75        10        0        0       1       0       0

我把它分为特征标签。然后为 Name 列执行标签编码。

这是拆分后的特征数据集。

特点:

ratings ratings_count Action Adventure Horror Musical Thriller       
   2           7         1        0       0       0       1
   3.25        2         1        0       0       0       1
   4.23        4         1        0       0       0       0
   3.75        10        0        0       1       0       0

现在的问题是我有大约 18 'Genre' 列。所以我认为我的决策树更重视这些列而不是 ratingsratings_count.

就像我让树预测具有以下参数的电影:

ratings:3 ratings_count:2 Action:1 Adventure:0 Horror:0 Musical:0 Thriller:1

显然应该预测 Mitchell[1975] 因为 ratings:3 接近 3.25ratings_count 与我的输入相同。但它预测 Mad-Max。 如何提高评分和 ratings_count 列的重要性?

我是机器学习新手。那么我可以使用任何其他方法或任何其他算法来获得更好的推荐吗?

P.s.I 知道我们可以使用神经网络,但我只需要坚持使用 Basic ML 算法。

谢谢!

首先,随机森林几乎总是比决策树带来更好的结果。他们有更多的超参数需要调整,但这也可以帮助您带来更好的结果。它被称为集成算法,并且效果很好,因为它平均了许多决策树。它有较少的过拟合问题,所以它应该表现得更好。

如果您仍然遇到问题,您可以尝试融合一些类别(或获取更多数据),以便您的算法可以正确推断评级的重要性。

另外,这个问题可能更适合 Cross Validated,在那里你可以提出更多理论问题。

祝你好运!