TF-IDF + 多元回归预测问题

TF-IDF + Multiple Regression Prediction Problem

我有一个数据集，其中包含约 10,000 行在类似于 Craigslist 的门户网站上销售的车辆。这些列包括价格、里程、编号。前任车主的信息、汽车售出的时间（以天为单位），以及最重要的描述车辆的文本正文（例如 "accident free, serviced regularly"）。

我想知道包含哪些关键字后，汽车会更快售出。但是我知道汽车多久能卖掉还取决于其他因素，尤其是价格和里程。

运行 scikit-learn 中的 TfidfVectorizer 导致预测准确性非常差。不确定我是否应该尝试在回归模型中包括价格、里程等，因为它看起来很复杂。目前正在考虑对足够大的特定数据段重复 TF-IDF 回归（可能是定价在 10,000 美元至 20,000 美元的丰田汽车）。

最后的办法是绘制两个直方图，一个包含特定 word/phrase 的车辆列表，另一个用于不包含特定 word/phrase 的车辆列表。这里的限制是我选择绘制的文字将基于我的主观意见。

是否有其他方法可以找出哪些关键字可能很重要？提前致谢。

正如您提到的，您只能使用文本正文，这表示文本对销售汽车的影响程度。

尽管该模型的预测准确度很低，但您可以提前查看特征重要性，了解推动销售的词语。

通过将 ngram_range 参数设置为 (1,2)，在您的 tfidf 向量化器中包含短语这可能会让您略微了解哪些短语会影响汽车的销售。

if也建议你将tfidf的norm参数设置为None，看看有没有影响。默认情况下，它应用 l2 范数。

不同之处在于您使用的分类模型。尝试更改模型也作为最后的选择。