TF-IDF + 多元回归预测问题

TF-IDF + Multiple Regression Prediction Problem

我有一个数据集,其中包含约 10,000 行在类似于 Craigslist 的门户网站上销售的车辆。这些列包括价格、里程、编号。前任车主的信息、汽车售出的时间(以天为单位),以及最重要的描述车辆的文本正文(例如 "accident free, serviced regularly")。

我想知道包含哪些关键字后,汽车会更快售出。但是我知道汽车多久能卖掉还取决于其他因素,尤其是价格和里程。

运行 scikit-learn 中的 TfidfVectorizer 导致预测准确性非常差。不确定我是否应该尝试在回归模型中包括价格、里程等,因为它看起来很复杂。目前正在考虑对足够大的特定数据段重复 TF-IDF 回归(可能是定价在 10,000 美元至 20,000 美元的丰田汽车)。

最后的办法是绘制两个直方图,一个包含特定 word/phrase 的车辆列表,另一个用于不包含特定 word/phrase 的车辆列表。这里的限制是我选择绘制的文字将基于我的主观意见。

是否有其他方法可以找出哪些关键字可能很重要?提前致谢。

正如您提到的,您只能使用文本正文,这表示文本对销售汽车的影响程度。

尽管该模型的预测准确度很低,但您可以提前查看特征重要性,了解推动销售的词语。

通过将 ngram_range 参数设置为 (1,2),在您的 tfidf 向量化器中包含短语 这可能会让您略微了解哪些短语会影响汽车的销售。

if也建议你将tfidf的norm参数设置为None,看看有没有影响。默认情况下,它应用 l2 范数。

不同之处在于您使用的分类模型。尝试更改模型也作为最后的选择。