TF-IDF + 多元回归预测问题
TF-IDF + Multiple Regression Prediction Problem
我有一个数据集,其中包含约 10,000 行在类似于 Craigslist 的门户网站上销售的车辆。这些列包括价格、里程、编号。前任车主的信息、汽车售出的时间(以天为单位),以及最重要的描述车辆的文本正文(例如 "accident free, serviced regularly")。
我想知道包含哪些关键字后,汽车会更快售出。但是我知道汽车多久能卖掉还取决于其他因素,尤其是价格和里程。
运行 scikit-learn 中的 TfidfVectorizer 导致预测准确性非常差。不确定我是否应该尝试在回归模型中包括价格、里程等,因为它看起来很复杂。目前正在考虑对足够大的特定数据段重复 TF-IDF 回归(可能是定价在 10,000 美元至 20,000 美元的丰田汽车)。
最后的办法是绘制两个直方图,一个包含特定 word/phrase 的车辆列表,另一个用于不包含特定 word/phrase 的车辆列表。这里的限制是我选择绘制的文字将基于我的主观意见。
是否有其他方法可以找出哪些关键字可能很重要?提前致谢。
正如您提到的,您只能使用文本正文,这表示文本对销售汽车的影响程度。
尽管该模型的预测准确度很低,但您可以提前查看特征重要性,了解推动销售的词语。
通过将 ngram_range
参数设置为 (1,2)
,在您的 tfidf 向量化器中包含短语
这可能会让您略微了解哪些短语会影响汽车的销售。
if也建议你将tfidf的norm
参数设置为None
,看看有没有影响。默认情况下,它应用 l2 范数。
不同之处在于您使用的分类模型。尝试更改模型也作为最后的选择。
我有一个数据集,其中包含约 10,000 行在类似于 Craigslist 的门户网站上销售的车辆。这些列包括价格、里程、编号。前任车主的信息、汽车售出的时间(以天为单位),以及最重要的描述车辆的文本正文(例如 "accident free, serviced regularly")。
我想知道包含哪些关键字后,汽车会更快售出。但是我知道汽车多久能卖掉还取决于其他因素,尤其是价格和里程。
运行 scikit-learn 中的 TfidfVectorizer 导致预测准确性非常差。不确定我是否应该尝试在回归模型中包括价格、里程等,因为它看起来很复杂。目前正在考虑对足够大的特定数据段重复 TF-IDF 回归(可能是定价在 10,000 美元至 20,000 美元的丰田汽车)。
最后的办法是绘制两个直方图,一个包含特定 word/phrase 的车辆列表,另一个用于不包含特定 word/phrase 的车辆列表。这里的限制是我选择绘制的文字将基于我的主观意见。
是否有其他方法可以找出哪些关键字可能很重要?提前致谢。
正如您提到的,您只能使用文本正文,这表示文本对销售汽车的影响程度。
尽管该模型的预测准确度很低,但您可以提前查看特征重要性,了解推动销售的词语。
通过将 ngram_range
参数设置为 (1,2)
,在您的 tfidf 向量化器中包含短语
这可能会让您略微了解哪些短语会影响汽车的销售。
if也建议你将tfidf的norm
参数设置为None
,看看有没有影响。默认情况下,它应用 l2 范数。
不同之处在于您使用的分类模型。尝试更改模型也作为最后的选择。