在机器学习模型中使用文本情感作为特征?
Using Text Sentiment as feature in machine learning model?
我正在研究我的机器学习模型将具有哪些功能以及我拥有的数据。我的数据包含很多文本数据,所以我想知道如何从中提取有价值的特征。与我之前的看法相反,这通常由词袋表示或类似 word2vec 的表示组成:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)
由于本人对题目的理解有限,不明白为什么不能先分析文本得到数值。 (例如:textBlob.sentiment=https://textblob.readthedocs.io/en/dev/, google Clouds Natural Language =https://cloud.google.com/natural-language/)
这是否存在问题,或者我可以将这些值用作我的机器学习模型的特征吗?
在此先感谢您的帮助!
当然,您可以通过情感分析将文本输入的单个数字转换为您的机器学习模型中的一个特征。这种方法没有错。
问题是你想从文本数据中提取什么样的信息。因为情感分析将文本输入转换为 -1 到 1 之间的数字,该数字表示文本的正面或负面程度。例如,您可能需要客户对餐厅评论的情绪信息来衡量他们的满意度。在这种情况下,使用情感分析来预处理文本数据就可以了。
但同样,情绪分析只是给出了关于正面或负面文本的想法。您可能希望对文本数据进行聚类,而情感信息在这种情况下没有用,因为它不提供有关文本相似性的任何信息。因此,其他方法(例如 word2vec 或词袋)将用于表示这些任务中的文本数据。因为这些算法提供了单个数字的文本实例的向量表示。
总之,该方法取决于您需要从数据中提取何种信息来完成您的特定任务。
我正在研究我的机器学习模型将具有哪些功能以及我拥有的数据。我的数据包含很多文本数据,所以我想知道如何从中提取有价值的特征。与我之前的看法相反,这通常由词袋表示或类似 word2vec 的表示组成:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)
由于本人对题目的理解有限,不明白为什么不能先分析文本得到数值。 (例如:textBlob.sentiment=https://textblob.readthedocs.io/en/dev/, google Clouds Natural Language =https://cloud.google.com/natural-language/)
这是否存在问题,或者我可以将这些值用作我的机器学习模型的特征吗?
在此先感谢您的帮助!
当然,您可以通过情感分析将文本输入的单个数字转换为您的机器学习模型中的一个特征。这种方法没有错。
问题是你想从文本数据中提取什么样的信息。因为情感分析将文本输入转换为 -1 到 1 之间的数字,该数字表示文本的正面或负面程度。例如,您可能需要客户对餐厅评论的情绪信息来衡量他们的满意度。在这种情况下,使用情感分析来预处理文本数据就可以了。
但同样,情绪分析只是给出了关于正面或负面文本的想法。您可能希望对文本数据进行聚类,而情感信息在这种情况下没有用,因为它不提供有关文本相似性的任何信息。因此,其他方法(例如 word2vec 或词袋)将用于表示这些任务中的文本数据。因为这些算法提供了单个数字的文本实例的向量表示。
总之,该方法取决于您需要从数据中提取何种信息来完成您的特定任务。