非结构化数据的数据挖掘如何实现?
data mining with unstructured data how to implement?
我有非结构化数据(应用程序截图)和半结构化数据(屏幕转储文件),我选择将其存储在hbase中。我的目标是找到应用程序的缺陷或问题(意味着完整的数据)。现在,我想对这些应用数据挖掘,这是一种文本挖掘吗?以及如何对这些数据应用一些数据挖掘技术?
- 首先,您可以使用基于规则的方法来定义检测缺陷场景的规则集。
- 然后您可以准备训练数据集,其中包含许多缺陷、非缺陷场景实例。在此步骤中,对于您收集的每个屏幕截图或屏幕转储文件;您可以手动将其标记为缺陷或非缺陷。
- 然后你可以使用这个训练数据训练分类器。分类器将尝试概括训练样本以预测过去未见过的样本的输出标签。
- 由于您的输入是非标准的,您可能需要进行一些预处理才能将输入转换为标准格式。例如,要处理屏幕截图,您可能需要一些图像处理、OCR、计算机视觉库。
我有非结构化数据(应用程序截图)和半结构化数据(屏幕转储文件),我选择将其存储在hbase中。我的目标是找到应用程序的缺陷或问题(意味着完整的数据)。现在,我想对这些应用数据挖掘,这是一种文本挖掘吗?以及如何对这些数据应用一些数据挖掘技术?
- 首先,您可以使用基于规则的方法来定义检测缺陷场景的规则集。
- 然后您可以准备训练数据集,其中包含许多缺陷、非缺陷场景实例。在此步骤中,对于您收集的每个屏幕截图或屏幕转储文件;您可以手动将其标记为缺陷或非缺陷。
- 然后你可以使用这个训练数据训练分类器。分类器将尝试概括训练样本以预测过去未见过的样本的输出标签。
- 由于您的输入是非标准的,您可能需要进行一些预处理才能将输入转换为标准格式。例如,要处理屏幕截图,您可能需要一些图像处理、OCR、计算机视觉库。