机器学习:文件解析和预测 class 文件
Machine learning: file parsing and prediction class file
大家早上好,
我目前正在进行机器学习领域的一个项目,目标是对一组数据进行监督 class 化。我的数据是大量的pdf文件,每个文件都有一个特定的class,目标是将这些文件作为训练数据集,以便对新文件进行class预测。
我的问题是我不知道如何构建我的训练数据集,因为 classification 算法必须训练每个文件的内容并且在我的训练数据框中我有每个文件的 class 和相关文件的名称。如何将每个 pdf 文件的内容包含在我的训练数据框中?
预先感谢您的帮助
PDF 文件通常以文本、图像、图表或其他任何内容为特征,因此它们不能轻易转换为可提供给机器学习算法的数字向量。首先,您需要从文件中提取感兴趣的信息。
在这方面,您可能想先尝试一些可用于提取信息的库,看看会发生什么。对于Python,好的开始可以是PyPDF2. You can find a tutorial here。
如果这不能按预期工作,我的建议是尝试使用一些 OCR 工具,这些工具直接将 pdf 读取为图像以提取信息。在 pytesseract is one of the most used, but it is not the only one.
大家早上好, 我目前正在进行机器学习领域的一个项目,目标是对一组数据进行监督 class 化。我的数据是大量的pdf文件,每个文件都有一个特定的class,目标是将这些文件作为训练数据集,以便对新文件进行class预测。 我的问题是我不知道如何构建我的训练数据集,因为 classification 算法必须训练每个文件的内容并且在我的训练数据框中我有每个文件的 class 和相关文件的名称。如何将每个 pdf 文件的内容包含在我的训练数据框中? 预先感谢您的帮助
PDF 文件通常以文本、图像、图表或其他任何内容为特征,因此它们不能轻易转换为可提供给机器学习算法的数字向量。首先,您需要从文件中提取感兴趣的信息。
在这方面,您可能想先尝试一些可用于提取信息的库,看看会发生什么。对于Python,好的开始可以是PyPDF2. You can find a tutorial here。 如果这不能按预期工作,我的建议是尝试使用一些 OCR 工具,这些工具直接将 pdf 读取为图像以提取信息。在 pytesseract is one of the most used, but it is not the only one.