我说的是哪种人工智能?
Which kind of Artificial Intelligence am I talking about?
想象一下,您向系统提供了一堆 pdf,而且只有您自己知道 "how" 这些是相关的(例如,它们都是论文、新闻或发票)。系统知道批次已连接,但不知道它们之间的关系。
系统然后扫描这些 pdf,并为每个文档建议索引及其各自的值。
这是一个示例:您将公司收到的所有发票都提供给系统。系统处理这些文档并建议索引 "Supplier"、"Invoice Cost" 和 "Due Date"。 foreach pdf 系统也提取条目的值。
所以我的问题是:什么样的人工智能系统最适合这种场景?神经网络?组合?
如果您知道机器应该查找的关键字,并且所有文档都遵循相同的格式,则您可以通过关键字搜索来完成此操作。
但是,如果每个类别中的格式不统一,那么您需要考虑某种语言处理,以便机器能够理解正在发生的事情。
尝试对自然语言处理进行一些研究,这可能符合您的要求:
NLP Wiki
您正在寻找无监督学习算法。更具体地说,你的问题是 clustering 问题,因为你的系统对它要分析的数据一无所知,它必须提出正确的 class 文档(或其属性) ).
在您的示例中,通过使用聚类算法,您的系统可以学习区分您提供的文档并提取字段 "Invoice"、"Supplier" ...
我链接的 wiki 页面应该足以让您大致了解所需的 class 算法。在 Google 上,您会发现大量关于该主题的讲座幻灯片。
想象一下,您向系统提供了一堆 pdf,而且只有您自己知道 "how" 这些是相关的(例如,它们都是论文、新闻或发票)。系统知道批次已连接,但不知道它们之间的关系。
系统然后扫描这些 pdf,并为每个文档建议索引及其各自的值。
这是一个示例:您将公司收到的所有发票都提供给系统。系统处理这些文档并建议索引 "Supplier"、"Invoice Cost" 和 "Due Date"。 foreach pdf 系统也提取条目的值。
所以我的问题是:什么样的人工智能系统最适合这种场景?神经网络?组合?
如果您知道机器应该查找的关键字,并且所有文档都遵循相同的格式,则您可以通过关键字搜索来完成此操作。
但是,如果每个类别中的格式不统一,那么您需要考虑某种语言处理,以便机器能够理解正在发生的事情。
尝试对自然语言处理进行一些研究,这可能符合您的要求: NLP Wiki
您正在寻找无监督学习算法。更具体地说,你的问题是 clustering 问题,因为你的系统对它要分析的数据一无所知,它必须提出正确的 class 文档(或其属性) ).
在您的示例中,通过使用聚类算法,您的系统可以学习区分您提供的文档并提取字段 "Invoice"、"Supplier" ...
我链接的 wiki 页面应该足以让您大致了解所需的 class 算法。在 Google 上,您会发现大量关于该主题的讲座幻灯片。