命名实体识别——我们需要一个外部列表来匹配结果吗?
Named Entity Recognition - Do we need an external list to match results?
我不是机器学习方面的专家,所以我会尽量准确...
我目前正在分析提供特定基金信息的财务文件。我想做的是能够提取基金名称。
为此,我在 Azure 机器学习平台中使用命名实体识别 (NER)。经过大约分析。 100 个文件,我得到分类为组织的结果。在大多数情况下,它们实际上是组织。这很好,但我的问题是基金名称也被归类为组织。我分不清公司名和基金名
从互联网上的一些阅读中,我发现公报系统可以帮助我们将认可的组织与基金列表进行匹配,从而确保我们有一个基金名称。
您认为这是一个好方法吗?或者我应该尝试改进结果的其他算法吗?
感谢任何建议!
NER 起源于识别识别广泛语义类别的文本,例如您案例中的人名或组织(公司)名称。阅读问题描述,我认为这不是您真正想要解决的问题。具体你提到:
that Gazette system could help so that we can match the recognized organizations against a list of funds
我怀疑您真正想要解决的问题是语义互操作性问题 - 您希望 NLP 程序中的文本与您拥有的属于另一个系统的列表相匹配。在这种情况下,您要解决问题的唯一可接受的方法是将所有输入文本映射到 list/common 标准——即)使用地名词典。所以你在正确的道路上。
唯一需要注意的是,如果您仅需要区分基金和其他类型的组织 - 而无需将结果与列表进行匹配。如果是这种情况,您可以编写一个分类器来区分资金和其他所有内容,并且可以避免完全映射到您的列表。否则使用地名词典。
我不是机器学习方面的专家,所以我会尽量准确...
我目前正在分析提供特定基金信息的财务文件。我想做的是能够提取基金名称。
为此,我在 Azure 机器学习平台中使用命名实体识别 (NER)。经过大约分析。 100 个文件,我得到分类为组织的结果。在大多数情况下,它们实际上是组织。这很好,但我的问题是基金名称也被归类为组织。我分不清公司名和基金名
从互联网上的一些阅读中,我发现公报系统可以帮助我们将认可的组织与基金列表进行匹配,从而确保我们有一个基金名称。
您认为这是一个好方法吗?或者我应该尝试改进结果的其他算法吗?
感谢任何建议!
NER 起源于识别识别广泛语义类别的文本,例如您案例中的人名或组织(公司)名称。阅读问题描述,我认为这不是您真正想要解决的问题。具体你提到:
that Gazette system could help so that we can match the recognized organizations against a list of funds
我怀疑您真正想要解决的问题是语义互操作性问题 - 您希望 NLP 程序中的文本与您拥有的属于另一个系统的列表相匹配。在这种情况下,您要解决问题的唯一可接受的方法是将所有输入文本映射到 list/common 标准——即)使用地名词典。所以你在正确的道路上。
唯一需要注意的是,如果您仅需要区分基金和其他类型的组织 - 而无需将结果与列表进行匹配。如果是这种情况,您可以编写一个分类器来区分资金和其他所有内容,并且可以避免完全映射到您的列表。否则使用地名词典。