在 python 的文本中查找符合特定条件的词
Finding words with specific criteria in a text in python
我有一个文本,想找到例如
- 所有动物
- 所有最高级
有"simple"方法吗?
我对 NLP 完全陌生。
我什至不确定这是否是一个 NLP 问题。
或者这听起来很简单实际上很复杂?
如果您对这个问题有 adding/removing 个标签的提示,欢迎所有反馈。
是的,有很多方法可以做到。但我更喜欢使用 Spacy。你必须训练你自己的 Spacy 模型来实现这个 Spacy 有很好的文档说明如何做到这一点。这里是 link 到 Spacy
你不需要任何复杂的东西来做到这一点。它可以通过简单的字符串匹配来实现,但有一些注意事项:
动物 - 只需创建一个您想要识别的动物列表。您可能可以在网络、维基百科或类似网站上找到动物列表。复杂的是,您可能需要 trim 一个复数标记(horse/horses — 我在这里假设是英语)。您可以简单地查找列表中的每个单词,如果它不在列表中并且以 -s 结尾,请再次查看最后的 s trim停药。不规则复数存在(ox/oxen),但很少见。
最高级 - 您可以再次创建列表。最高级形式通常以 -est 结尾,所以只要得到一个英文单词列表,扔掉所有不以 -est 结尾的,然后仔细检查剩余的词,去除误报,如 nest 等。也会有一些不规则的。 most beautiful 等组合的要怎么处理?在这种情况下,您可以检查 most 后跟一个形容词。
对于最高级,还有第二个更复杂的选项,那就是使用词性标注器。标记您的文本,然后获取所有已标记为最高级形容词的单词。在大多数英语标签集中,它将是 JJS。但就准确性而言,标注器不一定比词表好,所以这取决于你愿意花多少精力在上面。
你举了这些例子。对于许多其他类别的单词,有类似的方法可以相当容易地提取它们,而不需要复杂的机器学习系统。但请不要忘记,创建列表可能是一种技术含量低的解决方案,它可能是最快捷、最简单且准确性最高的。
我有一个文本,想找到例如
- 所有动物
- 所有最高级
有"simple"方法吗?
我对 NLP 完全陌生。 我什至不确定这是否是一个 NLP 问题。 或者这听起来很简单实际上很复杂?
如果您对这个问题有 adding/removing 个标签的提示,欢迎所有反馈。
是的,有很多方法可以做到。但我更喜欢使用 Spacy。你必须训练你自己的 Spacy 模型来实现这个 Spacy 有很好的文档说明如何做到这一点。这里是 link 到 Spacy
你不需要任何复杂的东西来做到这一点。它可以通过简单的字符串匹配来实现,但有一些注意事项:
动物 - 只需创建一个您想要识别的动物列表。您可能可以在网络、维基百科或类似网站上找到动物列表。复杂的是,您可能需要 trim 一个复数标记(horse/horses — 我在这里假设是英语)。您可以简单地查找列表中的每个单词,如果它不在列表中并且以 -s 结尾,请再次查看最后的 s trim停药。不规则复数存在(ox/oxen),但很少见。
最高级 - 您可以再次创建列表。最高级形式通常以 -est 结尾,所以只要得到一个英文单词列表,扔掉所有不以 -est 结尾的,然后仔细检查剩余的词,去除误报,如 nest 等。也会有一些不规则的。 most beautiful 等组合的要怎么处理?在这种情况下,您可以检查 most 后跟一个形容词。
对于最高级,还有第二个更复杂的选项,那就是使用词性标注器。标记您的文本,然后获取所有已标记为最高级形容词的单词。在大多数英语标签集中,它将是 JJS。但就准确性而言,标注器不一定比词表好,所以这取决于你愿意花多少精力在上面。
你举了这些例子。对于许多其他类别的单词,有类似的方法可以相当容易地提取它们,而不需要复杂的机器学习系统。但请不要忘记,创建列表可能是一种技术含量低的解决方案,它可能是最快捷、最简单且准确性最高的。