支持德语的 Lemmatizer(用于商业和研究目的)
Lemmatizer supporting german language (for commercial and research purpose)
我正在寻找一个词形还原软件:
- 支持德语
- 拥有允许将其用于商业和研究目的的许可证。 LGPL 许可证会很好。
- 最好在Java中实现。用其他编程语言实现也可以。
有人知道这样的词形还原器吗?
此致,
更新:嗨,丹尼尔,首先,感谢您为 LanguageTool 提供的出色工作。
我们想将德语文本索引到 elasticsearch (ES) 中,并使用任一方法预分析文本
一个 ES 内置的德语词干分析器(请参阅 https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stemmer-tokenfilter.html)
要么
以下插件 https://github.com/jprante/elasticsearch-analysis-baseform. The latter uses your morphology file under http://www.danielnaber.de/morphologie/morphy-mapping-20110717.latin1.gz 这就是为什么我认为您可能有一些评估数据,以便了解在使用基于形态学文件而不是 ES 内置词干器的词形还原时的权衡。你可能有一些关于你的德语形态学的精确度/覆盖率的数据吗?或者与 Elasticsearch 中使用的德国词干分析器进行比较数据?
此致
LanguageTool can do that (disclaimer: I'm the maintainer of LanguageTool), it's available under LGPL and implemented in Java. You could use GermanTagger.tag(),结果可以有多个读法(因为语言往往是有歧义的),每个读法的AnalyzedToken
最终都有一个引理。
我正在寻找一个词形还原软件:
- 支持德语
- 拥有允许将其用于商业和研究目的的许可证。 LGPL 许可证会很好。
- 最好在Java中实现。用其他编程语言实现也可以。
有人知道这样的词形还原器吗?
此致,
更新:嗨,丹尼尔,首先,感谢您为 LanguageTool 提供的出色工作。
我们想将德语文本索引到 elasticsearch (ES) 中,并使用任一方法预分析文本 一个 ES 内置的德语词干分析器(请参阅 https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stemmer-tokenfilter.html) 要么 以下插件 https://github.com/jprante/elasticsearch-analysis-baseform. The latter uses your morphology file under http://www.danielnaber.de/morphologie/morphy-mapping-20110717.latin1.gz 这就是为什么我认为您可能有一些评估数据,以便了解在使用基于形态学文件而不是 ES 内置词干器的词形还原时的权衡。你可能有一些关于你的德语形态学的精确度/覆盖率的数据吗?或者与 Elasticsearch 中使用的德国词干分析器进行比较数据?
此致
LanguageTool can do that (disclaimer: I'm the maintainer of LanguageTool), it's available under LGPL and implemented in Java. You could use GermanTagger.tag(),结果可以有多个读法(因为语言往往是有歧义的),每个读法的AnalyzedToken
最终都有一个引理。