支持德语的 Lemmatizer(用于商业和研究目的)

Lemmatizer supporting german language (for commercial and research purpose)

我正在寻找一个词形还原软件:

有人知道这样的词形还原器吗?

此致,

更新:嗨,丹尼尔,首先,感谢您为 LanguageTool 提供的出色工作。

我们想将德语文本索引到 elasticsearch (ES) 中,并使用任一方法预分析文本 一个 ES 内置的德语词干分析器(请参阅 https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stemmer-tokenfilter.html) 要么 以下插件 https://github.com/jprante/elasticsearch-analysis-baseform. The latter uses your morphology file under http://www.danielnaber.de/morphologie/morphy-mapping-20110717.latin1.gz 这就是为什么我认为您可能有一些评估数据,以便了解在使用基于形态学文件而不是 ES 内置词干器的词形还原时的权衡。你可能有一些关于你的德语形态学的精确度/覆盖率的数据吗?或者与 Elasticsearch 中使用的德国词干分析器进行比较数据?

此致

LanguageTool can do that (disclaimer: I'm the maintainer of LanguageTool), it's available under LGPL and implemented in Java. You could use GermanTagger.tag(),结果可以有多个读法(因为语言往往是有歧义的),每个读法的AnalyzedToken最终都有一个引理。