Gensim 关键字,如何加载德语模型?
Gensim Keywords, how to load a german model?
我正在尝试开始使用 gensim 库。我的目标很简单。我想在德语文本中使用 gensim 提供的关键字提取。不幸的是,我失败了。
Gensim 内置了关键字提取功能,它是基于 TextRank 构建的。虽然结果在英文文本上看起来不错,但似乎不适用于德语。我通过 pypi 简单地安装了 gensim 并开箱即用。那么这样的人工智能产品通常是由模型驱动的。我的猜测是 gensim 带有英文模型。 github page.
上提供了德语的 word2vec 模型
但是我被卡住了,我找不到提供我正在寻找的 keywords function 的 gensim 的摘要模块如何与外部模型一起工作的方法。
所以基本问题是,我如何加载德语模型并从德语文本中获取关键字?
谢谢
gensim
文档或 original TextRank paper(自 2004 年起)中没有任何内容表明该算法需要 Word2Vec 模型作为输入。 (Word2Vec 于 2013 年左右首次发布。)它只需要单词标记。
在 gensim
随附的教程笔记本中查看其使用示例:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/summarization_tutorial.ipynb
考虑到复合词的重要性不同,我不确定相同的算法是否也适用于德语文本。 (在我看来,TextRank 对于英语也不是很令人印象深刻。)您必须检查文献以查看它是否仍然提供受人尊敬的结果。 (也许某种额外的 stemming/intraword-tokenizing/canonicalization 会有所帮助。)
我正在尝试开始使用 gensim 库。我的目标很简单。我想在德语文本中使用 gensim 提供的关键字提取。不幸的是,我失败了。
Gensim 内置了关键字提取功能,它是基于 TextRank 构建的。虽然结果在英文文本上看起来不错,但似乎不适用于德语。我通过 pypi 简单地安装了 gensim 并开箱即用。那么这样的人工智能产品通常是由模型驱动的。我的猜测是 gensim 带有英文模型。 github page.
上提供了德语的 word2vec 模型但是我被卡住了,我找不到提供我正在寻找的 keywords function 的 gensim 的摘要模块如何与外部模型一起工作的方法。
所以基本问题是,我如何加载德语模型并从德语文本中获取关键字?
谢谢
gensim
文档或 original TextRank paper(自 2004 年起)中没有任何内容表明该算法需要 Word2Vec 模型作为输入。 (Word2Vec 于 2013 年左右首次发布。)它只需要单词标记。
在 gensim
随附的教程笔记本中查看其使用示例:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/summarization_tutorial.ipynb
考虑到复合词的重要性不同,我不确定相同的算法是否也适用于德语文本。 (在我看来,TextRank 对于英语也不是很令人印象深刻。)您必须检查文献以查看它是否仍然提供受人尊敬的结果。 (也许某种额外的 stemming/intraword-tokenizing/canonicalization 会有所帮助。)