MediaWiki - 在上传的文件中搜索文本

MediaWiki - Search for text in uploaded files

目标是索引上传的文件并在其中搜索文本。

当前设置:

在 wiki 页面和上传文件中使用 Elasticsearch 的搜索正在运行。但是我需要做什么才能在上传的文件(pdf、doc、...)中索引和搜索文本?

您需要一个可以提取文本的媒体处理程序;看看 MediaHandler::getEntireText. For PDF PdfHandler 做到了;我想其他常见格式也存在扩展。

我用的是mapper插件使用的这个plugin . One disadvantage of it that it is using too much space, so later in my project we migrated to use tika(.net端口版本)。