MediaWiki - 在上传的文件中搜索文本
MediaWiki - Search for text in uploaded files
目标是索引上传的文件并在其中搜索文本。
当前设置:
- MediaWiki 1.27
- PostgreSQL 9.4
- 弹性搜索 1.7.5
- MW-Extension CirrusSearch 1.27
- MW-Extension Elastica(主)
在 wiki 页面和上传文件中使用 Elasticsearch 的搜索正在运行。但是我需要做什么才能在上传的文件(pdf、doc、...)中索引和搜索文本?
您需要一个可以提取文本的媒体处理程序;看看 MediaHandler::getEntireText. For PDF PdfHandler 做到了;我想其他常见格式也存在扩展。
我用的是mapper插件使用的这个plugin . One disadvantage of it that it is using too much space, so later in my project we migrated to use tika(.net端口版本)。
目标是索引上传的文件并在其中搜索文本。
当前设置:
- MediaWiki 1.27
- PostgreSQL 9.4
- 弹性搜索 1.7.5
- MW-Extension CirrusSearch 1.27
- MW-Extension Elastica(主)
在 wiki 页面和上传文件中使用 Elasticsearch 的搜索正在运行。但是我需要做什么才能在上传的文件(pdf、doc、...)中索引和搜索文本?
您需要一个可以提取文本的媒体处理程序;看看 MediaHandler::getEntireText. For PDF PdfHandler 做到了;我想其他常见格式也存在扩展。
我用的是mapper插件使用的这个plugin . One disadvantage of it that it is using too much space, so later in my project we migrated to use tika(.net端口版本)。