在 non-indexed document/string 中查找索引词

find indexed terms in non-indexed document/string

lucene

抱歉，如果我在这里使用了错误的术语，我是 Lucene 的新手 :D

假设我已经在 Lucene 中索引了英文维基百科的所有标题。

假设我正在访问一个新闻网站。在文章中，我想将所有短语（与维基百科中的标题匹配）转换为 link 到维基百科页面。

澄清一下：我不想将新闻文章放入 Lucene 索引中，而是使用索引的 WP 标题在给定字符串中查找匹配项（文章).我们也不想打扰 JS/HTML 的东西，现在只关注 Lucene。

我也喜欢匹配贪婪：即如果文本包含[=36=]，我想link到SO，而不是到 "Stack" 和 "Overflow"。但如果我也能得到更短的比赛，那也很好。（我有点想两者都做，但如果两者都有困难，我会满足于其中之一）。

天真的解决方案：我可以看到我可以迭代查询单个单词，每当我找到一个索引时，尝试找到当前单词加上下一个单词直到我想念。然后将最后一个匹配项转换为 link 并在此之后继续，直到我完成整个文档。

但是，这看起来真的很尴尬，我怀疑 Lucene 可能有一些功能可以在这里支持我（或者至少我希望如此 :D），但我不知道我要找什么. Lucene 的倒排索引应该使这个操作非常快，所以我想这可能会表现得相当好，即使使用天真的方法。

有什么指点吗？我卡住了 :3

有这么一个东西，它叫Tagger Handler:

Given a dictionary (a Solr index) with a name-like field, you can post text to this request handler and it will return every occurrence of one of those names with offsets and other document metadata desired. It’s used for named entity recognition (NER).

设置起来似乎有点繁琐，但这正是我想要的:D

在 non-indexed document/string 中查找索引词

find indexed terms in non-indexed document/string

lucene