Solr/lucene - 名称和地址搜索
Solr/lucene - Name and Address search
我有一个包含大约 10 亿条记录的 Solr 索引。每条记录有两个字段 - 名称和地址。
对于名称字段,我使用 Beider Morse 过滤器进行语音处理。我也有(将创建)好的同义词(如 Bengaluru 和 Banglore)和停用词(如 Mr Mrs village town city 等)列表。我对我在这两个字段中使用的分词器也很满意。
我无法创建仅提供良好匹配结果的查询。有人可以给我有用的建议吗?
基本上,我想区分给定名称和地址的不匹配、可能匹配和完全匹配。尽管这是一个非常主观的话题,因为这三种类型之间的界限很窄。
由于 Solr 分数是相对的,因此完全不建议根据分数设置截止边界。如果不是这个我还能做什么?
我提出的一个相关问题,其中提到了我正在尝试做的一部分 -
一个字段包含确切的术语(即没有同义词、没有语音等),一个字段包含同义词 and/or 语音,以及任何必要的评分组合。然后根据您想要的搜索结果配置文件应用提升。
您还可以使用调试输出来确定哪些字段生成了命中 (there's multiple questions about possible ways to do that),但一种方法是使用突出显示或调试输出来了解哪个字段匹配。
我有一个包含大约 10 亿条记录的 Solr 索引。每条记录有两个字段 - 名称和地址。
对于名称字段,我使用 Beider Morse 过滤器进行语音处理。我也有(将创建)好的同义词(如 Bengaluru 和 Banglore)和停用词(如 Mr Mrs village town city 等)列表。我对我在这两个字段中使用的分词器也很满意。
我无法创建仅提供良好匹配结果的查询。有人可以给我有用的建议吗?
基本上,我想区分给定名称和地址的不匹配、可能匹配和完全匹配。尽管这是一个非常主观的话题,因为这三种类型之间的界限很窄。
由于 Solr 分数是相对的,因此完全不建议根据分数设置截止边界。如果不是这个我还能做什么?
我提出的一个相关问题,其中提到了我正在尝试做的一部分 -
一个字段包含确切的术语(即没有同义词、没有语音等),一个字段包含同义词 and/or 语音,以及任何必要的评分组合。然后根据您想要的搜索结果配置文件应用提升。
您还可以使用调试输出来确定哪些字段生成了命中 (there's multiple questions about possible ways to do that),但一种方法是使用突出显示或调试输出来了解哪个字段匹配。