如何将字符筛选器添加到 Azure 搜索中的 Microsoft 语言分析器?
How do I add a char filter to a Microsoft language analyzer in Azure Search?
我们想使用 azure search 提供的特定语言分析器,但添加来自 Lucene 的 html_char 过滤器。我们的想法是构建一个自定义分析器,它使用与 en.microsoft 分析器相同的组件(分词器、过滤器),但添加额外的字符过滤器。
遗憾的是,我们找不到任何关于 en.microsoft 分析器或任何其他 Microsoft 分析器的确切构成的文档。我们不知道使用哪个分词器或过滤器来获得与自定义分析器相同的结果。
任何人都可以向我们指出正确的文档吗?
文档说 en.microsoft 分析器 performs lemmatization instead of stemming 但我找不到任何声称仅使用词干化的分词器或过滤器。
要创建 Microsoft 分析器的自定义版本,请从给定语言的 Microsoft 分词器开始(我们有词干提取和 non-stemming 版本),然后将可用分词筛选器集中的分词筛选器添加到自定义输出令牌流。请注意,词干分词器也会根据语言进行词形还原。
在大多数情况下,Microsoft 语言分析器是 Microsoft 分词器加上停用词分词筛选器和小写分词筛选器,但这因语言而异。在某些情况下,我们会进行语言特定的字符规范化。
我们建议使用以上内容作为起点。然后可以使用分析 API 来测试您的配置,看看它是否为您提供了您想要的结果。
我们想使用 azure search 提供的特定语言分析器,但添加来自 Lucene 的 html_char 过滤器。我们的想法是构建一个自定义分析器,它使用与 en.microsoft 分析器相同的组件(分词器、过滤器),但添加额外的字符过滤器。
遗憾的是,我们找不到任何关于 en.microsoft 分析器或任何其他 Microsoft 分析器的确切构成的文档。我们不知道使用哪个分词器或过滤器来获得与自定义分析器相同的结果。
任何人都可以向我们指出正确的文档吗?
文档说 en.microsoft 分析器 performs lemmatization instead of stemming 但我找不到任何声称仅使用词干化的分词器或过滤器。
要创建 Microsoft 分析器的自定义版本,请从给定语言的 Microsoft 分词器开始(我们有词干提取和 non-stemming 版本),然后将可用分词筛选器集中的分词筛选器添加到自定义输出令牌流。请注意,词干分词器也会根据语言进行词形还原。
在大多数情况下,Microsoft 语言分析器是 Microsoft 分词器加上停用词分词筛选器和小写分词筛选器,但这因语言而异。在某些情况下,我们会进行语言特定的字符规范化。
我们建议使用以上内容作为起点。然后可以使用分析 API 来测试您的配置,看看它是否为您提供了您想要的结果。