如何从字符串中删除不需要的词以便更好地搜索

How to remove unnecessary words from string for better search

我有不同的字符串来搜索相关数据,但由于不必要的词,检索到的结果并不好。例如,“Working of genetic algorithm”,所以“working of”在这里并不重要。我可以通过将“of”视为停用词来删除它。但是“工作”呢?我可以做词干提取,但它只会删除“ing”,这不能解决问题。类似地另一个字符串“Determination of ....”,我认为字符串中的其他词很重要,而“Determination of”不重要,所以我想在进一步处理之前删除它们。任何想法或提示我如何删除这些词,因为有很多这些类型的词,我不能对它们进行硬编码。

好吧,与其删除这些术语,不如我建议关注 ngram。使用 ngrams 你可以对搜索字符串进行不同的组合,它可以帮助你高效地找到相关信息。现在这取决于你想要组合多少组合,即双字母组合或三字母组合。为此,您可以使用 python nltk 库。