如何标记 Python 中的一组单词

Question

我正在 python 开发一个应用程序，它根据上传的简历提供工作推荐。我正在尝试在进一步处理之前标记化简历。我想标记一组词。例如，Data Science 是一个关键字，当我标记化时，我将分别获得 data 和 science。如何克服这种情况。在 python 中是否有任何库进行这些提取？

Answer 1

如果您希望通过某些分隔符（例如 space 对简历中的所有单词进行标记化，则根据您的示例输入 "Data Science" 并输出 ["data"、"science"] 下面的函数将小写一个字符串并将其内容拆分为 space，返回一个字符串列表。

def tokenize(resume_string):
    return resume_string.lower().split(" ")

Answer 2

看起来您要生成 n-grams（尤其是二元语法）。如果是这种情况，以下是实现此目的的一种方法：

from nltk import ngrams
resume = '... working in the data science field for years ...'
n = 2
bigrams = ngrams(resume.split(), n)
for grams in bigrams:
  print grams

如何标记 Python 中的一组单词

How to Tokenize group of words in Python

python

nlp

tokenize