如何标记 Python 中的一组单词
How to Tokenize group of words in Python
我正在 python 开发一个应用程序,它根据上传的简历提供工作推荐。我正在尝试在进一步处理之前标记化简历。我想标记一组词。例如,Data Science 是一个关键字,当我标记化时,我将分别获得 data 和 science。如何克服这种情况。在 python 中是否有任何库进行这些提取?
如果您希望通过某些分隔符(例如 space 对简历中的所有单词进行标记化,则根据您的示例输入 "Data Science" 并输出 ["data"、"science"] 下面的函数将小写一个字符串并将其内容拆分为 space,返回一个字符串列表。
def tokenize(resume_string):
return resume_string.lower().split(" ")
看起来您要生成 n-grams(尤其是二元语法)。如果是这种情况,以下是实现此目的的一种方法:
from nltk import ngrams
resume = '... working in the data science field for years ...'
n = 2
bigrams = ngrams(resume.split(), n)
for grams in bigrams:
print grams
我正在 python 开发一个应用程序,它根据上传的简历提供工作推荐。我正在尝试在进一步处理之前标记化简历。我想标记一组词。例如,Data Science 是一个关键字,当我标记化时,我将分别获得 data 和 science。如何克服这种情况。在 python 中是否有任何库进行这些提取?
如果您希望通过某些分隔符(例如 space 对简历中的所有单词进行标记化,则根据您的示例输入 "Data Science" 并输出 ["data"、"science"] 下面的函数将小写一个字符串并将其内容拆分为 space,返回一个字符串列表。
def tokenize(resume_string):
return resume_string.lower().split(" ")
看起来您要生成 n-grams(尤其是二元语法)。如果是这种情况,以下是实现此目的的一种方法:
from nltk import ngrams
resume = '... working in the data science field for years ...'
n = 2
bigrams = ngrams(resume.split(), n)
for grams in bigrams:
print grams