使用 Regex Tokenizer 进行分词
Tokenize with Regex Tokenizer
我想用正则表达式分词器对下面的句子进行分词
MOST INTERESTED IN NUT BUTTERS
当我将分词器定义为
tokenizer = RegexpTokenizer(r'\w+')
我的输出为
['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']
我想要的输出是
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']
我希望 NUT BUTTER 成为一个元素
我不明白要使用什么正则表达式或 \w+
试试 split()
。
>>> str = 'MOST INTERESTED IN NUT BUTTERS'
>>> str.split(' ', 3) # 3 tells the number of splits it should do.
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']
如果您想使用正则表达式解决方案,您将必须制作一个包含空格的单词列表,这些空格必须作为一个单词提取,并像这样构建您的正则表达式:
word space1|word space2|word space3|...|word spaceN|\w+
对于您的示例,它变为:
NUT BUTTERS|\w+
我想用正则表达式分词器对下面的句子进行分词
MOST INTERESTED IN NUT BUTTERS
当我将分词器定义为
tokenizer = RegexpTokenizer(r'\w+')
我的输出为
['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']
我想要的输出是
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']
我希望 NUT BUTTER 成为一个元素 我不明白要使用什么正则表达式或 \w+
试试 split()
。
>>> str = 'MOST INTERESTED IN NUT BUTTERS'
>>> str.split(' ', 3) # 3 tells the number of splits it should do.
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']
如果您想使用正则表达式解决方案,您将必须制作一个包含空格的单词列表,这些空格必须作为一个单词提取,并像这样构建您的正则表达式:
word space1|word space2|word space3|...|word spaceN|\w+
对于您的示例,它变为:
NUT BUTTERS|\w+