nltk.TweetTokenizer 与 nltk.word_tokenize 有何不同?
How nltk.TweetTokenizer different from nltk.word_tokenize?
我无法理解两者之间的区别。不过,我了解到 word_tokenize 使用 Penn-Treebank 进行标记化。但是 TweetTokenizer 上没有任何可用的内容。对于哪种类型的数据,我应该使用 TweetTokenizer 而不是 word_tokenize?
好吧,两个分词器的工作方式几乎相同,都是将给定的句子拆分成单词。但是您可以将 TweetTokenizer
视为 word_tokenize
的子集。 TweetTokenizer
保持主题标签完好无损,而 word_tokenize
则不然。
希望下面的例子能解开你所有的疑惑...
from nltk.tokenize import TweetTokenizer
from nltk.tokenize import word_tokenize
tt = TweetTokenizer()
tweet = "This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <-- @remy: This is waaaaayyyy too much for you!!!!!!"
print(tt.tokenize(tweet))
print(word_tokenize(tweet))
# output
# ['This', 'is', 'a', 'cooool', '#dummysmiley', ':', ':-)', ':-P', '<3', 'and', 'some', 'arrows', '<', '>', '->', '<--', '@remy', ':', 'This', 'is', 'waaaaayyyy', 'too', 'much', 'for', 'you', '!', '!', '!']
# ['This', 'is', 'a', 'cooool', '#', 'dummysmiley', ':', ':', '-', ')', ':', '-P', '<', '3', 'and', 'some', 'arrows', '<', '>', '-', '>', '<', '--', '@', 'remy', ':', 'This', 'is', 'waaaaayyyy', 'too', 'much', 'for', 'you', '!', '!', '!', '!', '!', '!']
您可以看到 word_tokenize
已将 #dummysmiley
拆分为 '#'
和 'dummysmiley'
,而 TweetTokenizer 没有拆分为 '#dummysmiley'
。 TweetTokenizer
主要用于分析推文。
您可以从此 link
中了解有关分词器的更多信息
我无法理解两者之间的区别。不过,我了解到 word_tokenize 使用 Penn-Treebank 进行标记化。但是 TweetTokenizer 上没有任何可用的内容。对于哪种类型的数据,我应该使用 TweetTokenizer 而不是 word_tokenize?
好吧,两个分词器的工作方式几乎相同,都是将给定的句子拆分成单词。但是您可以将 TweetTokenizer
视为 word_tokenize
的子集。 TweetTokenizer
保持主题标签完好无损,而 word_tokenize
则不然。
希望下面的例子能解开你所有的疑惑...
from nltk.tokenize import TweetTokenizer
from nltk.tokenize import word_tokenize
tt = TweetTokenizer()
tweet = "This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <-- @remy: This is waaaaayyyy too much for you!!!!!!"
print(tt.tokenize(tweet))
print(word_tokenize(tweet))
# output
# ['This', 'is', 'a', 'cooool', '#dummysmiley', ':', ':-)', ':-P', '<3', 'and', 'some', 'arrows', '<', '>', '->', '<--', '@remy', ':', 'This', 'is', 'waaaaayyyy', 'too', 'much', 'for', 'you', '!', '!', '!']
# ['This', 'is', 'a', 'cooool', '#', 'dummysmiley', ':', ':', '-', ')', ':', '-P', '<', '3', 'and', 'some', 'arrows', '<', '>', '-', '>', '<', '--', '@', 'remy', ':', 'This', 'is', 'waaaaayyyy', 'too', 'much', 'for', 'you', '!', '!', '!', '!', '!', '!']
您可以看到 word_tokenize
已将 #dummysmiley
拆分为 '#'
和 'dummysmiley'
,而 TweetTokenizer 没有拆分为 '#dummysmiley'
。 TweetTokenizer
主要用于分析推文。
您可以从此 link