从数据框中提取表情符号

Question

我的研究兴趣是表情符号在文本中对情感分析的影响。我想从我的数据集中提取所有表情符号。到目前为止，我已经完成了以下工作：

 import re 
 from emoji import UNICODE_EMOJI


 emoji_1 = re.compile('[\u203C-\u3299\U0001F000-\U0001F644]')

 emoji_list= list(filter(emoji_1.match, df['Tweet text']))

 emo_found= ' '.join(emoji for emoji in emoji_list)

  

 def get_emoji_set(text):
     return {letter for letter in text if letter in UNICODE_EMOJI['en'] }

 c = get_emoji_set(emo_found)

  Print(c)

但它并没有提取所有图像。到目前为止，我使用上面的代码只得到了以下表情符号：

{'', '', '', '', '', '', '', ''}

然而，这些只是数据集中存在的部分表情符号。我的数据集中还有以下表情符号未出现在结果中：

, , , , , + 更多表情符号

为什么我的代码没有从我的数据集中提取所有表情符号，是否还有我在 emoji_1 中定义的表情符号？我应该使用正则表达式编译更多范围吗？

我尝试了以下答案，但 return 没有任何效果。我得到一个空列。

Answer 1

demoji 库之类的东西可能会有所帮助。

使用 Unicode Consortium 的表情符号代码存储库中的数据准确地从文本块中查找或删除表情符号。

从数据框中提取表情符号

Extracting Emojis from a dataframe

python

nlp