正则表达式删除所有内容,但 R 中字符串中的表情符号?
Regex to remove everything, but emojis from the string in R?
我有一个很大的 .xlsx 文件,其中包含带有表情符号的推文。我正在做一个个人项目,我想从提取的表情符号中制作一个网络图。例如,如果我在其中一列中有这个:
Christian✝️, Husband, Father, Former TV Meteorologist, GOP, LTC , Dolfan, since ‘75, Yanks Fan⚾️ & UCONN Alum Go Whalers!
那么我怎么才能在输出中得到这个呢?
✝️⚾️
我在 Stack Overflow 和 Internet 上到处都仔细查看了,但是我找不到任何东西。我是R的初学者
编辑
我正常读取文件时得到的是 Unicode(UTF-8 格式),但我不知道如何将这些 Unicode 转换为表情符号。网上有词典,但是只给我一些emoji的名字,很过时了。
编辑 2
有一个在 Linux 中有效的解决方案,但我正在寻找 solution/hint 以使其在 Windows 中有效。
这对我有用,需要注意的是只有十字在控制台中作为表情符号打印出来,其余的是 unicode 表示。
# install.packages("remotes")
# remotes::install_github("hadley/emo")
emojis <- "Christian✝️, Husband, Father, Former TV Meteorologist, GOP, LTC , Dolfan, since ‘75, Yanks Fan⚾️ & UCONN Alum Go Whalers!"
emojis
only_emojis <- emo::ji_extract_all(emojis)
only_emojis
# emo::ji_extract_all(emojis)
# [[1]]
# [1] "✝️" "\U0001f46b" "\U0001f468" "\U0001f469" "\U0001f466" "\U0001f466" "\U0001f4fa" "\U0001f418" "\U0001f52b" "\U0001f42c" "\u26be" "\U0001f3c0" "\U0001f40b"
# install.packages("utf8")
utf8::utf8_print(only_emojis[[1]])
# [1] "✝️" "" "" "" "" "" "" "" "" "" "⚾" "" ""
我有一个很大的 .xlsx 文件,其中包含带有表情符号的推文。我正在做一个个人项目,我想从提取的表情符号中制作一个网络图。例如,如果我在其中一列中有这个:
Christian✝️, Husband, Father, Former TV Meteorologist, GOP, LTC , Dolfan, since ‘75, Yanks Fan⚾️ & UCONN Alum Go Whalers!
那么我怎么才能在输出中得到这个呢?
✝️⚾️
我在 Stack Overflow 和 Internet 上到处都仔细查看了,但是我找不到任何东西。我是R的初学者
编辑
我正常读取文件时得到的是 Unicode(UTF-8 格式),但我不知道如何将这些 Unicode 转换为表情符号。网上有词典,但是只给我一些emoji的名字,很过时了。
编辑 2
有一个在 Linux 中有效的解决方案,但我正在寻找 solution/hint 以使其在 Windows 中有效。
这对我有用,需要注意的是只有十字在控制台中作为表情符号打印出来,其余的是 unicode 表示。
# install.packages("remotes")
# remotes::install_github("hadley/emo")
emojis <- "Christian✝️, Husband, Father, Former TV Meteorologist, GOP, LTC , Dolfan, since ‘75, Yanks Fan⚾️ & UCONN Alum Go Whalers!"
emojis
only_emojis <- emo::ji_extract_all(emojis)
only_emojis
# emo::ji_extract_all(emojis)
# [[1]]
# [1] "✝️" "\U0001f46b" "\U0001f468" "\U0001f469" "\U0001f466" "\U0001f466" "\U0001f4fa" "\U0001f418" "\U0001f52b" "\U0001f42c" "\u26be" "\U0001f3c0" "\U0001f40b"
# install.packages("utf8")
utf8::utf8_print(only_emojis[[1]])
# [1] "✝️" "" "" "" "" "" "" "" "" "" "⚾" "" ""