在 R 中拆分文本数据的有效方法

Question

我正在从事文本挖掘，可以说我的数据集有包含在 Twitter 上发布的文本数据的列。例如 @john 太棒了 @lita checkout 这太棒了 @Amy 很棒的应用程序

我想检查一下将它拆分给@john 这是一项了不起的工作，@lita 结帐这太棒了，@Amy 很棒的应用程序

那我想看看谁是原贴，谁是转贴。

P.S：我在 R 中安装 'sna' 包时遇到另一个问题，因为它没有显示这样的包。

Answer 1

你可以试试

 strsplit(str1, '(?<=[^@]) ?(?=@)', perl=TRUE)[[1]]
#[1] "@john Its a fantastic work"     "@lita checkout this is amazing"
#[3] "@Amy great App"

str1 <-  "@john Its a fantastic work@lita checkout this is amazing @Amy great App"

Efficient way to Split text data in R