在 R 中拆分文本数据的有效方法

Efficient way to Split text data in R

我正在从事文本挖掘, 可以说我的数据集有包含在 Twitter 上发布的文本数据的列。 例如 @john 太棒了 @lita checkout 这太棒了 @Amy 很棒的应用程序

我想检查一下将它拆分给@john 这是一项了不起的工作,@lita 结帐这太棒了,@Amy 很棒的应用程序

那我想看看谁是原贴,谁是转贴。

P.S:我在 R 中安装 'sna' 包时遇到另一个问题,因为它没有显示这样的包。

你可以试试

 strsplit(str1, '(?<=[^@]) ?(?=@)', perl=TRUE)[[1]]
#[1] "@john Its a fantastic work"     "@lita checkout this is amazing"
#[3] "@Amy great App"        

数据

str1 <-  "@john Its a fantastic work@lita checkout this is amazing @Amy great App"