在 R 中拆分文本数据的有效方法
Efficient way to Split text data in R
我正在从事文本挖掘,
可以说我的数据集有包含在 Twitter 上发布的文本数据的列。
例如
@john 太棒了 @lita checkout 这太棒了 @Amy 很棒的应用程序
我想检查一下将它拆分给@john 这是一项了不起的工作,@lita 结帐这太棒了,@Amy 很棒的应用程序
那我想看看谁是原贴,谁是转贴。
P.S:我在 R 中安装 'sna' 包时遇到另一个问题,因为它没有显示这样的包。
你可以试试
strsplit(str1, '(?<=[^@]) ?(?=@)', perl=TRUE)[[1]]
#[1] "@john Its a fantastic work" "@lita checkout this is amazing"
#[3] "@Amy great App"
数据
str1 <- "@john Its a fantastic work@lita checkout this is amazing @Amy great App"
我正在从事文本挖掘, 可以说我的数据集有包含在 Twitter 上发布的文本数据的列。 例如 @john 太棒了 @lita checkout 这太棒了 @Amy 很棒的应用程序
我想检查一下将它拆分给@john 这是一项了不起的工作,@lita 结帐这太棒了,@Amy 很棒的应用程序
那我想看看谁是原贴,谁是转贴。
P.S:我在 R 中安装 'sna' 包时遇到另一个问题,因为它没有显示这样的包。
你可以试试
strsplit(str1, '(?<=[^@]) ?(?=@)', perl=TRUE)[[1]]
#[1] "@john Its a fantastic work" "@lita checkout this is amazing"
#[3] "@Amy great App"
数据
str1 <- "@john Its a fantastic work@lita checkout this is amazing @Amy great App"