我需要帮助从数据框中删除空行和带有空格的行
I need help dropping empty rows and rows with empty spaces from dataframe
我正在尝试从我的数据框中删除所有空行。问题是行并非完全为空,有些行有一个 space,其他行有多个 space 和换行。
示例如下:
new_tweetsdf[[35]]
[1] " \n \n \n"
#second example
new_tweetsdf[[102]]
[1] " \n"
#third example
new_tweetsdf[[188]]
[1] " "
#fourth example
new_tweetsdf[[4671]]
[1] "\n\n"
#fourth example
new_tweetsdf[[11326]]
[1] "\n\n\n\n"
#fifth example
new_tweetsdf[[27137]]
[1] "\n\n\n\n \n"
我已经尝试了一些解决方案。首先,我尝试删除所有空行且不包含 space
new_tweetsdf <- new_tweetsdf[rowSums(new_tweetsdf==" ") | rowSums(new_tweetsdf=="") !=ncol(new_tweetsdf), ]
但我留下了包含 \n 或多行的空行。这也使得很难根据字符数删除行
我还考虑过删除所有不以字母开头的行
new<- new_tweetsdf[grep('^[a-z]',new_tweetsdf)]
然而,这删除了大约五分之一的行,从观察来看,我的数据框中似乎不太可能有那么多空 space。这可能还会删除以 space 开头但实际上有字母
的行
这是我正在使用的数据的 link:
Data
您可以使用简单的正则表达式删除所有索引。
pattern = "^[[:space:]]*$"
此模式将匹配所有仅包含 "Space, tab, vertical tab, newline, form feed and carriage return" 的行。因此我们需要反转结果,因为我们想要相反的结果。
new <- new_tweetsdf[grep(pattern, new_tweetsdf, invert = TRUE)]
我正在尝试从我的数据框中删除所有空行。问题是行并非完全为空,有些行有一个 space,其他行有多个 space 和换行。
示例如下:
new_tweetsdf[[35]]
[1] " \n \n \n"
#second example
new_tweetsdf[[102]]
[1] " \n"
#third example
new_tweetsdf[[188]]
[1] " "
#fourth example
new_tweetsdf[[4671]]
[1] "\n\n"
#fourth example
new_tweetsdf[[11326]]
[1] "\n\n\n\n"
#fifth example
new_tweetsdf[[27137]]
[1] "\n\n\n\n \n"
我已经尝试了一些解决方案。首先,我尝试删除所有空行且不包含 space
new_tweetsdf <- new_tweetsdf[rowSums(new_tweetsdf==" ") | rowSums(new_tweetsdf=="") !=ncol(new_tweetsdf), ]
但我留下了包含 \n 或多行的空行。这也使得很难根据字符数删除行
我还考虑过删除所有不以字母开头的行
new<- new_tweetsdf[grep('^[a-z]',new_tweetsdf)]
然而,这删除了大约五分之一的行,从观察来看,我的数据框中似乎不太可能有那么多空 space。这可能还会删除以 space 开头但实际上有字母
的行这是我正在使用的数据的 link: Data
您可以使用简单的正则表达式删除所有索引。
pattern = "^[[:space:]]*$"
此模式将匹配所有仅包含 "Space, tab, vertical tab, newline, form feed and carriage return" 的行。因此我们需要反转结果,因为我们想要相反的结果。
new <- new_tweetsdf[grep(pattern, new_tweetsdf, invert = TRUE)]