如何从 R 中的文本中删除“â”?
How to remove "ÂÂ" from scraped in text in R?
在我抓取一些文字后,“Ô将添加在文字中的某些单词和数字之后。为了删除不需要的“â”,我做了几个 gsub。
text <- gsub("Ã", " ", text)
text <- gsub("Â", " ", text)
text <- gsub(",", "", text)
text <- gsub(" ", " ", text)
这适用于删除特殊字符 A,但不会删除逗号。
gsubs 之前的文本是什么样的。
ALBANY OFF REBOUND BY #43 STIRE #43 STIRE is not commented out
gsubs 后的文本是什么样的。
ALBANY ‚ OFF ‚ REBOUND BY #43 ‚ STIRE #43 ‚ STIRE is not commented out
我希望文本看起来像什么:
ALBANY OFF REBOUND BY #43 STIRE #43 STIRE is not commented out
如有任何帮助,我们将不胜感激。如果需要任何进一步的信息,请告诉我。
你可以使用 library(stringr)
text <- "ALBANYÃ, OFFÃ, REBOUND BY"
library(stringr)
str_replace_all(text, "Ã,Â", "")
#> [1] "ALBANY OFF REBOUND BY"
或 gsub
:
gsub("Ã,Â","",text)
#> [1] "ALBANY OFF REBOUND BY"
不过,我认为这首先是编码问题。
此外,gsub
或 str_replace_all
的结果可能因编码而异,这可能是您的 text <- gsub(",", "", text)
不起作用的原因。
您可以使用 Encoding
检查编码。
在我抓取一些文字后,“Ô将添加在文字中的某些单词和数字之后。为了删除不需要的“â”,我做了几个 gsub。
text <- gsub("Ã", " ", text)
text <- gsub("Â", " ", text)
text <- gsub(",", "", text)
text <- gsub(" ", " ", text)
这适用于删除特殊字符 A,但不会删除逗号。
gsubs 之前的文本是什么样的。
ALBANY OFF REBOUND BY #43 STIRE #43 STIRE is not commented out
gsubs 后的文本是什么样的。
ALBANY ‚ OFF ‚ REBOUND BY #43 ‚ STIRE #43 ‚ STIRE is not commented out
我希望文本看起来像什么:
ALBANY OFF REBOUND BY #43 STIRE #43 STIRE is not commented out
如有任何帮助,我们将不胜感激。如果需要任何进一步的信息,请告诉我。
你可以使用 library(stringr)
text <- "ALBANYÃ, OFFÃ, REBOUND BY"
library(stringr)
str_replace_all(text, "Ã,Â", "")
#> [1] "ALBANY OFF REBOUND BY"
或 gsub
:
gsub("Ã,Â","",text)
#> [1] "ALBANY OFF REBOUND BY"
不过,我认为这首先是编码问题。
此外,gsub
或 str_replace_all
的结果可能因编码而异,这可能是您的 text <- gsub(",", "", text)
不起作用的原因。
您可以使用 Encoding
检查编码。