如何从 R 中的文本中删除“â”?

How to remove "ÂÂ" from scraped in text in R?

在我抓取一些文字后,“Ô将添加在文字中的某些单词和数字之后。为了删除不需要的“â”,我做了几个 gsub。

text <- gsub("Ã", " ", text)
text <- gsub("Â", " ", text)
text <- gsub(",", "", text)
text <- gsub("  ", " ", text)

这适用于删除特殊字符 A,但不会删除逗号。

gsubs 之前的文本是什么样的。

 ALBANY OFF REBOUND BY  #43 STIRE       #43 STIRE is not commented out

gsubs 后的文本是什么样的。

 ALBANY ‚  OFF ‚  REBOUND BY #43 ‚  STIRE        #43 ‚  STIRE is not commented out

我希望文本看起来像什么:

 ALBANY OFF REBOUND BY #43 STIRE                 #43 STIRE is not commented out

如有任何帮助,我们将不胜感激。如果需要任何进一步的信息,请告诉我。

你可以使用 library(stringr)

text <- "ALBANYÃ, OFFÃ, REBOUND BY"

library(stringr)
str_replace_all(text, "Ã,Â", "")
#> [1] "ALBANY OFF REBOUND BY"

gsub :

gsub("Ã,Â","",text)
#> [1] "ALBANY OFF REBOUND BY"

不过,我认为这首先是编码问题。 此外,gsubstr_replace_all 的结果可能因编码而异,这可能是您的 text <- gsub(",", "", text) 不起作用的原因。

您可以使用 Encoding 检查编码。