我在使用名人推文创建的 wordcloud 中看到 'fffd'

Question

我试图了解一些名人的话题。我建立了一个推特 API 连接，并从他们经过验证的句柄中获得了一些个性的推文。

我按照以下方式处理了推文 -

用空白替换图形字符
AmitText=str_replace_all(tweets.df$text,"[^[:graph:]]", " ")
已将所有字符转换为小写
删除了推文开头和结尾的标点符号、超链接、制表符、关键字"rt"和空格
创建语料库，删除停用词并创建词云
AmitText.corpus <- Corpus(VectorSource(AmitText))
AmitText.corpus <- tm_map(AmitText.corpus, removeWords, stopwords("en"))
wordcloud(AmitText.corpus,min.freq = 2, scale=c(7,0.5),colors=brewer.pal(8, "Dark2"),random.color= FALSE, random.order = FALSE, max.words = 150)

这创建了一个不错的词云，但问题是，我在词云的中间得到了一个很大的 'fffd'，这表明这是名人在推特上发布最多的词。事实上，这就是我看到的所有 7 位名人的模式。虽然我确信这不可能，但我也检查了他们的原始推文，并在他们的推文中没有发现 fffd 这样的词。据我了解，这是一些无法正确读取的图形字符。我不确定是什么原因，google 没有太大帮助

Answer 1

让我们在数据预处理的开始尝试一下。

iconv(tweet$text, from="UTF-8", to="ASCII", sub="")

希望对您有所帮助！

如果它解决了您的问题，请不要忘记告诉我们:)

Answer 2

它们不是垃圾字符。它们旨在告诉您和您的用户由于处理不当，某处数据丢失 16=]他们的文本。

"Please pay �1000" 和 "Please pay 1000" 之间有很大的区别，因为原来是 "Please pay ₹1000"——或者是 "Please pay ₿1000"？删除 � 不是理想的解决方案。

某些程序在某处读取文本文件或流时使用的字符编码与编写或发送时使用的字符编码不同。就那么简单。希望你能在上游修复它。

我在使用名人推文创建的 wordcloud 中看到 'fffd'

I see 'fffd' in my wordcloud created using tweets of celebrities

r

character-encoding

text-mining