在 r 中使用 htmlparse 的拉丁字符问题

Question

我在尝试通过网络抓取葡萄牙语的政府网页时遇到了一些编码问题。这是我的代码：

library("RCurl")

library("XML")

html = getURL("http://sei.cade.gov.br/sei/institucional/pesquisa/documento_consulta_externa.php?u0r2HDE7WIdiBH3O1y0Dr6krqmN-VVCNjJtZWrdX1mgt3CiIC_RM90F01GwwNk20muowNXaYKrI2Ob8UQUkAoA,,")

par = htmlParse(html)

x = xpathSApply(par, "//strong", xmlValue)[1]

print(x)

[1] "NOTA TÃ‰CNICA NÂº 58/2017/CGAA6/SGA2/SG/CADE"

我已经尝试了一些方法，例如将 encoding="latin1" 和 encoding="UTF-8" 添加到 htmlParse，以及将 .encoding="latin" 和 .encoding="UTF-8" 添加到 getURL。

我的系统似乎设置在正确的位置，因为 Sys.getlocale() 给我

Sys.getlocale()
[1] "LC_COLLATE=Portuguese_Brazil.1252;LC_CTYPE=Portuguese_Brazil.1252;LC_MONETARY=Portuguese_Brazil.1252;LC_NUMERIC=C;LC_TIME=Portuguese_Brazil.1252"

我在这里没有想法，如果有任何帮助，我将不胜感激。

Answer 1

我能够使用您的代码通过添加一项来实现它。

## Your code
library("RCurl")
library("XML")
html = getURL("http://sei.cade.gov.br/sei/institucional/pesquisa/documento_consulta_externa.php?u0r2HDE7WIdiBH3O1y0Dr6krqmN-VVCNjJtZWrdX1mgt3CiIC_RM90F01GwwNk20muowNXaYKrI2Ob8UQUkAoA,,")
par = htmlParse(html)
x = xpathSApply(par, "//strong", xmlValue)[1]

## Addition
x2 = iconv(x, from="UTF-8", to="latin1")
print(x2)
"NOTA TÉCNICA Nº 58/2017/CGAA6/SGA2/SG/CADE"

在 r 中使用 htmlparse 的拉丁字符问题

Issues with latin characters using htmlparse in r

encoding

r

utf-8

iso-8859-1

html-parsing