使用 'XML' 包中的 htmlParse() 时防止添加第一行

Prevent adding first line when using htmlParse() from 'XML' package

我在 XHTML 文档上执行 htmlParse() 时遇到问题。

当它作为 'externalptr' 加载到 R 中时,我可以看到在文件顶部添加了一行:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">

我不想让这一行出现,因为它破坏了我的应用程序。我想在 htmlParse() 函数中删除它,而不必为我拥有的每个 XHTML 手动删除这一行。

有什么建议吗?我已经尝试更改传递给函数的一些参数 htmlParse() 但是此时,在尝试之后,我还没有找到它。

如果有帮助,这里是我解析的 XHTML 的第一行:

<?xml version="1.0" encoding="utf-8" ?>
<html dir="ltr" xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops" xml:lang="es">
<head>
<meta charset="utf-8" />

我尝试使用 xmlRoot(),然后使用 saveXML() 保存,包括作为参数的前缀 <?xml version="1.0" encoding="utf-8" ?>

还有一个编码问题,但那是另一回事了。在 Windows 没用,在 Ubuntu 终于用了。

谢谢大家