使用 Jsoup 解析 html 和 javascript
Parse html and javascript using Jsoup
我正在使用以下
解析包含 html 标签和 javascript 标签的 HTML 字符串
public Document parse(String content) {
return Jsoup.parse(content, "", Parser.xmlParser());
}
问题是 javascript 个元素只包含在一行中。
此外,我尝试使用
public Document parse(String content) {
return Jsoup.parse(content, "", Parser.htmlParser());
}
这对 Javascript 很好用...但是 HTML 元素已包含在没有结束标记的情况下。例如:
<link rel="shortcut icon" href="../../static/public/img/favicon.ico" data-th-remove="all"></link>
已被解析为
<link rel="shortcut icon" href="../../static/public/img/favicon.ico" data-th-remove="all">
当我 运行 我的应用程序时,这不起作用。
我该如何解决?有什么方法可以使用 JSOUP 一起解析 HTML 和 Javascript 吗?
注意:我刚刚在 JSOUP gitHub https://github.com/jhy/jsoup/issues/774
上创建了以下问题
此致,
link
元素在 HTML 中没有结束标记。它只出现在 header。有关解释,请参阅 https://developer.mozilla.org/de/docs/Web/HTML/Element/link。
因此,当您使用 Parser.htmlParser()
时,JSoup 的行为符合预期
能否详细解释一下,为什么无法处理未关闭的 link
标签?
我正在使用以下
解析包含 html 标签和 javascript 标签的 HTML 字符串public Document parse(String content) {
return Jsoup.parse(content, "", Parser.xmlParser());
}
问题是 javascript 个元素只包含在一行中。
此外,我尝试使用
public Document parse(String content) {
return Jsoup.parse(content, "", Parser.htmlParser());
}
这对 Javascript 很好用...但是 HTML 元素已包含在没有结束标记的情况下。例如:
<link rel="shortcut icon" href="../../static/public/img/favicon.ico" data-th-remove="all"></link>
已被解析为
<link rel="shortcut icon" href="../../static/public/img/favicon.ico" data-th-remove="all">
当我 运行 我的应用程序时,这不起作用。
我该如何解决?有什么方法可以使用 JSOUP 一起解析 HTML 和 Javascript 吗?
注意:我刚刚在 JSOUP gitHub https://github.com/jhy/jsoup/issues/774
上创建了以下问题此致,
link
元素在 HTML 中没有结束标记。它只出现在 header。有关解释,请参阅 https://developer.mozilla.org/de/docs/Web/HTML/Element/link。
因此,当您使用 Parser.htmlParser()
能否详细解释一下,为什么无法处理未关闭的 link
标签?