如何使用 goquery 提取自定义 html 标签的文本?
How to extract the text of a custom html tag with goquery?
我正在尝试将文本提取到自定义 html 标签 (<prelogin-cookie>
):
someHtml := `<html><body>Login Successful!</body><!-- <saml-auth-status>1</saml-auth-status><prelogin-cookie>4242424242424242</prelogin-cookie><saml-username>my-username</saml-username><saml-slo>no</saml-slo> --></html>`
query, _ := goquery.NewDocumentFromReader(strings.NewReader(someHtml))
sel:= query.Find("prelogin-cookie")
println(sel.Text())
但它没有 return 任何东西,只是一个空字符串,我怎样才能得到那个 html 标签的实际文本,又名 4242424242424242
?
找不到 <prelogin-cookie>
,因为它在 HTML 评论中。
您的评论实际上是一系列XML或HTML标签,如果您将其用作输入文档,可能会被处理为HTML。
警告。只有下面的第一个解决方案可以正确处理 "all" HTML 文档。其他解决方案更简单,也能很好地处理您的情况,但它们可能无法处理某些边缘情况。决定它们是否值得您使用。
1。通过搜索 HTML 节点树
查找和提取评论的一种方法是遍历 HTML 节点树并查找类型为 html.CommentNode
.
的节点
为此,我们将使用递归辅助函数来遍历节点树:
func findComment(n *html.Node) *html.Node {
if n == nil {
return nil
}
if n.Type == html.CommentNode {
return n
}
if res := findComment(n.FirstChild); res != nil {
return res
}
if res := findComment(n.NextSibling); res != nil {
return res
}
return nil
}
并使用它:
doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml))
if err != nil {
panic(err)
}
var comment *html.Node
for _, node := range doc.Nodes {
if comment = findComment(node); comment != nil {
break
}
}
if comment == nil {
fmt.Println("no comment")
return
}
doc, err = goquery.NewDocumentFromReader(strings.NewReader(comment.Data))
if err != nil {
panic(err)
}
sel := doc.Find("prelogin-cookie")
fmt.Println(sel.Text())
这将打印(在 Go Playground 上尝试):
4242424242424242
2。随着 strings
如果你只需要处理 "document at hand",一个更简单的解决方案可能是只使用 strings
包来查找评论的开始和结束索引:
start := strings.Index(someHtml, "<!--")
if start < 0 {
panic("no comment")
}
end := strings.Index(someHtml[start:], "-->")
if end < 0 {
panic("no comment")
}
并以此作为输入:
doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml[start+4 : end]))
if err != nil {
panic(err)
}
sel := doc.Find("prelogin-cookie")
fmt.Println(sel.Text())
这将输出相同的结果。在 Go Playground).
上试试
3。使用 regexp
比之前的解决方案更简单(但效率较低)的替代方法是使用正则表达式从原始文档中获取注释:
comments := regexp.MustCompile(`<!--(.*?)-->`).FindAllString(someHtml, -1)
if len(comments) == 0 {
fmt.Println("no comment")
return
}
doc, err := goquery.NewDocumentFromReader(strings.NewReader(
comments[0][4 : len(comments[0])-3]))
在 Go Playground 上试试这个。
我正在尝试将文本提取到自定义 html 标签 (<prelogin-cookie>
):
someHtml := `<html><body>Login Successful!</body><!-- <saml-auth-status>1</saml-auth-status><prelogin-cookie>4242424242424242</prelogin-cookie><saml-username>my-username</saml-username><saml-slo>no</saml-slo> --></html>`
query, _ := goquery.NewDocumentFromReader(strings.NewReader(someHtml))
sel:= query.Find("prelogin-cookie")
println(sel.Text())
但它没有 return 任何东西,只是一个空字符串,我怎样才能得到那个 html 标签的实际文本,又名 4242424242424242
?
<prelogin-cookie>
,因为它在 HTML 评论中。
您的评论实际上是一系列XML或HTML标签,如果您将其用作输入文档,可能会被处理为HTML。
警告。只有下面的第一个解决方案可以正确处理 "all" HTML 文档。其他解决方案更简单,也能很好地处理您的情况,但它们可能无法处理某些边缘情况。决定它们是否值得您使用。
1。通过搜索 HTML 节点树
查找和提取评论的一种方法是遍历 HTML 节点树并查找类型为 html.CommentNode
.
为此,我们将使用递归辅助函数来遍历节点树:
func findComment(n *html.Node) *html.Node {
if n == nil {
return nil
}
if n.Type == html.CommentNode {
return n
}
if res := findComment(n.FirstChild); res != nil {
return res
}
if res := findComment(n.NextSibling); res != nil {
return res
}
return nil
}
并使用它:
doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml))
if err != nil {
panic(err)
}
var comment *html.Node
for _, node := range doc.Nodes {
if comment = findComment(node); comment != nil {
break
}
}
if comment == nil {
fmt.Println("no comment")
return
}
doc, err = goquery.NewDocumentFromReader(strings.NewReader(comment.Data))
if err != nil {
panic(err)
}
sel := doc.Find("prelogin-cookie")
fmt.Println(sel.Text())
这将打印(在 Go Playground 上尝试):
4242424242424242
2。随着 strings
如果你只需要处理 "document at hand",一个更简单的解决方案可能是只使用 strings
包来查找评论的开始和结束索引:
start := strings.Index(someHtml, "<!--")
if start < 0 {
panic("no comment")
}
end := strings.Index(someHtml[start:], "-->")
if end < 0 {
panic("no comment")
}
并以此作为输入:
doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml[start+4 : end]))
if err != nil {
panic(err)
}
sel := doc.Find("prelogin-cookie")
fmt.Println(sel.Text())
这将输出相同的结果。在 Go Playground).
上试试3。使用 regexp
比之前的解决方案更简单(但效率较低)的替代方法是使用正则表达式从原始文档中获取注释:
comments := regexp.MustCompile(`<!--(.*?)-->`).FindAllString(someHtml, -1)
if len(comments) == 0 {
fmt.Println("no comment")
return
}
doc, err := goquery.NewDocumentFromReader(strings.NewReader(
comments[0][4 : len(comments[0])-3]))
在 Go Playground 上试试这个。