用golang解析破坏的HTML

Question

用golang解析破坏的HTML

mim*_*ock 9 html xpath go

我需要在HTML字符串中查找元素.不幸的是,HTML几乎被破坏了(例如,关闭没有开放对的标签).

我试图在launchpad.net/xmlpath中使用XPath,但它无法解析HTML文件,所以该死的bug.

如何使用golang在破碎的HTML中找到元素？我更喜欢使用XPath,但如果我可以用它来查找具有特定id或类的标签,我也可以使用其他解决方案.

Answer 1

mim*_*ock 21

似乎net/html完成了这项工作.

这就是我现在正在做的事情:

package main

import (
    "strings"
    "golang.org/x/net/html"
    "log"
    "bytes"
    "gopkg.in/xmlpath.v2"
)

func main() {
    brokenHtml := `<!DOCTYPE html><html><body><h1 id="someid">My First Heading</h1><p>paragraph</body></html>`

    reader := strings.NewReader(brokenHtml)
    root, err := html.Parse(reader)

    if err != nil {
        log.Fatal(err)
    }

    var b bytes.Buffer
    html.Render(&b, root)
    fixedHtml := b.String()

    reader = strings.NewReader(fixedHtml)
    xmlroot, xmlerr := xmlpath.ParseHTML(reader)

    if xmlerr != nil {
        log.Fatal(xmlerr)
    }

    var xpath string
    xpath = `//h1[@id='someid']`
    path := xmlpath.MustCompile(xpath)
    if value, ok := path.String(xmlroot); ok {
        log.Println("Found:", value)
    }
}

Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年，8 月前
查看次数：	8358 次
最近记录：	9 年，8 月前