解析从JTidy返回的DOM以查找特定的HTML元素

Question

解析从JTidy返回的DOM以查找特定的HTML元素

Jam*_*ack 3 groovy dom jtidy html-parsing

我一直在玩这段代码,我不确定我做错了什么.

我得到一个url,用JTidy清理它,因为它格式不正确,然后我需要找到一个特定的隐藏输入字段(input type="hidden" name="mytarget" value="313"),所以我知道name属性中的值.

我把它打印出整个html页面,当它清理它时,我就可以将我正在寻找的内容与文档中的内容进行比较.

我的问题是试图确定找到这个的最佳方式,关于我的位置System.out << it.

    def http = new HTTPBuilder( url )
    http.request(GET,TEXT) { req ->
        response.success = { resp, reader ->
            assert resp.status == 200
            def tidy = new Tidy()
            def node = tidy.parse(reader, System.out)
            def doc = tidy.parseDOM(reader, null).documentElement
            def nodes = node.last.last
            nodes.each{System.out << it}
        }
        response.failure = { resp -> println resp.statusLine }
    }

Run Code Online (Sandbox Code Playgroud)

Answer 1

Phu*_*ong 5

你有没有试过看看JSoup而不是JTidy？我不确定它处理格式错误的HTML内容有多好,但我已经成功地使用它来解析HTML页面并使用JQuery样式选择器找到我需要的元素.这比手动遍历DOM要容易得多,除非您知道DOM的确切布局.

@Grab(group='org.codehaus.groovy.modules.http-builder', module='http-builder', version='0.5.2')
@Grab(group='org.jsoup', module='jsoup', version='1.6.1')

import groovyx.net.http.HTTPBuilder
import static groovyx.net.http.Method.GET
import static groovyx.net.http.ContentType.TEXT
import org.jsoup.Jsoup

def url = 'http://stackoverflow.com/questions/9572891/parsing-dom-returned-from-jtidy-to-find-a-particular-html-element'

new HTTPBuilder(url).request(GET, TEXT) { req ->
    response.success = { resp, reader ->
        assert resp.status == 200
        def doc = Jsoup.parse(reader.text)
        def els = doc.select('input[type=hidden]')
        els.each {
            println it.attr('name') + '=' + it.attr('value')
        }
    }
    response.failure = { resp -> println resp.statusLine }
}

Run Code Online (Sandbox Code Playgroud)

归档时间：	13 年，11 月前
查看次数：	1164 次
最近记录：	13 年，11 月前