如何解析网页并提取所有href链接？

Question

如何解析网页并提取所有href链接？

我想在Groovy中解析一个网页,并用它提取所有href链接和相关文本.

如果页面包含以下链接:

<a href="http://www.google.com">Google</a><br />
<a href="http://www.apple.com">Apple</a>

Run Code Online (Sandbox Code Playgroud)

输出将是:

Google, http://www.google.com<br />
Apple, http://www.apple.com

Run Code Online (Sandbox Code Playgroud)

我正在寻找一个Groovy的答案.AKA.简单的方法!

Answer 1

Joh*_*ugh 17

假设结构良好的XHTML,啜饮xml,收集所有标签,找到'a'标签,并打印出href和文本.

input = """<html><body>
<a href = "http://www.hjsoft.com/">John</a>
<a href = "http://www.google.com/">Google</a>
<a href = "http://www.stackoverflow.com/">StackOverflow</a>
</body></html>"""

doc = new XmlSlurper().parseText(input)
doc.depthFirst().collect { it }.findAll { it.name() == "a" }.each {
    println "${it.text()}, ${it.@href.text()}"
}

Run Code Online (Sandbox Code Playgroud)

归档时间：	17 年，4 月前
查看次数：	15580 次
最近记录：	9 年，8 月前