我正在使用Jsoup来提取网页的URL.在href这些URL的属性是相对的,如:
<a href="/text">example</a>
Run Code Online (Sandbox Code Playgroud)
这是我的尝试:
Document document = Jsoup.connect(url).get();
Elements results = document.select("div.results");
Elements dls = results.select("dl");
for (Element dl : dls) {
String url = dl.select("a").attr("href");
}
Run Code Online (Sandbox Code Playgroud)
这工作正常,但如果我使用
String url = dl.select("a").attr("abs:href");
Run Code Online (Sandbox Code Playgroud)
获得绝对URL http://example.com/text,它不起作用.我如何获得绝对URL?
Bal*_*usC 16
你需要Element#absUrl().
String url = dl.select("a").absUrl("href");
Run Code Online (Sandbox Code Playgroud)
你可以顺便缩短选择:
Document document = Jsoup.connect(url).get();
Elements links = document.select("div.results dl a");
for (Element link : links) {
String url = link.absUrl("href");
}
Run Code Online (Sandbox Code Playgroud)
小智 8
String url = dl.select("a").absUrl("href");
不正确,因为dl.select("a")不会返回单个项目而是返回集合.您需要按索引获取元素
例如:
Elements elems = dl.select("a");
Element a1 = elems.get(0); //0 is the index first element increasing to (elems.size()-1)
now you can do
a1.absUrl("href");
Run Code Online (Sandbox Code Playgroud)
如果您确定上面的选择只会产生一个项目,或者您想要的项目是第一项,您可以:
String url = dl.select("a").get(0).absUrl("href");
Run Code Online (Sandbox Code Playgroud)
哪个也一样
String url = dl.select("a").first().absUrl("href");
Run Code Online (Sandbox Code Playgroud)
它不一定是第一个元素,你总是可以String url = dl.select("a").get(0).absUrl("href");用元素的索引替换0 in
.或者使用更具体的选择,只会产生一个元素.