使用java代码获取完整的网页

Question

使用java代码获取完整的网页

sac*_*024 4 javascript java html-parsing jsoup

我想实现一个java方法,它将URL作为输入并存储整个网页,包括css,images,js(所有相关资源)在我的磁盘上.我使用Jsoup html解析器来获取html页面.现在我想要实现的唯一选择是使用jsoup获取页面,现在解析html内容并将相对路径转换为绝对路径,然后再生成javascript,图像等的get请求并将它们保存在磁盘上.我还读到了关于html清理器,htmlunit解析器,但我认为在所有这些情况下我必须解析html内容以获取图像,CSS和JavaScript文件.

我是否正确的任何建议.或者有没有简单的方法来完成这项任务？

Answer 1

vac*_*uum 5

基本上,你可以用Jsoup做到这一点:

 Document doc = Jsoup.connect("http://rabotalux.com.ua/vacancy/4f4f800c8bc1597dc6fc7aff").get();
         Elements links = doc.select("link");
         Elements scripts = doc.select("script");
        for (Element element : links) {
              System.out.println(element.absUrl("href"));
        }
        for (Element element : scripts) {
              System.out.println(element.absUrl("src"));
        }

Run Code Online (Sandbox Code Playgroud)

等等图像和所有相关资源.

但是如果你的网站用javaScript创建了一些元素,Jsoup会跳过它,因为它无法执行javaScript

归档时间：	13 年，8 月前
查看次数：	2592 次
最近记录：	10 年，7 月前