如何从servlet获取给定URL的源代码？

Question

我想从我的servlet中读取给定URL的源代码(HTML标记).

例如,URL是http://www.google.com,我的servlet需要阅读HTML源代码.为什么我需要这个,我的Web应用程序将阅读其他网页并获取有用的内容并使用它做一些事情.

可以说,我的应用程序显示了一个城市中一个类别的商店列表.如何生成该列表,我的Web应用程序(servlet)通过给定的网页显示各种商店和阅读内容.使用源代码,我的servlet过滤源并获取有用的详细信息.最后创建列表(因为我的servlet无法访问给定URL的Web应用程序数据库).

知道任何解决方案吗？(特别是我需要在servlet中执行此操作)如果您认为还有另一种从其他站点获取详细信息的最佳方法,请告诉我.

谢谢

Answer 1

您不需要servlet从远程服务器读取数据.您可以使用java.net.URL或java.net.URLConnection类从HTTP服务器读取远程内容.例如,

InputStream input = (InputStream) new URL("http://www.google.com").getContent();

Answer 2

看一下jsoup来获取和解析HTML.

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");