如何在Java中设计Web爬虫？

Question

我正在开发一个项目,需要用Java设计一个Web爬虫,可以让用户查询特定的新闻主题,然后访问不同的新闻网站,然后从这些页面中提取新闻内容并将其存储在一些文件/数据库中.我需要这个来总结整个存储的内容.我是这个领域的新手,所以希望得到一些有经验的人的帮助.

现在我有了从单个页面中提取新闻内容的代码,该页面手动获取页面,但我不知道如何将其集成到Web爬虫中以从不同页面中提取内容.

任何人都可以提供一些很好的链接到Java的教程或实现,我可以根据我的需要使用或修改？

Answer 1

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

Answer 2

除了其他答案之外，还有一个建议是 - 确保您的抓取工具尊重robots.txt（即不会快速和不加选择地抓取网站），否则您可能会被您想要访问的网站阻止您自己/您的组织。