dar*_*dow 4 java web-crawler web-scraping
我正在开发一个项目,需要用Java设计一个Web爬虫,可以让用户查询特定的新闻主题,然后访问不同的新闻网站,然后从这些页面中提取新闻内容并将其存储在一些文件/数据库中.我需要这个来总结整个存储的内容.我是这个领域的新手,所以希望得到一些有经验的人的帮助.
现在我有了从单个页面中提取新闻内容的代码,该页面手动获取页面,但我不知道如何将其集成到Web爬虫中以从不同页面中提取内容.
任何人都可以提供一些很好的链接到Java的教程或实现,我可以根据我的需要使用或修改?
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
Run Code Online (Sandbox Code Playgroud)