Kis*_*_KP 7 html htmlunit web-scraping
我正在开展一些项目,我需要从不同的网站上删除一些信息.我正在使用HtmlUnit这个目的,但问题是我无法遍历一页上的元素.
例:
<div id="some_id">
<div>
<div>
<div>
......
many divs in between
......
<div id="my_target_div"> some information </div>
........
........
</div>
Run Code Online (Sandbox Code Playgroud)
现在如何获取 内部的divid my_target_div和信息div
使用getHtmlElementById.
检查文档.
一个例子:
@Test
public void getElements() throws Exception {
final WebClient webClient = new WebClient();
final HtmlPage page = webClient.getPage("http://some_url");
final HtmlDivision div = page.getHtmlElementById("my_target_div");
webClient.closeAllWindows();
}
Run Code Online (Sandbox Code Playgroud)