使用htmlunit抓取动态网页

Mar*_*Soc 9 javascript ajax web-crawler htmlunit infinite-scroll

我正在使用动态网页中的HtmlUnit抓取数据,动态网页使用无限滚动来动态获取数据,就像facebook的新闻源一样.我使用以下句子来模拟向下滚动事件:

webclient.setJavaScriptEnabled(true);
webclient.setAjaxController(new NicelyResynchronizingAjaxController());
ScriptResult sr=myHtmlPage.executeJavaScript("window.scrollBy(0,600)");
webclient.waitForBackgroundJavaScript(10000);
myHtmlPage=(HtmlPage)sr.getNewPage();
Run Code Online (Sandbox Code Playgroud)

但似乎myHtmlPage与前一个保持相同,即myHtmlPage中没有附加新数据,因此我只能抓取网页上的前几个数据.谢谢你的帮助!

Srn*_*zek 0

我正在寻找同样的东西。我只能发现它不是滚动事件(90%确定)。JS 上有一个链接负责加载页面,也许可以帮助你。