ale*_*pfx 5 javascript web-crawler node.js jsoup
Node.js是否有任何API可从URL和静态html获取和查询html?
我喜欢做这样的事情与webscrap一起使用:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
Run Code Online (Sandbox Code Playgroud)
我看了这个问题,并看了大多数这些API,但是我没有发现(也许我无法识别)任何类似的东西。
Jsdom可能是你想要的https://github.com/tmpvar/jsdom
你可以结合 jquery 使用它来查询 dom。这是我如何在我的一个项目中使用它的示例https://github.com/gabesoft/seryth/blob/master/lib/sanitizer.js
您可能还需要request从 url https获取 html ://github.com/request/request