打开网页并使用JavaScript解析它

Abs*_*Abs 28 javascript regex parsing webpage

我知道JavaScript可以在新窗口中打开链接,但是可以打开网页而无需在窗口中打开它或将其显示给用户吗?我想要做的是解析该网页的某些文本并将其用作变量.

没有服务器端语言的帮助,这可能吗?如果是这样,请向我发送我可以实现此目标的方向.

谢谢大家

Pau*_*xon 31

您可以使用XMLHttpRequest对象来执行此操作.这是一个简单的例子

var req = new XMLHttpRequest();  
req.open('GET', 'http://www.mydomain.com/', false);   
req.send(null);  
if(req.status == 200)  
   dump(req.responseText);
Run Code Online (Sandbox Code Playgroud)

加载后,您可以使用req.responseText成员上的javascript正则表达式执行解析/抓取.

更多详情...

在实践中,您需要做一些以跨平台方式获取XMLHttpRequest对象,例如:

var ua = navigator.userAgent.toLowerCase();
if (!window.ActiveXObject)
  req = new XMLHttpRequest();
else if (ua.indexOf('msie 5') == -1)
  req = new ActiveXObject("Msxml2.XMLHTTP");
else
  req = new ActiveXObject("Microsoft.XMLHTTP");
Run Code Online (Sandbox Code Playgroud)

或者使用图书馆......

或者,你可以节省所有麻烦,只需使用像jQueryPrototype这样的库来为你解决这个问题.

虽然同源政策可能会咬你

请注意,由于同源策略,您请求的页面必须与发出请求的页面位于同一个域中.如果要请求远程页面,则必须通过服务器端脚本对其进行代理.

另一种可能的解决方法是使用Flash来发出请求,如果目标站点使用适当配置的crossdomain.xml文件授予权限,则允许跨域请求.

这是一篇关于同源政策主题的好文章:


gue*_*est 8

无论Origin是一个开源库,它允许你使用纯粹的Javascript进行抓取.它还解决了"同域起源"问题. http://www.whateverorigin.org/

$.getJSON('http://whateverorigin.org/get?url=' + encodeURIComponent('http://google.com') + '&callback=?', function(data){
    alert(data.contents);
});
Run Code Online (Sandbox Code Playgroud)


D.S*_*nap 6

您可以尝试使用 fetch 和它的回调

fetch('https://api.codetabs.com/v1/proxy?quest=google.com').then((response) => response.text()).then((text) => console.log(text));
Run Code Online (Sandbox Code Playgroud)