Abs*_*Abs 28 javascript regex parsing webpage
我知道JavaScript可以在新窗口中打开链接,但是可以打开网页而无需在窗口中打开它或将其显示给用户吗?我想要做的是解析该网页的某些文本并将其用作变量.
没有服务器端语言的帮助,这可能吗?如果是这样,请向我发送我可以实现此目标的方向.
谢谢大家
Pau*_*xon 31
您可以使用XMLHttpRequest对象来执行此操作.这是一个简单的例子
var req = new XMLHttpRequest();
req.open('GET', 'http://www.mydomain.com/', false);
req.send(null);
if(req.status == 200)
dump(req.responseText);
Run Code Online (Sandbox Code Playgroud)
加载后,您可以使用req.responseText成员上的javascript正则表达式执行解析/抓取.
在实践中,您需要做一些以跨平台方式获取XMLHttpRequest对象,例如:
var ua = navigator.userAgent.toLowerCase();
if (!window.ActiveXObject)
req = new XMLHttpRequest();
else if (ua.indexOf('msie 5') == -1)
req = new ActiveXObject("Msxml2.XMLHTTP");
else
req = new ActiveXObject("Microsoft.XMLHTTP");
Run Code Online (Sandbox Code Playgroud)
或者,你可以节省所有麻烦,只需使用像jQuery或Prototype这样的库来为你解决这个问题.
请注意,由于同源策略,您请求的页面必须与发出请求的页面位于同一个域中.如果要请求远程页面,则必须通过服务器端脚本对其进行代理.
另一种可能的解决方法是使用Flash来发出请求,如果目标站点使用适当配置的crossdomain.xml文件授予权限,则允许跨域请求.
这是一篇关于同源政策主题的好文章:
无论Origin是一个开源库,它允许你使用纯粹的Javascript进行抓取.它还解决了"同域起源"问题. http://www.whateverorigin.org/
$.getJSON('http://whateverorigin.org/get?url=' + encodeURIComponent('http://google.com') + '&callback=?', function(data){
alert(data.contents);
});
Run Code Online (Sandbox Code Playgroud)
您可以尝试使用 fetch 和它的回调
fetch('https://api.codetabs.com/v1/proxy?quest=google.com').then((response) => response.text()).then((text) => console.log(text));
Run Code Online (Sandbox Code Playgroud)