我需要解析(服务器端)大量的HTML页面.
我们都同意regexp不是这里的方式.
在我看来,javascript是解析HTML页面的本地方式,但该假设依赖于具有javascript在浏览器中具有的所有DOM能力的服务器端代码.
Node.js内置了这种能力吗?
有没有更好的方法解决这个问题,解析服务器端的HTML?
如果我运行以下代码,则删除body和head标签.
<iframe src='blank.htm'>
<html>
<head>
<style type="text/css">
</style>
</head>
<body>
test
</body>
</html>
</iframe>
<script>
$('iframe').load(function () {
var contents = $('iframe').text();
$('iframe').contents().find('html').html(contents);
});
</script>
Run Code Online (Sandbox Code Playgroud)
如果我然后删除样式标记,一切都会正确显示.为什么这样,我怎么能让它停止去除头部和身体标签?我希望内容按原样填充,无需任何操作.