带有注释JavaScript代码的HTML

Dan*_*osu 5 html javascript comments

我试图解析HTML代码,以提取其中的所有链接.为了避免不可用的链接,我删除以开头<!--和结尾的注释代码.-->问题出现了:在HTML代码中我可能会找到一些JavaScript代码,例如:

<html>
<HEAD>
<SCRIPT LANGUAGE="JavaScript">
<!-- Begin
if (document.images) {
  var pic2 = new Image(); // for the inactive image
  pic2.src = "pic2.jpg";
  var title2 = new Image();
  title2.src = "title2.jpg";
  }
...
-->
Run Code Online (Sandbox Code Playgroud)

奇怪的是,js代码已被注释但它仍然有效.因此,如果我删除该代码,结果将不会如预期的那样.我应该怎么做以确定我何时面对未使用的注释代码以及该注释代码何时起作用?

Que*_*tin 6

奇怪的是js代码被评论但它仍然有效

那些不是评论.是否允许在注释语法之后的脚本(和样式)元素中使用语法,以便在脚本和样式之前的浏览器不会将代码呈现为文本.

我应该怎么做以确定我何时面对未使用的注释代码以及该注释代码何时起作用?

根据解析规范编写一个真正的HTML解析器,然后从生成的DOM中删除任何注释节点.


作为一种肮脏(但可能很快)的解决方案,您可以忽略HTML 4.01 DTD中标记为包含CDATA的元素内的注释.