在HTML中查找评论

Her*_*son 8 html javascript perl comments

我有一个HTML文件,其中可能有Javascript,PHP以及人们可能会或可能不会将其放入HTML文件中的所有这些内容.

我想从这个html文件中提取所有注释.

我可以指出这样做有两个问题:

  1. 一种语言的评论可能不是另一种语言的评论.

  2. 在Javascript中,使用//标记注释掉其余行.但是URL也包含//在其中,因此如果我只是应用替换//而不是行的其余部分,我可能会消除部分URL .

所以这不是一个小问题.

有没有什么解决方案已经可用?

有没有人这样做过?

Dan*_*iel 0

从你的话看来,你正在考虑一些基于正则表达式的方法:在整个文件上这样做是很痛苦的,尝试使用一些工具来突出显示或丢弃有趣或无趣的文本,然后处理剩下的内容根据保留/丢弃标准筛选您的筛子。看看 HTML::Tree 和 TreeBuilder,它对于处理 HTML 标记非常有用。