在HTML中查找评论

Question

我有一个HTML文件,其中可能有Javascript,PHP以及人们可能会或可能不会将其放入HTML文件中的所有这些内容.

我想从这个html文件中提取所有注释.

我可以指出这样做有两个问题:

一种语言的评论可能不是另一种语言的评论.
在Javascript中,使用//标记注释掉其余行.但是URL也包含//在其中,因此如果我只是应用替换//而不是行的其余部分,我可能会消除部分URL .

所以这不是一个小问题.

有没有什么解决方案已经可用？

有没有人这样做过？

Answer 1

从你的话看来，你正在考虑一些基于正则表达式的方法：在整个文件上这样做是很痛苦的，尝试使用一些工具来突出显示或丢弃有趣或无趣的文本，然后处理剩下的内容根据保留/丢弃标准筛选您的筛子。看看 HTML::Tree 和 TreeBuilder，它对于处理 HTML 标记非常有用。