Her*_*son 8 html javascript perl comments
我有一个HTML文件,其中可能有Javascript,PHP以及人们可能会或可能不会将其放入HTML文件中的所有这些内容.
我想从这个html文件中提取所有注释.
我可以指出这样做有两个问题:
一种语言的评论可能不是另一种语言的评论.
在Javascript中,使用//标记注释掉其余行.但是URL也包含//在其中,因此如果我只是应用替换//而不是行的其余部分,我可能会消除部分URL .
所以这不是一个小问题.
有没有什么解决方案已经可用?
有没有人这样做过?
从你的话看来,你正在考虑一些基于正则表达式的方法:在整个文件上这样做是很痛苦的,尝试使用一些工具来突出显示或丢弃有趣或无趣的文本,然后处理剩下的内容根据保留/丢弃标准筛选您的筛子。看看 HTML::Tree 和 TreeBuilder,它对于处理 HTML 标记非常有用。
| 归档时间: |
|
| 查看次数: |
411 次 |
| 最近记录: |