我正在编写一个小的Python脚本来清理HTML文档.其工作原理是接受的标签列表保持,然后通过HTML代码解析捣毁不在我使用正则表达式做了列表的标签,我已经能够匹配打开标签和自闭的标签但不是关闭标签.
我一直在尝试匹配结束标签的模式是</(?!a)>.这对我来说似乎合乎逻辑,为什么不工作呢?本(?!a)应匹配任何不是一个锚定标记(不是"一"是可以anything--这只是一个例子).
编辑:AGG!我想正则表达式没有显示!
<TAG\b[^>]*>(.*?)</TAG>
Run Code Online (Sandbox Code Playgroud)
匹配特定HTML标记的开始和结束对.
<([A-Z][A-Z0-9]*)\b[^>]*>(.*?)</\1>
Run Code Online (Sandbox Code Playgroud)
将匹配任何HTML标记的开始和结束对.
看到这里.
| 归档时间: |
|
| 查看次数: |
27576 次 |
| 最近记录: |