使用 Notepad++ 去除特定的 HTML 标签

Question

使用 Notepad++ 去除特定的 HTML 标签

Aye*_*h K 2 regex notepad++

我想听听是否有人可以帮助替换我的大型 XML 文件的 HTML 标记。

XML 文件有我自己的架构，一切都很好。但我需要删除标签<sspan>, <style>, <div>中的和属性<p>。

例如，我需要保留所有<ul>, <ol>, <li>, <strong>, <a>, <img>标签和其他标签，但删除<div>（带属性）、<span>（带属性）和<p>标签中的属性。

我已经尝试过该网站和许多其他网站的许多示例。但大多数都没有奏效。

Answer 1

Jus*_*gan 5

引用我昨天发布的一个答案：

我听说过一些关于Beautiful Soup、HTML Purifier和HTML Agility Pack的好消息，它们分别使用 Python、PHP 和 .NET。相信我——为自己省去一些痛苦，改用这些。

我强烈建议您不要为此使用正则表达式。任何理智的正则表达式都不会起作用，甚至可能接近起作用。然而，一个像样的 XML 解析器可以相当容易地做到这一点。我不确定您可以使用哪些编程语言，但如果您可以使用 PHP、.NET 或其他编程语言，则可以使用上述解析器来查找每个span、style、div和p并删除属性或整个标签。

jQuery 有一些很好的 DOM 操作功能，就像您所描述的那样，您可以使用它来生成 HTML，然后剪切和粘贴。

如果你绝对必须使用正则表达式，你可以尝试这个：

图案：<\s*/?\s*(span|style|div)\b[^>]*?>
替换：（无）
图案：<\s*p\b[^>]*?>
替代品：<p>

归档时间：	14 年，7 月前
查看次数：	7019 次
最近记录：	11 年，7 月前