我想听听是否有人可以帮助替换我的大型 XML 文件的 HTML 标记。
XML 文件有我自己的架构,一切都很好。但我需要删除标签<sspan>, <style>, <div>中的 和 属性<p>。
例如,我需要保留所有<ul>, <ol>, <li>, <strong>, <a>, <img>标签和其他标签,但删除<div>(带属性)、<span>(带属性)和<p>标签中的属性。
我已经尝试过该网站和许多其他网站的许多示例。但大多数都没有奏效。
引用我昨天发布的一个答案:
我听说过一些关于Beautiful Soup、HTML Purifier和HTML Agility Pack的好消息 ,它们分别使用 Python、PHP 和 .NET。相信我——为自己省去一些痛苦,改用这些。
我强烈建议您不要为此使用正则表达式。任何理智的正则表达式都不会起作用,甚至可能接近起作用。然而,一个像样的 XML 解析器可以相当容易地做到这一点。我不确定您可以使用哪些编程语言,但如果您可以使用 PHP、.NET 或其他编程语言,则可以使用上述解析器来查找每个span、style、div和p并删除属性或整个标签。
jQuery 有一些很好的 DOM 操作功能,就像您所描述的那样,您可以使用它来生成 HTML,然后剪切和粘贴。
如果你绝对必须使用正则表达式,你可以尝试这个:
<\s*/?\s*(span|style|div)\b[^>]*?> <\s*p\b[^>]*?><p>