通过正则表达式删除XML标记

Question

问候,我已经阅读了关于这个主题的一些主题,但实际上我无法找到或想到一个适当的解决方案(例如参见:正则表达式来删除XML标签及其内容).

我有一个像这样的xml标签:

<bla_tag size="100"
         diameter="50"
         ratio="0.2"
         path="/user/home/something.pdf">
</bla_tag>

目标:使用正则表达式删除其间的所有内容<bla_tag ...>.

问题:每个bla_tags(文件中大约1000个bla-tag)中的大小等值都会发生变化.

尝试失败:我尝试过:( <bla_tag .*?> ？使它不那么贪婪......).失败的结果:仅<bla_tag标记,但不是整个括号内的内容!

我做错了什么 - 或者实际上是否有可能基于正则表达式解决这个问题(我在某处读到由于xml属性是第2类语言而无法实现,你能确认吗？)

Answer 1

认真.

使用xml解析器.(说实话,它们并不难用).它们通常有两种版本之一 - SAX和DOM,你可能更喜欢SAX.

我最喜欢的解析器是expat,但是它们都有它们的微妙之处,所以它并不总是一刀切.