如何提取div标签

Question

我正在尝试解析一个html文件,我想用一个唯一的id提取外部div标签内的所有内容.样品:

<body>
  ...
  <div id="1">

    <div id="2">
    ...
    </div>

    <div id="3">
    ...
    </div>

  </div>
  ...
</body>

在这里,我想提取介于两者之间的所有东西,<div id="1">并将其对应的</tag>NOT作为第一个</div>标记

我已经浏览了许多较旧的帖子,但它们不起作用,因为当他们看到第一个</div>不是我正在寻找的标签时它们会停止.

任何指针都会受到赞赏.

Answer 1

听起来你的问题是你试图使用正则表达式解析HTML.

别.使用HTML解析器.CPAN有很多.我很喜欢HTML::TreeBuilder::XPath.