解析HTML是无效的XML

Lan*_*nbo 0 perl

我需要解析一个<div>遍布有很多嵌套的网站.我试图XML::Simple获得一个漂亮的树结构,但解析一直失败,因为似乎有两三个没有关闭的<p>地方.我试过HTML::Parser,但这只能让我定义一些处理函数,它们给我正确的标签,但不是它们的嵌套元素.

有没有办法XML::Simple接受无效的XML或HTML::Parser给我一个方便的树结构?

bvr*_*bvr 6

HTML :: TreeBuilder作为构建好的树,并给出吨方便的方法来遍历它.