如何确定html标签是否分成多行

Fac*_*tic 3 html php scripting

我正在编写一个涉及抓取网页的PHP脚本.目前,脚本逐行分析页面,但如果有跨越多行的标记,则会中断,例如

<img src="example.jpg"
alt="example">
Run Code Online (Sandbox Code Playgroud)

如果情况变得更糟,我可以通过删除所有换行符来预处理页面,然后在最近的位置重新插入它们>,但这看起来像一个kludge.

理想情况下,我能够检测到跨越行的标记,仅与行结合,并继续处理.
那么检测这个的最佳方法是什么?

Jör*_*tag 7

这是我的一个烦恼:永远不要手工解析HTML.永远不要用regexp解析HTML.永远不要使用字符串比较来解析HTML.始终使用HTML解析器来解析HTML - 这就是他们所需要的.

自从我完成任何PHP以来已经很长时间了,但是快速搜索了这个PHP5 HTML解析器.