我正在寻找一个解析器,它将允许我成功解析破碎的xml,采取"最好的猜测"方法 - 例如.
<thingy>
<description>
something <b>with</b> bogus<br>
markup not wrapped in CDATA
</description>
</thingy>
Run Code Online (Sandbox Code Playgroud)
理想情况下,它会产生一个东西,具有描述属性和内部的任何标记汤.
关于如何攻击问题的其他建议(除了有效标记开始)欢迎.
非PHP解决方案(例如Beautiful Soup(python))并不是面目全非,但我更愿意坚持公司的主流技能.
谢谢!