有没有替代HTML Tidy?

Luc*_*cas 19 html c c++ tidy htmltidy

我在我的应用程序中嵌入了HTML Tidy来清理传入的HTML.但是Tidy有很多错误,直接在源头修复它是我最糟糕的噩梦.整洁的源代码是一种难以理解的憎恶.千行功能,可变命名,意大利面条代码等等.这真的太可怕了.

更糟糕的是,官方发展似乎已经停止.在过去的12个月里,官方的CVS回购有笔交易.但是它已经死了并埋葬的时间比这要长得多......

所以我正在寻找一个可以做Tidy所能做的OSS C或C++应用程序/库(感觉就好):修复错误的HTML标记并将其转换为有效的XHTML(这是我感兴趣的部分).我的意思是各种糟糕的标记.

那里有类似的东西吗?

编辑:我需要它来通过XML处理工具对DOM树进行操作,并且通常符合XHTML规范.我的应用程序需要接受来自用户的HTML(通常在各种方式都无效)并输出有效的XHTML.它需要能够处理通常不会在浏览器中显示的HTML,因为用户手动编辑它并且之后没有检查.

Tidy的纠错解析器的直接替代品......不会太糟糕.我不介意错误,如果源是可读的,我可以自己修复问题,或者是否有活跃的开发人员及时提供错误修正.

pav*_*kha 2

您能告诉我们您打算使用这个工具做什么吗?例如,您想要修复静态网页,还是想要在其他操作之前进行某种过滤步骤,以便某些工具可以处理有错误的网页?

就我个人而言,每当需要时,我都会在 Python 的 BeautifulSoup 或 lxml 上编写自己的工具 --- 它最多只有十几行脚本,并且可以完成我想要的大部分工作。