如何对html和xml进行拼写检查?

MaX*_*Xal 9 xml bash spell-checking hunspell

我必须对大量的大html和xml文档进行拼写检查(超过30.000).我还需要自定义字典和复杂的检查算法.我尝试使用BASH+ Linux工具(sed,grep,...)用的hunspell.Hunspell有选项-H强制它将文档检查为HTML(对于XML,该选项也适用).但是有一个问题:它输出偏移而不是行数也可以逐行检查,因为在这种情况下它看起来在标签内部(他找不到封闭标签).那么完成任务的正确方法是什么?

dev*_*snd 7

我刚遇到类似的问题.您应该能够通过使用那些未记录的开关获得良好的输出,例如-u-U.但要小心,因为这些功能现在似乎是实验性的,我只是通过查看hunspell的来源才发现它们的存在.

基本上:

hunspell -H -u my-file.html
Run Code Online (Sandbox Code Playgroud)

应该这样做.

另外,也有开关-u1,-u2并且-u3你可以玩玩.


Vic*_*tor 1

您尝试过使用tidy吗?

我还没有在如此多的文件上使用它,但它可以很好地查找 100 多个 HTML 页面中的问题。您还可以在 XML 文件上使用它,并且能够接受带有许多我尚未探索的选项的配置文件。