MaX*_*Xal 9 xml bash spell-checking hunspell
我必须对大量的大html和xml文档进行拼写检查(超过30.000).我还需要自定义字典和复杂的检查算法.我尝试使用BASH+ Linux工具(sed,grep,...)用的hunspell.Hunspell有选项-H强制它将文档检查为HTML(对于XML,该选项也适用).但是有一个问题:它输出偏移而不是行数也可以逐行检查,因为在这种情况下它看起来在标签内部(他找不到封闭标签).那么完成任务的正确方法是什么?
我刚遇到类似的问题.您应该能够通过使用那些未记录的开关获得良好的输出,例如-u或-U.但要小心,因为这些功能现在似乎是实验性的,我只是通过查看hunspell的来源才发现它们的存在.
基本上:
hunspell -H -u my-file.html
Run Code Online (Sandbox Code Playgroud)
应该这样做.
另外,也有开关-u1,-u2并且-u3你可以玩玩.
| 归档时间: |
|
| 查看次数: |
4031 次 |
| 最近记录: |