我正在使用 HTML Tidy Online ( http://infohound.net/tidy/ ) 来整理一些非常旧且混乱的 HTML 文件,其中包含一些希伯来字符。每当 Tidy 处理页面时,即使在更改设置中的编码方法之后,输出也会将希伯来字符变成乱码。使用不同的设置,我确实设法获得与 Unicode 实体相同的希伯来字符输出。我用谷歌搜索了可能的解决方案,但没有找到。我心里有几个想法,但我不确定如何实现它们(如果有的话)(也许有人有更好的解决方案)。
- 我想也许我可以(在处理页面之后)扫描页面中的 unicode 实体,并将它们替换为相应的希伯来字符(当然,以系统的方式)。
- 也许我可以获取 HTML Tidy 源代码并修改它以适当地输出希伯来语字符。问题是我怀疑我是否有足够的知识来开始做这样的事情。