我正在用C编写一个HTML解析器,我希望正确遵循解析器实现的W3C指南.其中一个关键点是解析器在Unicode代码点流而不是字节上运行,这是有道理的.
基本上,给定一个已知字符编码的缓冲区(我将给出一个显式的输入编码,或者将使用HTML5预扫描算法做出一个很好的猜测),C中最好的方法是什么 - 理想的是跨平台,但坚持到UNIX很好 - 迭代一个等效的Unicode代码点序列?
分配一些合理大小的缓冲区并使用iconv方法去?我应该看ICU吗?这些宏U16_NEXT看起来非常适合我的任务,但是ICU文档非常冗长,而且很难确切地知道如何将各种东西粘在一起.