首先,我使用ANSI C(不是C++和任何非标准库,如MS CRT或glibc,......)开发了一个独立的平台库.
经过几次搜索后,我发现在ANSI C中进行国际化的最佳方法之一是使用UTF-8编码.
在utf-8中:
但是当我想随机访问utf-8字符串的元素(字符)时,我遇到了一些问题.
在ASCII编码中:
char get_char(char* assci_str, int n)
{
// It is very FAST.
return assci_str[n];
}
Run Code Online (Sandbox Code Playgroud)
在UTF-16/32编码中:
wchar_t get_char(wchar_t* wstr, int n)
{
// It is very FAST.
return wstr[n];
}
Run Code Online (Sandbox Code Playgroud)
在这里我的UTF-8编码问题:
// What is the return type?
// Because sizeof(utf-8 char) is 8 or 16 or 24 or 32.
/*?*/ get_char(char* utf8str, int n)
{
// I can found Nth character of string by using for.
// But it is too slow.
// What is the best way?
}
Run Code Online (Sandbox Code Playgroud)
谢谢.
也许你有点错误地考虑这个问题.UTF-8是一种编码,可用于序列化数据,例如将其写入文件或网络.然而,这是一个非常重要的编码,并且原始的Unicode代码点串可以以任意数量的编码字节结束.
你应该做的,如果你想处理文本(给定你的描述),就是在内部存储原始的固定宽度字符串.如果您要使用Unicode(您应该),那么每个代码点需要21位,因此最接近的整数类型是uint32_t.简而言之,将所有字符串存储在内部作为整数数组.然后,您可以随机访问每个代码点.
只在写入文件或控制台时编码为UTF-8,在读取时从UTF-8解码.
顺便说一句,Unicode代码点距离角色还有很长的路要走.角色的概念与高级别相比具有简单的一般机制.(例如"a"+"重音坟墓" - 两个代码点,多少个字符?)
| 归档时间: |
|
| 查看次数: |
3937 次 |
| 最近记录: |