C++字符串:UTF-8还是16位编码?

Car*_*org 12 c++ encoding ucs2 utf-8 stdstring

我仍在尝试决定我的(home)项目是否应该使用UTF-8字符串(在必要时使用std :: string和其他特定于UTF-8的函数实现)或一些16位字符串(实现为std: :wstring的).该项目是一种编程语言和环境(如VB,它是两者的结合).

有一些愿望/约束:

  • 如果它可以在有限的硬件上运行,例如内存有限的计算机,那将会很酷.
  • 我希望代码能够在Windows,Mac和(如果资源允许的话)Linux上运行.
  • 我将使用wxWidgets作为我的GUI层,但我希望与该工具包交互的代码限制在代码库的一角(我将拥有非GUI可执行文件).
  • 在处理用户可见文本和应用程序数据时,我想避免使用两种不同的字符串.

目前,我正在使用std :: string,目的是仅在必要时使用UTF-8操作函数.它需要更少的内存,似乎是许多应用程序正在进行的方向.

如果你推荐一个16位编码,哪一个:UTF-16UCS-2?另一个?

Nic*_*son 26

UTF-16仍然是一个可变长度的字符编码(有超过2 ^ 16个unicode代码点),因此你不能做O(1)字符串索引操作.如果你做了很多这样的事情,你就不会在速度上超过UTF-8.另一方面,如果您的文本包含256-65535范围内的许多代码点,则UTF-16的大小可以大幅提升.UCS-2是UTF-16的变体,它固定长度的,代价是禁止任何大于2 ^ 16的代码点.

如果不了解您的要求,我个人会选择UTF-8.由于其他人已经列出的所有原因,这是最容易处理的.


Var*_*gen 6

说实话,我从来没有找到任何理由使用UTF-8以外的任何东西.


Nem*_*vic 5

如果您决定使用UTF-8编码,请查看此库:http://utfcpp.sourceforge.net/

它可能会让你的生活更轻松.


小智 2

我建议对任何类型的数据操作和 UI 使用 UTF-16。Mac OS X 和 Win32 API 使用 UTF-16,wxWidgets、Qt、ICU、Xerces 等也是如此。UTF-8 可能更适合数据交换和存储。请参阅http://unicode.org/notes/tn12/

但无论你选择什么,我绝对建议“仅在必要时”不要使用 UTF-8 的 std::string 。

一路使用UTF-16或UTF-8,但不要混合搭配,那是自找麻烦。

  • 您可能想阅读有关 UTF-16 的问题:http://stackoverflow.com/questions/1049947/should-utf-16-be-considered-harmful (3认同)