相关疑难解决方法(0)

C++ 11中字符串文字的Unicode编码

在一个相关的问题之后,我想问一下C++ 11中的新字符和字符串文字类型.看来我们现在有四种字符和五种字符串文字.角色类型:

char     a =  '\x30';         // character, no semantics
wchar_t  b = L'\xFFEF';       // wide character, no semantics
char16_t c = u'\u00F6';       // 16-bit, assumed UTF16?
char32_t d = U'\U0010FFFF';   // 32-bit, assumed UCS-4
Run Code Online (Sandbox Code Playgroud)

和字符串文字:

char     A[] =  "Hello\x0A";         // byte string, "narrow encoding"
wchar_t  B[] = L"Hell\xF6\x0A";      // wide string, impl-def'd encoding
char16_t C[] = u"Hell\u00F6";        // (1)
char32_t D[] = U"Hell\U000000F6\U0010FFFF"; // (2)
auto     E[] = u8"\u00F6\U0010FFFF"; // (3)
Run Code Online (Sandbox Code Playgroud)

问题是:\x/ \u/ \U …

c++ unicode utf string-literals c++11

76
推荐指数
1
解决办法
5万
查看次数

WChars,编码,标准和可移植性

以下可能不符合SO问题; 如果它超出范围,请随时告诉我离开.这里的问题基本上是,"我是否正确理解C标准,这是正确的方法吗?"

我想请求澄清,确认和更正我对C中字符处理的理解(以及C++和C++ 0x).首先,一个重要的观察:

可移植性和序列化是正交概念.

便携式东西就像C unsigned int, wchar_t. 可序列化的东西就像uint32_t或UTF-8."Portable"意味着您可以重新编译相同的源并在每个支持的平台上获得工作结果,但二进制表示可能完全不同(或者甚至不存在,例如TCP-over-carrier pigeon).另一方面,可序列化的东西总是具有相同的表示,例如我可以在Windows桌面,手机或牙刷上读取的PNG文件.便携式东西是内部的,可序列化的东西处理I/O. 便携式东西是类型安全的,可序列化的东西需要打字.</前导>

当谈到C中的字符处理时,有两组分别与可移植性和序列化相关:

  • wchar_t,setlocale(),mbsrtowcs()/ wcsrtombs():C标准只字未提"编码" ; 事实上,它与任何文本或编码属性完全无关.它只说"你的入口点是main(int, char**);你得到的类型wchar_t可以容纳你所有系统的字符;你得到的函数来读取输入字符序列并使它们成为可行的字符串,反之亦然.

  • iconv()和UTF-8,16,32:在定义明确的固定编码之间进行转码的函数/库.由iconv处理的所有编码都得到普遍理解和同意,但有一个例外.

C的便携式,编码不可知世界与其wchar_t可移植的字符类型和确定性外部世界之间的桥梁是WCHAR-T和UTF之间的iconv转换.

那么,我是否应该始终将我的字符串内部存储在与编码无关的wstring,与CRT via的接口中wcsrtombs(),并iconv()用于序列化?概念:

                        my program
    <-- wcstombs ---  /==============\   --- iconv(UTF8, WCHAR_T) -->
CRT                   |   wchar_t[]  |                                <Disk>
    --- mbstowcs -->  \==============/   <-- iconv(WCHAR_T, UTF8) ---
                            |
                            +-- iconv(WCHAR_T, UCS-4) --+
                                                        |
       ... <--- (adv. …
Run Code Online (Sandbox Code Playgroud)

c++ unicode wchar-t

60
推荐指数
4
解决办法
1万
查看次数

`<cuchar>`提供什么,它在哪里记录?

新的C++ 11标准提到了一个标题<cuchar>,可能与C99类似<uchar.h>.

现在,我们知道C++ 11带来了专门为UTF16和UTF32设计的新字符类型和文字,但我不认为该语言实际上会包含将(系统相关的)窄多字节编码转换为其中一个的函数. Unicode编码.但是,我刚刚遇到了<cuchar>提及函数mbrtoc16/ c16rtombrmbrtoc32/ 的头文件概要c32rtombr.

不幸的是,标准没有提到标题概要之外的那些功能.这些功能在哪里定义,他们真正做了什么,在哪里可以阅读更多关于它们的内容?这是否意味着现在可以使用标准C++完全使用适当的Unicode,而无需任何额外的库?

c++ unicode c++11

16
推荐指数
1
解决办法
1571
查看次数

C++和UTF8 - 为什么不直接替换ASCII?

在我的应用程序必须不断转换之间的串std::stringstd::wstring由于不同的API(升压,win32的,ffmpeg的等).特别是对于ffmpeg,字符串结束utf8-> utf16-> utf8-> utf16,只是为了打开一个文件.

由于UTF8向后兼容ASCII,我认为我一直存储所有字符串UTF-8,std::string并且仅std::wstring在我必须调用某些不寻常的函数时才转换.

这样做很好,我为utf8实现了to_lower,to_upper,iequals.然而,我遇到了几个死胡同std :: regex,以及常规的字符串比较.为了使这个可用,我需要实现一个ustring基于std :: string 的自定义类,并重新实现所有相应的算法(包括正则表达式).

基本上我的结论是utf8对于一般用法并不是很好.目前std::string/std::wstring很糟糕.

但是,我的问题是为什么默认std::string并且""不是简单地改为使用UTF8?特别是因为UTF8向后兼容?可能有一些编译器标志可以做到这一点吗?当然,需要自动调整stl实现.

我看过ICU,但它与apis假设basic_string不太兼容,例如没有begin/end/c_str等...

c++ string unicode visual-studio-2010

9
推荐指数
1
解决办法
2223
查看次数