为什么下面的程序
#include <stdio.h>
#include <wchar.h>
int main() {
wprintf(L"??????, ???!");
}
Run Code Online (Sandbox Code Playgroud)
打印“女贞,先生!” 在 Linux 上?具体来说,为什么它将 Unicode 中的俄语文本音译为拉丁语,而不是将其转码为 UTF-8 或使用替换字符?
在 Godbolt 上演示此行为:https ://godbolt.org/z/36zEcG
非宽版会printf("??????, ???!")按预期打印此文本(“??????, ???!”)。
WideCharToMultiByte()和wcstombs()有什么区别何时使用哪一个?
我想将char*字符串转换为wchar*C中的字符串.
我找到了很多答案,但大多数答案都是针对C++的.你可以帮帮我吗?
谢谢.
什么是命运wchar_t中的C++ 0x考虑新的字符类型char8_t,char16_t和char32_t?
更重要的是,怎么样std::wstring,std::wcout等等?
w*家庭类是否已被弃用?
是否有新的字符类型的新类std::ustring和std::Ustring类?
我用C编写了一个程序,将单词分解成音节,段和字母.它适用于ASCII字符,但我想制作适用于IPA和阿拉伯语的版本.
我在保存和执行各个角色的功能方面遇到了大量问题.我的编辑器和控制台都设置为UTF-8,如果我将它保存为char*,可以显示阿拉伯语文本,但是当我尝试打印wchars时,它们会显示随机的标点符号.
我的程序需要能够识别单个UTF-8字符才能工作.例如,对于单词'though',它将't'存储为音节[1]段[1]字母[1],h存储为音节[1]段[1]字母[2]等.我希望能够对非ASCII字符执行相同操作.
我基本上花了一整天研究unicode并尝试不同的方法,我不能让他们中的任何一个让我将阿拉伯字符存储为角色.
如果我完全误解了整个概念,或者它实际上是不可能在C中做我想做的事情,我不确定我是否只是在一路上做了一些愚蠢的语法错误,我应该给予起来尝试另一种语言......
我会大量地,大规模地,大量地欣赏你能提供的任何帮助!我对编程很陌生,但是unicode对我的工作起到了重要的作用,所以我想从头开始研究如何做.
我对unicode如何工作的理解(如果我出错的话):
我在编辑器中输入了一些文字.我的编辑器根据我设置的编码对其进行编码.因此,如果我将其设置为UFT-8,它将使用2字节序列0xd8 0xab编码阿拉伯字母ب,表示代码点U + 0628.
我编译它,将0xd8 0xab分解为二进制11011000 10101000.
我在命令提示符下运行它.命令提示符根据我设置的编码解释文本,因此如果我将其设置为UFT-8,则应将11011000 10101000解释为代码点U + 0628.Unicode算法还告诉它向我显示哪个版本的U + 0628,因为角色具有不同的形状,具体取决于它在单词中的位置.由于角色是独自一人,它将显示独立版本ب
我对在C中处理unicode的方法的理解:
选项A - 使用编码为UTF-8的单字节(http://www.nubaria.com/en/blog/?p=289)
使用编码为UTF-8的单字节.将我的所有数据类型保留为chars和char数组,并仅在我的代码中键入ASCII字符.如果我必须硬编码unicode字符,请将其作为数组输入格式:
const char kChineseSampleText[] = "\xe4\xb8\xad\xe6\x96\x87";
Run Code Online (Sandbox Code Playgroud)
我的问题是:
选项B - 使用wchar和朋友(http://icu-project.org/docs/papers/unicode_wchar_t.html)
使用字符交换为wchars,根据编译器,它包含2到4个字节.像strlen这样的字符串函数不起作用,因为它们期望字符是一个字节,但是我可以使用像wprintf这样的w函数.
我的问题是:
我根本无法打印阿拉伯字符!我可以让他们打印英文字母,但阿拉伯字符只是作为随机标点符号.
我已经尝试输入unicode代码点以及实际的阿拉伯字符,我已经尝试将它们打印到控制台和UTF-8编码的文本文件,我得到相同的结果,即使控制台和文本文件显示阿拉伯文本(如果作为char*输入).我最后把代码包括在内.
(值得一提的是,我知道很多人认为wchars是坏的,因为它们不是很便携,而且因为它们占用了ASCII字符的额外空间.但是在这个阶段,这些都不是真正的担心我 - 我只是编写程序在我自己的计算机上运行,程序只处理短字符串.)
选项C - 使用外部库
我已经阅读了各种评论,外部库是要走的路,所以我尝试过:
C编程库
http://www.cprogramming.com/tutorial/unicode.html建议用无符号长整数替换所有字符,并使用特殊函数迭代字符串等.该站点甚至提供了一个样本库供下载.
我的问题:
虽然我可以将字符设置为无符号长整数但我无法将其打印出来,因为printf和wprintf函数不起作用,并且网站上也没有提供库(我想这个库可能是为Linux设计的) ?某些数据类型无效,修改它们也不起作用)
ICU图书馆
我的问题:
我下载了ICU库,但是当我研究如何使用它时,我看到了诸如characterIterator之类的功能无法在C中使用(http://userguide.icu-project.org/strings).能够遍历字符对于我需要做的事情来说是完全基本的,所以我认为图书馆不适合我.
我的代码
#include <stdio.h>
#include <stdlib.h>
#include <wchar.h>
#include <locale.h>
#include <string.h>
int main ()
{
wchar_t unicode = …Run Code Online (Sandbox Code Playgroud) 我是一个新的c ++,同时在windows CE .net紧凑的应用程序上工作
在尝试将hexa数据写入文件时
CString dataBlock1;
dataBlock1 = "";
CString temp;
for(int i = 0; i < rLen; i++)
{
temp.Format(L"%02X ",rec[i]);
dataBlock1 += temp;
}
std::ofstream out(file);
Run Code Online (Sandbox Code Playgroud)
我得到这个错误无法将参数1从wchar*转换为const char*on,同时使用下面的write函数将hexa数据写入文件
out.write(myReader.dataBlock1.GetBuffer(),myReader.dataBlock1.GetLength());
Run Code Online (Sandbox Code Playgroud)
我们如何将wchar_*转换为const char*以使写入功能起作用.
谢谢.
我现在对WinAPI中用于CHAR字符串和WCHAR字符串的匈牙利表示法前缀感到困惑.当我们使用CHAR字符串时,通常使用这样的前缀:
CHAR szString[] = "Hello";
Run Code Online (Sandbox Code Playgroud)
我们有一个以零结尾的字符串szString所以一切都很好.但是当我们使用WCHAR字符串时,通常使用这样的前缀:
WCHAR pwszString[] = L"Hello";
Run Code Online (Sandbox Code Playgroud)
它代表指向零终止宽字符串的指针...但我们的类型看起来不像这样.指向零终止宽字符串的指针是WCHAR**或PWSTR*.我错了吗?为什么它是CHAR字符串和pwsz的sz而不是WCHAR字符串的wsz?
我的C程序粘贴在下面.在bash中,程序打印"char is",Ω不打印.我的语言环境都是en_US.utf8.
#include <stdio.h>
#include <wchar.h>
#include <stdlib.h>
int main() {
int r;
wchar_t myChar1 = L'?';
r = wprintf(L"char is %c\n", myChar1);
}
Run Code Online (Sandbox Code Playgroud) 我只是不明白,也找不到关于wchar end的更多信息.
如果它以单个空字节结束,它是如何知道它不是字符串结束,如果像"009A"这样的东西代表一个unicode符号?
如果以两个空字节结束?好吧,我不确定,需要确认.