标签: wchar

为什么 wprintf 在 Linux 上将 Unicode 中的俄语文本音译为拉丁语?

为什么下面的程序

#include <stdio.h>
#include <wchar.h>

int main() {
  wprintf(L"??????, ???!");
}
Run Code Online (Sandbox Code Playgroud)

打印“女贞,先生!” 在 Linux 上?具体来说,为什么它将 Unicode 中的俄语文本音译为拉丁语,而不是将其转码为 UTF-8 或使用替换字符?

在 Godbolt 上演示此行为:https ://godbolt.org/z/36zEcG

非宽版会printf("??????, ???!")按预期打印此文本(“??????, ???!”)。

c linux printf wchar non-ascii-characters

35
推荐指数
2
解决办法
1783
查看次数

WideCharToMultiByte()与wcstombs()

WideCharToMultiByte()和wcstombs()有什么区别何时使用哪一个?

c++ unicode winapi wchar widechar

16
推荐指数
2
解决办法
2万
查看次数

在C中将char*转换为wchar*

我想将char*字符串转换为wchar*C中的字符串.

我找到了很多答案,但大多数答案都是针对C++的.你可以帮帮我吗?

谢谢.

c unicode char wchar

14
推荐指数
2
解决办法
5万
查看次数

在c ++ 0x中wchar_t的命运是什么?

什么是命运wchar_t中的C++ 0x考虑新的字符类型char8_t,char16_tchar32_t

更重要的是,怎么样std::wstring,std::wcout等等?

w*家庭类是否已被弃用?
是否有新的字符类型的新类std::ustringstd::Ustring类?

c++ unicode wchar c++11

14
推荐指数
1
解决办法
1633
查看次数

在Qt中将WCHAR转换为QString

在Qt中将WCHAR转换为QString.请帮我实现它以完成此转换.

c++ qstring qt wchar

13
推荐指数
1
解决办法
2万
查看次数

实际上是否可以在C上存储和处理单个UTF-8字符?如果是这样,怎么样?

我用C编写了一个程序,将单词分解成音节,段和字母.它适用于ASCII字符,但我想制作适用于IPA和阿拉伯语的版本.

我在保存和执行各个角色的功能方面遇到了大量问题.我的编辑器和控制台都设置为UTF-8,如果我将它保存为char*,可以显示阿拉伯语文本,但是当我尝试打印wchars时,它们会显示随机的标点符号.

我的程序需要能够识别单个UTF-8字符才能工作.例如,对于单词'though',它将't'存储为音节[1]段[1]字母[1],h存储为音节[1]段[1]字母[2]等.我希望能够对非ASCII字符执行相同操作.

我基本上花了一整天研究unicode并尝试不同的方法,我不能让他们中的任何一个让我将阿拉伯字符存储为角色.

如果我完全误解了整个概念,或者它实际上是不可能在C中做我想做的事情,我不确定我是否只是在一路上做了一些愚蠢的语法错误,我应该给予起来尝试另一种语言......

我会大量地,大规模地,大量地欣赏你能提供的任何帮助!我对编程很陌生,但是unicode对我的工作起到了重要的作用,所以我想从头开始研究如何做.

我对unicode如何工作的理解(如果我出错的话):

  1. 我在编辑器中输入了一些文字.我的编辑器根据我设置的编码对其进行编码.因此,如果我将其设置为UFT-8,它将使用2字节序列0xd8 0xab编码阿拉伯字母ب,表示代码点U + 0628.

  2. 我编译它,将0xd8 0xab分解为二进制11011000 10101000.

  3. 我在命令提示符下运行它.命令提示符根据我设置的编码解释文本,因此如果我将其设置为UFT-8,则应将11011000 10101000解释为代码点U + 0628.Unicode算法还告诉它向我显示哪个版本的U + 0628,因为角色具有不同的形状,具体取决于它在单词中的位置.由于角色是独自一人,它将显示独立版本ب

我对在C中处理unicode的方法的理解:

选项A - 使用编码为UTF-8的单字节(http://www.nubaria.com/en/blog/?p=289)

使用编码为UTF-8的单字节.将我的所有数据类型保留为chars和char数组,并仅在我的代码中键入ASCII字符.如果我必须硬编码unicode字符,请将其作为数组输入格式:

    const char kChineseSampleText[] = "\xe4\xb8\xad\xe6\x96\x87";
Run Code Online (Sandbox Code Playgroud)

我的问题是:

  1. 我需要操纵个别角色
  2. 必须输入阿拉伯字符作为代码点才能使我的代码完全无法读取并使我的速度极慢.

选项B - 使用wchar和朋友(http://icu-project.org/docs/papers/unicode_wchar_t.html)

使用字符交换为wchars,根据编译器,它包含2到4个字节.像strlen这样的字符串函数不起作用,因为它们期望字符是一个字节,但是我可以使用像wprintf这样的w函数.

我的问题是:

我根本无法打印阿拉伯字符!我可以让他们打印英文字母,但阿拉伯字符只是作为随机标点符号.

我已经尝试输入unicode代码点以及实际的阿拉伯字符,我已经尝试将它们打印到控制台和UTF-8编码的文本文件,我得到相同的结果,即使控制台和文本文件显示阿拉伯文本(如果作为char*输入).我最后把代码包括在内.

(值得一提的是,我知道很多人认为wchars是坏的,因为它们不是很便携,而且因为它们占用了ASCII字符的额外空间.但是在这个阶段,这些都不是真正的担心我 - 我只是编写程序在我自己的计算机上运行,​​程序只处理短字符串.)

选项C - 使用外部库

我已经阅读了各种评论,外部库是要走的路,所以我尝试过:

C编程库

http://www.cprogramming.com/tutorial/unicode.html建议用无符号长整数替换所有字符,并使用特殊函数迭代字符串等.该站点甚至提供了一个样本库供下载.

我的问题:

虽然我可以将字符设置为无符号长整数但我无法将其打印出来,因为printf和wprintf函数不起作用,并且网站上也没有提供库(我想这个库可能是为Linux设计的) ?某些数据类型无效,修改它们也不起作用)

ICU图书馆

我的问题:

我下载了ICU库,但是当我研究如何使用它时,我看到了诸如characterIterator之类的功能无法在C中使用(http://userguide.icu-project.org/strings).能够遍历字符对于我需要做的事情来说是完全基本的,所以我认为图书馆不适合我.

我的代码

#include <stdio.h>
#include <stdlib.h>
#include <wchar.h>
#include <locale.h>
#include <string.h>


int main ()
{
wchar_t unicode = …
Run Code Online (Sandbox Code Playgroud)

c unicode wchar

11
推荐指数
1
解决办法
912
查看次数

如何将Wchar_t*转换为const char*

我是一个新的c ++,同时在windows CE .net紧凑的应用程序上工作

在尝试将hexa数据写入文件时

CString dataBlock1;
dataBlock1 = "";

CString temp;
for(int i = 0; i < rLen; i++)
{
temp.Format(L"%02X ",rec[i]);
dataBlock1 += temp;

}

std::ofstream out(file);
Run Code Online (Sandbox Code Playgroud)

我得到这个错误无法将参数1从wchar*转换为const char*on,同时使用下面的write函数将hexa数据写入文件

out.write(myReader.dataBlock1.GetBuffer(),myReader.dataBlock1.GetLength());
Run Code Online (Sandbox Code Playgroud)

我们如何将wchar_*转换为const char*以使写入功能起作用.

谢谢.

c++ wchar

9
推荐指数
1
解决办法
4万
查看次数

WinAPI中的sz和pwsz前缀

我现在对WinAPI中用于CHAR字符串和WCHAR字符串的匈牙利表示法前缀感到困惑.当我们使用CHAR字符串时,通常使用这样的前缀:

CHAR szString[] = "Hello";
Run Code Online (Sandbox Code Playgroud)

我们有一个以零结尾的字符串szString所以一切都很好.但是当我们使用WCHAR字符串时,通常使用这样的前缀:

WCHAR pwszString[] = L"Hello";
Run Code Online (Sandbox Code Playgroud)

它代表指向零终止宽字符串的指针...但我们的类型看起来不像这样.指向零终止宽字符串的指针是WCHAR**或PWSTR*.我错了吗?为什么它是CHAR字符串和pwsz的sz而不是WCHAR字符串的wsz?

c++ winapi hungarian-notation wchar

9
推荐指数
1
解决办法
2926
查看次数

将wchar打印到Linux控制台?

我的C程序粘贴在下面.在bash中,程序打印"char is",Ω不打印.我的语言环境都是en_US.utf8.

#include <stdio.h>
#include <wchar.h>
#include <stdlib.h>

int main() {
   int r;
   wchar_t myChar1 = L'?';
   r = wprintf(L"char is %c\n", myChar1);
}
Run Code Online (Sandbox Code Playgroud)

c linux console wchar-t wchar

8
推荐指数
2
解决办法
9653
查看次数

wchar以单个空字节或其中两个结尾?

我只是不明白,也找不到关于wchar end的更多信息.

如果它以单个空字节结束,它是如何知道它不是字符串结束,如果像"009A"这样的东西代表一个unicode符号?

如果以两个空字节结束?好吧,我不确定,需要确认.

c++ string null byte wchar

8
推荐指数
3
解决办法
8361
查看次数