相关疑难解决方法(0)

UTF8到/来自STL中的宽字符转换

是否有可能以独立于平台的方式将std :: string中的UTF8字符串转换为std :: wstring,反之亦然?在Windows应用程序中,我将使用MultiByteToWideChar和WideCharToMultiByte.但是,代码是针对多个操作系统编译的,我仅限于标准C++库.

c++ unicode stl utf-8 character-encoding

69
推荐指数
6
解决办法
7万
查看次数

实际上是否可以在C上存储和处理单个UTF-8字符?如果是这样,怎么样?

我用C编写了一个程序,将单词分解成音节,段和字母.它适用于ASCII字符,但我想制作适用于IPA和阿拉伯语的版本.

我在保存和执行各个角色的功能方面遇到了大量问题.我的编辑器和控制台都设置为UTF-8,如果我将它保存为char*,可以显示阿拉伯语文本,但是当我尝试打印wchars时,它们会显示随机的标点符号.

我的程序需要能够识别单个UTF-8字符才能工作.例如,对于单词'though',它将't'存储为音节[1]段[1]字母[1],h存储为音节[1]段[1]字母[2]等.我希望能够对非ASCII字符执行相同操作.

我基本上花了一整天研究unicode并尝试不同的方法,我不能让他们中的任何一个让我将阿拉伯字符存储为角色.

如果我完全误解了整个概念,或者它实际上是不可能在C中做我想做的事情,我不确定我是否只是在一路上做了一些愚蠢的语法错误,我应该给予起来尝试另一种语言......

我会大量地,大规模地,大量地欣赏你能提供的任何帮助!我对编程很陌生,但是unicode对我的工作起到了重要的作用,所以我想从头开始研究如何做.

我对unicode如何工作的理解(如果我出错的话):

  1. 我在编辑器中输入了一些文字.我的编辑器根据我设置的编码对其进行编码.因此,如果我将其设置为UFT-8,它将使用2字节序列0xd8 0xab编码阿拉伯字母ب,表示代码点U + 0628.

  2. 我编译它,将0xd8 0xab分解为二进制11011000 10101000.

  3. 我在命令提示符下运行它.命令提示符根据我设置的编码解释文本,因此如果我将其设置为UFT-8,则应将11011000 10101000解释为代码点U + 0628.Unicode算法还告诉它向我显示哪个版本的U + 0628,因为角色具有不同的形状,具体取决于它在单词中的位置.由于角色是独自一人,它将显示独立版本ب

我对在C中处理unicode的方法的理解:

选项A - 使用编码为UTF-8的单字节(http://www.nubaria.com/en/blog/?p=289)

使用编码为UTF-8的单字节.将我的所有数据类型保留为chars和char数组,并仅在我的代码中键入ASCII字符.如果我必须硬编码unicode字符,请将其作为数组输入格式:

    const char kChineseSampleText[] = "\xe4\xb8\xad\xe6\x96\x87";
Run Code Online (Sandbox Code Playgroud)

我的问题是:

  1. 我需要操纵个别角色
  2. 必须输入阿拉伯字符作为代码点才能使我的代码完全无法读取并使我的速度极慢.

选项B - 使用wchar和朋友(http://icu-project.org/docs/papers/unicode_wchar_t.html)

使用字符交换为wchars,根据编译器,它包含2到4个字节.像strlen这样的字符串函数不起作用,因为它们期望字符是一个字节,但是我可以使用像wprintf这样的w函数.

我的问题是:

我根本无法打印阿拉伯字符!我可以让他们打印英文字母,但阿拉伯字符只是作为随机标点符号.

我已经尝试输入unicode代码点以及实际的阿拉伯字符,我已经尝试将它们打印到控制台和UTF-8编码的文本文件,我得到相同的结果,即使控制台和文本文件显示阿拉伯文本(如果作为char*输入).我最后把代码包括在内.

(值得一提的是,我知道很多人认为wchars是坏的,因为它们不是很便携,而且因为它们占用了ASCII字符的额外空间.但是在这个阶段,这些都不是真正的担心我 - 我只是编写程序在我自己的计算机上运行,​​程序只处理短字符串.)

选项C - 使用外部库

我已经阅读了各种评论,外部库是要走的路,所以我尝试过:

C编程库

http://www.cprogramming.com/tutorial/unicode.html建议用无符号长整数替换所有字符,并使用特殊函数迭代字符串等.该站点甚至提供了一个样本库供下载.

我的问题:

虽然我可以将字符设置为无符号长整数但我无法将其打印出来,因为printf和wprintf函数不起作用,并且网站上也没有提供库(我想这个库可能是为Linux设计的) ?某些数据类型无效,修改它们也不起作用)

ICU图书馆

我的问题:

我下载了ICU库,但是当我研究如何使用它时,我看到了诸如characterIterator之类的功能无法在C中使用(http://userguide.icu-project.org/strings).能够遍历字符对于我需要做的事情来说是完全基本的,所以我认为图书馆不适合我.

我的代码

#include <stdio.h>
#include <stdlib.h>
#include <wchar.h>
#include <locale.h>
#include <string.h>


int main ()
{
wchar_t unicode = …
Run Code Online (Sandbox Code Playgroud)

c unicode wchar

11
推荐指数
1
解决办法
912
查看次数

从char*创建UTF-16字符串

所以我有标准的C字符串:

char* name = "Jakub";
Run Code Online (Sandbox Code Playgroud)

我想将其转换为UTF-16.我想出,UTF-16将是两倍长 - 一个角色需要两个字符.
所以我创建另一个字符串:

char name_utf_16[10];  //"Jakub" is 5 characters
Run Code Online (Sandbox Code Playgroud)

现在,我相信与ASCII字符我只会用低字节,所以对于所有的人就会像74 00J等.有了这个信念,我可以制作这样的代码:

void charToUtf16(char* input, char* output, int length) {
    /*Todo: how to check if output is long enough?*/
    for(int i=0; i<length; i+=2)  //Step over 2 bytes
    {
        //Lets use little-endian - smallest bytes first
        output[i] = input[i];
        output[i+1] = 0;  //We will never have any data for this field
    }
}
Run Code Online (Sandbox Code Playgroud)

但是,通过这个过程,我结束了"Jkb".我知道无法正确测试 - 我刚刚将字符串发送到Minecraft Bukkit …

c++ utf-16 char character-encoding

1
推荐指数
2
解决办法
4894
查看次数

标签 统计

c++ ×2

character-encoding ×2

unicode ×2

c ×1

char ×1

stl ×1

utf-16 ×1

utf-8 ×1

wchar ×1