相关疑难解决方法(0)

一个必须阅读在考虑任何事情之前,如果你不熟悉的Unicode,什么编码居然是:http://www.joelonsoftware.com/articles/Unicode.html
UTF-8主页:http://www.utf-8.com/
man 3 iconv(以及iconv_open和iconvctl)
Unicode的国际组件(通过Geoff Reedy)
libbasekit,似乎包括轻型Unicode处理工具
Glib有一些Unicode功能
Christoph基本的UTF-8探测器功能

c string unicode encoding unicode-string

ELL*_*BLE

2017 05-23

8
推荐指数

1
解决办法

824
查看次数

通过utf8多字节字符串向后迭代

我使用这个函数的略微修改版本is_utf8 /sf/answers/72224141/从字符数组中提取UTF8序列,返回序列及其中的字节数,以便我可以在此处迭代字符串办法.

但是我现在想要在字符串()上向后迭代char *.做这个的最好方式是什么？

我的猜测是尝试将字符串的最后四个,三个,两个和一个字节分类为utf8(四次)并选择最长的字节.

但是,utf8是否具有暧昧的情况？例如可以aaaabb解析为aaaa.bb也可以(向后)解析为aa.aabb其中aa,aaaa,bb和aabb是有效的UTF8序列？

c string iteration utf-8

Hob*_*Ben

2017 05-23

8
推荐指数

1
解决办法

1138
查看次数

C中的UTF8处理

我对UTF8有基本的了解:代码点具有可变长度,因此"字符"可以是8位,16位甚至更长.

我想知道的是,如果C语言中有一些示例代码,库等与UTF8字符串类似,就像CEg中的标准库那样告诉字符串的长度等等.

谢谢,

c unicode utf-8

lan*_*ng2

2015 04-05

6
推荐指数

1
解决办法

6767
查看次数

如何区分UTF-8和ASCII文件？

如何区分UTF-8(无BOM)和ASCII文件？

language-agnostic character-encoding

use*_*232

lucky-day

3
推荐指数

1
解决办法

863
查看次数

如何轻松检测字符串中的utf8编码？

我有来自其他程序的数据填充的字符串,这些数据可以是UTF8编码.所以,如果不是我可以编码为UTF8,但在C++中检测UTF8的最佳方法是什么？我看到了这个变种/sf/...但是有评论说这个解决方案没有100%检测.因此,如果我对已经包含UTF8数据的UTF8字符串进行编码,那么我将错误的文本写入数据库.

所以我可以使用这个UTF8检测:

bool is_utf8(const char * string)
{
    if(!string)
        return 0;

    const unsigned char * bytes = (const unsigned char *)string;
    while(*bytes)
    {
        if( (// ASCII
             // use bytes[0] <= 0x7F to allow ASCII control characters
                bytes[0] == 0x09 ||
                bytes[0] == 0x0A ||
                bytes[0] == 0x0D ||
                (0x20 <= bytes[0] && bytes[0] <= 0x7E)
            )
        ) {
            bytes += 1;
            continue;
        }

        if( (// non-overlong 2-byte
                (0xC2 <= bytes[0] && bytes[0] <= 0xDF) &&
                (0x80 <= bytes[1] …

Run Code Online (Sandbox Code Playgroud)

c++ windows string encoding utf-8

nic*_*day

2017 05-23

3
推荐指数

2
解决办法

9896
查看次数