std :: string在安全的地方截断utf-8的最佳方法

Question

std :: string在安全的地方截断utf-8的最佳方法

gsf*_*gsf 8 c++ string utf-8

我在std :: string中有一个有效的utf-8编码字符串.我有字节限制.我想截断字符串并添加... at MAX_SIZE - 3 - x- where x这个值将阻止utf-8字符被剪切.

是否有可以x根据MAX_SIZE 确定的函数而无需从字符串的开头开始？

Answer 1

Nic*_*las 16

如果你在一个字符串中有一个位置,并且你想要向后找到一个UTF-8字符的开头(因此是一个有效的剪切位置),这很容易完成.

从序列中的最后一个字节开始.如果最后一个字节的前两位是10,那么它是UTF-8序列的一部分,所以继续备份直到前两位不是 10(或直到你到达开始).

UTF-8的工作方式是,一个字节可以是三种情况之一,基于字节的高位.如果最顶部的位是0,则该字节是ASCII字符,接下来的7位是Unicode Codepoint值本身.如果最高位是10,则后面的6位是多字节序列的额外位.但是多字节序列的开头是用11最高位编码的(并且序列中的字节数由10在第一个之前跟随那两个s 的数量来确定10).

因此,如果一个字节的顶部位不是10,则它是ASCII字符或多字节序列的开头.无论哪种方式,它都是一个有效的切割地点.

但请注意,虽然这会破坏代码点边界处的字符串,但这基于Unicode字形集群.这意味着可以剔除组合字符,远离它们组合的基本字符; 例如,重音可能会从字符中丢失.进行正确的字形聚类分析需要访问Unicode表,该表说明代码点是否是组合字符.

但它至少是一个有效的Unicode UTF-8字符串.所以这比大多数人做得好;)

代码看起来像这样(在C++ 14中):

auto FindCutPosition(const std::string &str, size_t max_size)
{
  assert(str.size() >= max_size, "Make sure stupidity hasn't happened.");
  assert(str.size() > 3, "Make sure stupidity hasn't happened.");
  max_size -= 3;
  for(size_t pos = max_size; pos > 0; --pos)
  {
    unsigned char byte = static_cast<unsigned char>(str[pos]); //Perfectly valid
    if(byte & 0xC0 != 0x80)
      return pos;
  }

  unsigned char byte = static_cast<unsigned char>(str[0]); //Perfectly valid
  if(byte & 0xC0 != 0x80)
    return 0;

  //If your first byte isn't even a valid UTF-8 starting point, then something terrible has happened.
  throw bad_utf8_encoded_text(...);
}

Run Code Online (Sandbox Code Playgroud)

这将允许在代码点边界处截断字符串,但它可能会更改字符串中的字符,而不是仅删除它们.例如,它可能会导致"简历"变成"简历". (3认同)
@bames53：平心而论，切割字符可以将任何单词变成废话。“haai”到“haa”在语法上也是错误的，只是用荷兰语而不是法语。（不能有后缀 -aa） (2认同)

归档时间：	9 年，8 月前
查看次数：	1220 次
最近记录：	6 年，1 月前