将wstring转换为以UTF-8编码的字符串

Question

将wstring转换为以UTF-8编码的字符串

我需要在wstring和string之间进行转换.我想,使用codecvt facet应该可以解决问题,但它似乎不适用于utf-8语言环境.

我的想法是,当我将utf-8编码文件读取到字符时,一个utf-8字符被读入两个普通字符(这就是utf-8的工作原理).我想从我的代码中使用的库的wstring表示创建这个utf-8字符串.

有谁知道怎么做？

我已经尝试过了:

  locale mylocale("cs_CZ.utf-8");
  mbstate_t mystate;

  wstring mywstring = L"??žýáí";

  const codecvt<wchar_t,char,mbstate_t>& myfacet =
    use_facet<codecvt<wchar_t,char,mbstate_t> >(mylocale);

  codecvt<wchar_t,char,mbstate_t>::result myresult;  

  size_t length = mywstring.length();
  char* pstr= new char [length+1];

  const wchar_t* pwc;
  char* pc;

  // translate characters:
  myresult = myfacet.out (mystate,
      mywstring.c_str(), mywstring.c_str()+length+1, pwc,
      pstr, pstr+length+1, pc);

  if ( myresult == codecvt<wchar_t,char,mbstate_t>::ok )
   cout << "Translation successful: " << pstr << endl;
  else cout << "failed" << endl;
  return 0;

Run Code Online (Sandbox Code Playgroud)

它为cs_CZ.utf-8语言环境返回'failed',并且对cs_CZ.iso8859-2语言环境正常工作.

Answer 1

sky*_*yde 74

下面的代码可能会帮助你:)

#include <codecvt>
#include <string>

// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.from_bytes(str);
}

// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.to_bytes(str);
}

Run Code Online (Sandbox Code Playgroud)

但不是在linux上使用libstdc ++. (5认同)
自 C++17 起，“codecvt”已被弃用，并且没有替代品。 (5认同)
@AlexReinking cpp 参考并没有说 codecvt 已被弃用。虽然有些成员已被弃用，但还是添加了一些新成员（例如，C++20 添加了``std::codecvt<char32_t, char8_t, std::mbstate_t>```）。https://en.cppreference.com/w/cpp/locale/codecvt (2认同)

Answer 2

hil*_*lel 6

你的平台是什么？请注意，Windows 不支持 UTF-8 语言环境，因此这可以解释您失败的原因。

要以依赖于平台的方式完成此操作，您可以在 Windows 上使用MultiByteToWideChar / WideCharToMultiByte，在 Linux上使用iconv。您也许可以使用一些 boost 魔法以独立于平台的方式完成此操作，但我自己还没有尝试过，因此我无法添加此选项。

Answer 3

Phi*_*ipp -11

C++ 不知道 Unicode。使用外部库，例如 ICU ( UnicodeStringclass ) 或 Qt ( QStringclass )，两者都支持 Unicode，包括 UTF-8。

-1 并非如此，C++ 支持包括编码的语言环境（不幸的是，Windows 上的 UTF-8 已损坏） (8认同)
从 C++11 开始不再如此。`char16_t` 专门用于 UTF-16，而 `char32_t` 专门用于 UTF-32；C++14 对此进行了扩展，要求“char”类型足够大以存储 256 个不同的值，特别适合 UTF-8。C++11 还添加了类 `codecvt_utf8`、`codecvt_utf16` 和 `codecvt_utf8_utf16`，以及 `codecvt` 的两个新特化（`std::codecvt<char16_t, char, std::mbstate_t>` 和 `std ::codecvt<char32_t，char，std::mbstate_t>`）。因此，C++ 现在正式支持 UTF-8、UTF-16、UTF-32、UCS2 和 UCS4。 (3认同)

归档时间：	15 年前
查看次数：	34028 次
最近记录：	6 年，4 月前