标签: character-encoding

是否有一组用于测试字符编码问题的"Lorem ipsums"文件?

对于布局,我们有着名的"Lorem ipsum"文本来测试它的外观.

我正在寻找的是一组文件,其中包含用几种不同编码编码的文本,我可以在我的JUnit测试中使用它来测试一些在阅读文本文件时处理字符编码的方法.

例:

具有ISO 8859-1编码的测试文件和Windows-1252编码的测试文件.Windows-1252必须触发区域80 16 - 9F 16的差异.换句话说,它必须包含该区域的至少一个字符,以区别于ISO 8859-1.

也许最好的测试文件集是每个编码的测试文件包含其所有字符一次.但也许我不知道某事 - 我们都喜欢这种编码的东西,对吗?:-)

是否有一组用于字符编码问题的测试文件?

java junit unit-testing character-encoding

84
推荐指数
3
解决办法
7589
查看次数

UTF-8可以编码多少个字符?

如果UTF-8是8位,这是否意味着最多只能有256个不同的字符?

前128个代码点与ASCII相同.但它说UTF-8可以支持多达百万个字符?

这是如何运作的?

ascii utf-8 character-encoding

84
推荐指数
7
解决办法
7万
查看次数

utf8_general_ci和utf8_unicode_ci之间的差异是什么?

可能重复:
utf8_general_ci和utf8_unicode_ci之间有什么区别

我有两个unicode选项,看起来很有希望用于mysql数据库.

utf8_general_ci unicode (multilingual), case-insensitive
utf8_unicode_ci unicode (multilingual), case-insensitive
Run Code Online (Sandbox Code Playgroud)

你能解释一下utf8_general_ci和utf8_unicode_ci有什么区别吗?在设计数据库时,选择其中一个会产生什么影响?

mysql unicode character-encoding

83
推荐指数
2
解决办法
6万
查看次数

81
推荐指数
2
解决办法
20万
查看次数

Python:从ISO-8859-1/latin1转换为UTF-8

我有这个字符串已经使用电子邮件模块从Quoted-printable解码为ISO-8859-1.这给了我像"\ xC4pple"这样的字符串,它们对应于"Äpple"(Apple中的瑞典语).但是,我无法将这些字符串转换为UTF-8.

>>> apple = "\xC4pple"
>>> apple
'\xc4pple'
>>> apple.encode("UTF-8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc4 in position 0: ordinal not in     range(128)
Run Code Online (Sandbox Code Playgroud)

我该怎么办?

python character-encoding

81
推荐指数
4
解决办法
16万
查看次数

将Visual Studio项目中的所有文件保存为UTF-8

我想知道是否可以将Visual Studio 2008项目中的所有文件保存为特定的字符编码.我得到了一个混合编码的解决方案,我想让它们都一样(带签名的UTF-8).

我知道如何保存单个文件,但项目中的所有文件怎么样?

utf-8 character-encoding visual-studio

80
推荐指数
5
解决办法
8万
查看次数

C编程:如何为Unicode编程?

严格的Unicode编程需要哪些先决条件?

这是否意味着我的代码不应该char在任何地方使用类型,并且需要使用可以处理的函数wint_twchar_t

在这种情况下,多字节字符序列的作用是什么?

c unicode locale utf-8 character-encoding

80
推荐指数
5
解决办法
4万
查看次数

Java:将字符串转换为ByteBuffer和来自ByteBuffer的字符串以及相关问题

我使用Java NIO进行套接字连接,我的协议是基于文本的,所以我需要能够在将字符串转换为SocketChannel之前将其转换为ByteBuffers,并将传入的ByteBuffers转换回字符串.目前,我正在使用此代码:

public static Charset charset = Charset.forName("UTF-8");
public static CharsetEncoder encoder = charset.newEncoder();
public static CharsetDecoder decoder = charset.newDecoder();

public static ByteBuffer str_to_bb(String msg){
  try{
    return encoder.encode(CharBuffer.wrap(msg));
  }catch(Exception e){e.printStackTrace();}
  return null;
}

public static String bb_to_str(ByteBuffer buffer){
  String data = "";
  try{
    int old_position = buffer.position();
    data = decoder.decode(buffer).toString();
    // reset buffer's position to its original so it is not altered:
    buffer.position(old_position);  
  }catch (Exception e){
    e.printStackTrace();
    return "";
  }
  return data;
}
Run Code Online (Sandbox Code Playgroud)

这在大多数情况下都有效,但我怀疑这是否是执行此转换的每个方向的首选(或最简单)方法,或者是否有其他方法可以尝试.偶尔,和看似随意,调用encode()decode()将抛出一个 java.lang.IllegalStateException: Current …

java string nio bytebuffer character-encoding

79
推荐指数
3
解决办法
13万
查看次数

79
推荐指数
3
解决办法
7万
查看次数

不支持Python解码Unicode

我的Python编码问题.我尝试了不同的方法,但我似乎无法找到将输出编码为UTF-8的最佳方法.

这就是我想要做的:

result = unicode(google.searchGoogle(param), "utf-8").encode("utf-8")
Run Code Online (Sandbox Code Playgroud)

searchGoogle返回第一个Google结果param.

这是我得到的错误:

exceptions.TypeError: decoding Unicode is not supported
Run Code Online (Sandbox Code Playgroud)

有谁知道我如何使用UTF-8编码我的输出Python来避免这个错误?

python encoding utf-8 character-encoding

78
推荐指数
1
解决办法
9万
查看次数