TK.*_*TK. 142 encoding character-encoding
我对文本编码和字符集感到困惑.出于很多原因,我必须在即将开展的工作中学习非Unicode,非UTF8的东西.
我在电子邮件标题中找到"charset"一词,如"ISO-2022-JP",但在文本编辑器中没有这样的编码.(我环顾了不同的文字编辑.)
文本编码和字符集之间有什么区别?如果您能向我展示一些用例示例,我将不胜感激.
Sve*_*lov 133
基本上:
Mat*_*hen 81
每个编码都有一个与之关联的特定字符集,但对于给定的字符集,可以有多个编码.charset就像它听起来一样,是一组角色.有大量的字符集,包括许多用于特定脚本或语言的字符集.
但是,我们在向Unicode过渡的过程中一直很顺利,其中包括一个能够代表几乎所有世界脚本的字符集.但是,Unicode有多种编码方式.编码是一种将字符串映射到字节字符串的方法.Unicode编码的示例包括UTF-8,UTF-16 BE和UTF-16 LE.这些中的每一个都具有特定应用或机器架构的优点.
mat*_*nja 45
除了其他答案,我认为这篇文章是一篇很好的阅读 http://www.joelonsoftware.com/articles/Unicode.html
这篇文章的标题是" 绝对最低的每个软件开发人员,绝对必须知道关于Unicode和字符集(没有借口!) " 由Joel Spolsky撰写.这篇文章已经超过10年了,但(不幸的是)内容仍然有效......
dan*_*n04 26
字符编码包括:
步骤#1本身是"字符集"或抽象"字符集",#1 +#2 ="编码字符集".
但在Unicode变得流行之前,每个人(东亚除外)都使用单字节编码,步骤#3和#4是微不足道的(代码点=代码单元=字节).因此,较旧的协议没有清楚地区分"字符编码"和"编码字符集".较旧的协议charset在它们真正意味着编码时使用.
hag*_*wal 20
为今后访问的人们提供更多的光线,希望它会有所帮助.
每种语言都有字符,这些字符的集合构成该语言的"字符集".编码字符时,它会分配一个称为代码点的唯一标识符或编号.在计算机中,这些代码点将由一个或多个字节表示.
字符集示例: ASCII(涵盖所有英文字符),ISO/IEC 646,Unicode(涵盖世界上所有生活语言的字符)
编码字符集是一个集合,其中为每个字符分配唯一编号.该唯一编号称为"代码点".
编码字符集有时称为代码页.
编码是用一些字节映射代码点的机制,以便可以使用相同的编码方案在不同系统上均匀地读取和写入字符.
编码示例: ASCII,Unicode编码方案,如UTF-8,UTF-16,UTF-32.
用Google搜索. http://en.wikipedia.org/wiki/Character_encoding
差异似乎很微妙.术语charset实际上不适用于Unicode.Unicode经历了一系列抽象.抽象字符 - >代码点 - >代码的编码指向字节.
Charsets实际上跳过这个并直接从字符跳转到字节.字节序列< - >字符序列
简而言之,编码:代码点 - >字节字符集:字符 - >字节
charset只是一套; 它要么包含,例如欧元符号,要么它不包含.就这样.
编码是从字符集到一组整数的双射映射.如果它支持欧元符号,则必须为该字符分配特定的整数,而不是其他.