Ash*_*ppa 19 notepad unicode utf-8 endian
当我尝试在记事本中保存带有非英语文本的文本文件时,我可以选择在Unicode、Unicode Big Endian和UTF-8之间进行选择。这些格式有什么区别?
假设我不想要任何向后兼容性(与较旧的操作系统版本或应用程序)并且我不关心文件大小,这些格式中哪种更好?
(假设除了其他语言之外,文本还可以是中文或日文等语言。)
注意:从下面的答案和评论看来,在记事本行话中,Unicode 是 UTF-16(Little Endian),Unicode Big Endian 是 UTF-16(Big Endian),而 UTF-8 是 UTF-8。
Jas*_*ker 19
不知道。哪个更好:锯子还是锤子?:-)
文章中有一点与手头的主题更相关:
“看看那些零!” 他们说,因为他们是美国人,他们正在查看很少使用 U+00FF 以上代码点的英文文本。他们也是加利福尼亚州的自由嬉皮士,他们想要保护(冷笑)。如果他们是德州人,他们就不会介意大吃大喝两倍的字节数。但是那些加利福尼亚的懦夫无法忍受将字符串的存储量增加一倍的想法
UTF-32 侧重于穷举性和固定长度表示,所有字符使用 4 个字节。这是最直接的转换,将 Unicode 代码点直接映射到 4 个字节。显然,它的尺寸效率不是很高。
UTF-16 是一种折衷方案,大部分时间使用 2 个字节,但扩展到每个字符 2 * 2 个字节来表示某些字符,这些字符未包含在基本多语言平面 (BMP) 中。
另请参阅每个软件开发人员绝对、肯定必须了解 Unicode 和字符集的绝对最小值(没有任何借口!)
归档时间: |
|
查看次数: |
31456 次 |
最近记录: |