每种语言最常见的编码是什么?

use*_*627 19 encoding character-encoding

我正在开发一个纯文本阅读器应用程序.有时app无法自动确定文件的编码,因此用户需要从编码列表中选择编码.如果此列表包含所有支持的编码,则它将太长.我想提供一个简化的列表,只包含每种语言最常见的编码.

这是我所知道的一些关系:

  • 繁体中文:Big5
  • 简体中文:GB18030
  • 日语:Shift-JIS,EUC-JP
  • 俄语:KOI8-R

如果您知道任何其他语言最常见的编码,请告诉我.

dan*_*n04 55

FWIW,以下是按默认字符编码分组的Windows XP区域设置:

  • Big5:zh_HK,zh_MO,zh_TW
  • GBK(≈GB2312):zh_CN,zh_SG
  • Windows-31J(≈Shift_JIS):ja_JP
  • windows-874(≈TIS-620,ISO-8859-11):th_TH
  • windows-949(≈EUC-KR):ko_KR
  • windows-1250:bs_BA,cs_CZ,hr_BA,hr_HR,hu_HU,pl_PL,ro_RO,sk_SK,sl_SI,sq_AL,sr_BA,sr_SP
  • windows-1251:az_AZ,be_BY,bg_BG,kk_KZ,ky_KG,mk_MK,mn_MN,ru_RU,sr_BA,sr_SP,tt_RU,uk_UA,uz_UZ
  • windows-1252(≈ISO-8859-1):af_ZA,arn_CL,ca_ES,cy_GB,da_DK,de_AT,de_CH,de_DE,de_LI,de_LU,en_AU,en_BZ,en_CA,en_CB,en_GB,en_IE,en_JM,en_NZ,en_PH, en_TT,en_US,en_ZA,en_ZW,es_AR,es_BO,es_CL,es_CO,es_CR,es_DO,es_EC,es_ES,es_GT,es_HN,es_MX,es_NI,es_PA,es_PE,es_PR,es_PY,es_SV,es_UY,es_VE,eu_ES,fi_FI, fil_PH,fo_FO,fr_BE,fr_CA,fr_CH,fr_FR,fr_LU,fr_MC,fy_NL,ga_IE,gl_ES,id_ID,is_IS,it_CH,it_IT,iu_CA,iv_IV,lb_LU,moh_CA,ms_BN,ms_MY,nb_NO,nl_BE,nl_NL,nn_NO, ns_ZA,pt_BR,pt_PT,qu_BO,qu_EC,qu_PE,rm_CH,se_FI,se_NO,se_SE,sv_FI,sv_SE,sw_KE,tn_ZA,xh_ZA,zu_ZA
  • windows-1253:el_GR
  • windows-1254(≈ISO-8859-9):az_AZ,tr_TR,uz_UZ
  • windows-1255:he_IL
  • windows-1256:ar_AE,ar_BH,ar_DZ,ar_EG,ar_IQ,ar_JO,ar_KW,ar_LB,ar_LY,ar_MA,ar_OM,ar_QA,ar_SA,ar_SY,ar_TN,ar_YE,fa_IR,ps_AF,ur_PK
  • windows-1257:et_EE,lt_LT,lv_LV
  • windows-1258:vi_VN

网络上最常见的编码:

  1. UTF-8 (89.2%)
  2. ISO-8859-1 (5.0%)
  3. Windows-1251(1.6%)
  4. Shift JIS (0.9%)
  5. Windows-1252(0.8%)
  6. GB2312(0.7%)
  7. EUC-KR(0.4%)
  8. EUC-JP(0.3%)
  9. GBK(0.3%)
  10. ISO-8859-2(0.2%)
  11. Windows-1250(0.2%)
  12. ISO-8859-15(0.1%)
  13. Windows-1256(0.1%)
  14. ISO-8859-9(0.1%)
  15. Big5(0.1%)
  16. Windows-1254(0.1%)
  17. Windows-874(0.1%)


Juk*_*ela 5

HTML5 草案包含一个语言默认编码表,反映了被视为常见的内容。但是,请注意,它应该基于用户区域设置,即浏览器或操作系统的语言,而不是文档的语言——显然因为后者通常是未知的,至少在您实际阅读文档之前,基于对编码的一些假设。

我认为您实际上可以在流行的网络浏览器中复制编码列表。如果它在那里运行良好,它可能在您的应用程序中运行良好。浏览器对列表及其顺序做了一些聪明的事情,但在实践中,我认为有一个像 utf-8、utf-16、windows-1252 和其他一些的短列表就足够了,然后是一个选项获取完整列表。请注意,尽管 utf-16 实际上对网页没有使用和无用,但它对于周围的纯文本文件很常见。为编码命名非常重要,最好使用常见的英语(或其他语言)名称和括号中的 IANA“字符集”名称 - 就像浏览器所做的那样。