Unicode中的汉字完整范围是什么?

omg*_*omg 83 unicode cjk

U + 4E00..U + 9FFF是整套的一部分,但不是全部

Von*_*onC 95

也许你会通过CJK Unicode FAQ找到一个完整的列表(其中包括"中文,日文和韩文"字符)

" 东亚脚本 "文件确实提到:

包含汉字表意文字的块

汉字表意字符可在Unicode标准的五个主要块中找到,如表12-2所示

表12-2.包含汉字表意文字的块

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
Run Code Online (Sandbox Code Playgroud)

注意:块范围可以随着时间的推移而发展:最新的是CJK统一表意文字.

另见维基百科:

  • @Flimm:韩文不属于中国标准; 韩语是韩语.韩语*确实*使用汉字("汉字"),但几乎只用于一些传统的东西(如姓氏,纪念碑,地方......),这些东西不能用韩文转录.OP专门询问中文,因此响应者不需要包含韩文.:-) (12认同)

Pac*_*ier 47

Unicode目前有74605个CJK字符.CJK字符不仅包括中国使用的字符,而且日语汉字,韩国汉字和越南.有些CJK字符不是中文字符.

1)来自CJK Unified Ideographs区块的 20941个字符.

代码点U + 4E00到U + 9FCC.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2)来自CJKUI Ext A块的 6582个字符.

代码点U + 3400到U + 4DB5.Unicode 3.0(1999).

3)来自CJKUI Ext B块的 42711个字符.

代码点U + 20000至U + 2A6D6.Unicode 3.1(2001).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3)来自CJKUI Ext C块的 4149个字符.

代码点U + 2A700至U + 2B734.Unicode 5.2(2009).

4)来自CJKUI Ext D块的 222个字符.

代码点U + 2B740至U + 2B81D.Unicode 6.0(2010).

5)CJKUI Ext E块.

快来了

如果以上不是意大利面,请看看已知问题.玩得开心=)


Ler*_*ang 18

汉字的确切范围(扩展名除外)是[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement是一个Unicode块,包含康熙自由基的替代形式,通常是位置形式.它们在字典索引和其他由激进笔画组织的CJK表意文字集合中使用.

  1. [\u3190-\u319f]

Kanbun是一个Unicode块,包含日语经典中文文本副本中使用的注释字符,用于表示阅读顺序.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A是一个包含稀有汉字表意文字的Unicode块.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs是一个Unicode块,包含现代中文和日文中使用的最常见的CJK表意文字.

有关详细信息,请参阅此处,其他答案中提供了扩展名.

  • 我没有投票,但是扩展B,C,D和E呢? (2认同)

Voy*_*ger 5

Unicode版本11.0.0

在Unicode中,中文,日文和韩文(CJK)脚本具有共同的背景,统称为CJK字符。

这些范围通常包含未分配或保留的代码点(如U + 2E9A,U + 2EF4-2EFF),

中国文字

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
Run Code Online (Sandbox Code Playgroud)
  • CJK Unified Ideographs块中,我注意到许多答案使用上限9FCC,但U + 9FCD(?)的确是中文字符。并且该块中的所有字符均为汉字(也用于日语或韩语等)。
  • CJK统一意识形态Ext中的大多数字符(Ext F除外,Ext F中只有17%是汉字)是繁体汉字,在中国很少使用。
  • ?是零的汉字形式,至今仍在使用

因此范围是

[0x3007,0x3007],[0x3400,0x4DBF],[0x4E00,0x9FEF],[0x20000,0x2EBFF]

CJK字符,但从未用过中文

它们是普通汉族,仅用于兼容性。

几乎不可能看到它们出现在任何中文书籍,文章,著作等中。

这里的所有字符都有一个对应的字形相同的汉字。例如?(U + F90A)和?(U + 91D1),它们的字形相同。

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
Run Code Online (Sandbox Code Playgroud)

中日韩相关符号

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
Run Code Online (Sandbox Code Playgroud)
  • 诸如Hangul Compatibility Jamo之类的代码块由于与中文无关而被放弃。
  • Kangxi Radicals不是汉字,它是汉字的​​图形组成部分,专门用于表示部首,例如?(U + 2F3B)和?(U + 5F73),?(U + 2EDC)和?(U + 98DE)

其他常见标点出现在中文中

这个范围很广,某些标点符号可能从未使用过,有些标点符号……”“在中文中用得很多。

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……
Run Code Online (Sandbox Code Playgroud)

也有许多与中文相关的符号,例如《易经卦》符号或“ 看板”,但无论如何它都是题外话。我用CJK编写了非中文字符,以更好地解释什么是汉字。上面的范围已经涵盖了中文写作中几乎所有字符,除了数学和其他专业符号。

补充

中日韩符号和标点符号

?????????????????????????????????????????????????????????????? ? ?
Run Code Online (Sandbox Code Playgroud)

半角和全角形式

????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
Run Code Online (Sandbox Code Playgroud)

参考

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97(以中文显示,请注意右侧栏)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 %84%8F%E6%96%87%E5%AD%97 (请注意下表)
  3. http://www.unicode.org