简体中文Unicode表

cma*_*ann 8 unicode cjk

在哪里可以找到仅显示简体中文字符的Unicode表格?我到处搜索但找不到任何东西.

更新:
我发现有另一种名为GB 2312的编码 -
http://en.wikipedia.org/wiki/GB_2312
- 其中包含简化字符.
当然我可以用它来得到我需要的东西吗?

我还发现这个文件将GB2312映射到Unicode -
http://cpansearch.perl.org/src/GUS/Unicode-UTF8simple-1.06/gb2312.txt
- 但我不确定它是否准确.

如果那个表不正确,也许有人可以指出我是一个,或者只是一个GB2312字符的表格和某种方式来转换它们?

更新2:
此站点还提供GB/Unicode表甚至Java程序,以生成包含所有GB字符以及Unicode等效项的文件:http:
//www.herongyang.com/gb2312/

Gre*_*ill 14

永硕联合数据库包含文件在这个信息Unihan_Variants.txt.例如,一对传统/简化字符是:

U+673A  kTraditionalVariant     U+6A5F
U+6A5F  kSimplifiedVariant      U+673A
Run Code Online (Sandbox Code Playgroud)

在上面的例子中,U + 6A5F是机器,传统形式的机器(U + 673A).

另一种方法是使用CC-CEDICT项目,该项目发布汉字和化合物(传统和简化)字典.每个条目看起来像:

宕机宕机[dang4 ji1] /崩溃(计算机)/台语术语当机|当机[dang4 ji1] /

第一列是传统字符,第二列是简化的.

要获取所有简化字符,请阅读此文本文件并列出第二列中显示的每个字符.请注意,某些字符可能不会单独出现(仅在化合物中),因此仅查看单字符条目是不够的.


jpa*_*kal 8

OP没有说明他们正在使用哪种语言,但是如果你使用Ruby,我会写一个小型库,可以区分简体中文和繁体中文(加上韩语和日语作为奖励).正如格雷格的答案中所建议的,它依赖于蒸馏版本Unihan_Variants.txt来确定哪些字符是专门简化的,哪些是传统的.

https://github.com/jpatokal/script_detector

样品:

p string
=> "??????????."
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.simplified_chinese?
=> false
Run Code Online (Sandbox Code Playgroud)

但是,正如Unicode FAQ正式警告的那样,这需要大量文本片段才能可靠地工作,并且会给短字符串带来误导性结果.考虑东京的日本人:

p string
=> "??"
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.japanese?
=> false
Run Code Online (Sandbox Code Playgroud)

由于这两个字符恰好也是有效的繁体中文,并且没有专门的日文字符,因此无法正确识别.