在Ruby中将unicode代码点转换为字符串字符

Question

我从unicode数据库获得这些值,但我不确定如何将它们转换为人类可读的形式.这甚至叫什么？

他们来了:

如何将这些转换为可读符号？

Answer 1

怎么样:

puts ["2B71F".hex].pack("U")

编辑

在Ruby 1.9中,您甚至可以这样做:

puts "\u{2B71F}"

即\u{}转义序列可用于解码Unicode码点.

Answer 2

类似的unicode符号U+2B71F被称为a codepoint.

unicode系统codepoint为众多世界语言,科学符号,货币等中的每个字符定义唯一.这个字符集正在稳步增长.

例如,U+221E是无穷大.

的codepoints是十六进制数.每个字符始终只有一个数字.

有许多方法可以在内存中进行排列.这被称为encoding常见的UTF-8和UTF-16.转换来回定义明确.

在这里,您很可能正在寻找将unicode转换codepoint为UTF-8字符的方法.

codepoint = "U+2B71F"

您需要提取后面的十六进制部分U+并获得2B71F.这将是第一次集体捕获.看到这个.

codepoint.to_s =~ /U\+([0-9a-fA-F]{4,5}|10[0-9a-fA-F]{4})$/

而你是UTF-8角色将是:

utf_8_character = [$1.hex].pack("U")

参考文献:

关于unicode,utf-8代码点,字符集,编码等的最佳答案之一我曾经在SO上阅读过......链接很棒.http://www.joelonsoftware.com/articles/Unicode.html特别适合. (2认同)