标签: unicode-normalization

0xc3,0xa0 agrave
0xc3,0xa1 aacute
0xc3,0xa2 acircumflex
0xc3,0xa3 atilde
0xc3,0xa4 adiaeresis
0xc3,0xa5 aring
0xc3,0xa6 ae
0xc3,0xa7 ccedilla
0xc3,0xa8 egrave
0xc3,0xa9 eacute
0xc3,0xaa ecircumflex
0xc3,0xab ediaeresis
0xc3,0xac igrave
0xc3,0xad iacute
0xc3,0xae icircumflex
0xc3,0xaf idiaeresis
0xc3,0xb0 eth
0xc3,0xb1 ntilde
0xc3,0xb2 ograve
0xc3,0xb3 oacute

Run Code Online (Sandbox Code Playgroud)

(我在数据中看到这种情况的每种情况都会转换为适当的单个字符.)

其中许多显然是像'\ uxxxx'这样的单线形式的"别名",但我以这种方式接收它们作为双重线.原始数据字节显示这实际上是从服务器传输的方式.

(一旦我以UTF-8收到它们,我没有理由将它们保留在内存中的本地表示中.)

我不知道该怎么称呼它,所以我很难找到很多关于它的信息,而且我无法就这个问题进行清楚的沟通.我想知道为什么它被使用,我在哪里可以找到将其转换为我的UIWebView可以正确呈现的内容的代码,但知道它的名称是我的问题.

我的问题是这个双重或配对形式叫什么？

(如果它有用,我在Objective-C和CocoaTouch中工作.)

unicode cocoa-touch objective-c normalization unicode-normalization

Jim*_*Jim

2015 09-19

3
推荐指数

2
解决办法

1046
查看次数

使用NFD unicode进行NSString规范化

在我的应用程序中,我必须使用NFD Unicode系统规范化NSString.我怎样才能做到这一点？我需要转换用户输入的字符串作为规范化的字符串,我必须计算一个数字.谁能帮我？

iphone unicode objective-c nsstring unicode-normalization

iOS*_*per

2015 09-19

3
推荐指数

1
解决办法

1581
查看次数

为什么我不能规范化这个随机的unicode字符串？

我需要在unicode字符串上评估levenshtein编辑距离,这意味着需要对包含相同内容的两个字符串进行规范化,以避免偏向编辑距离.

以下是我为测试生成随机unicode字符串的方法:

def random_unicode(length=10):
    ru = lambda: unichr(random.randint(0, 0x10ffff))
    return ''.join([ru() for _ in xrange(length)])

Run Code Online (Sandbox Code Playgroud)

这是一个失败的简单测试用例:

import unicodedata
uni = random_unicode()
unicodedata.normalize(uni, 'NFD')

Run Code Online (Sandbox Code Playgroud)

这是错误:

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-9: ordinal not in range(128)

Run Code Online (Sandbox Code Playgroud)

我检查确保它uni确实是一个unicode对象:

u'\U00020d93\U000fb2e6\U0005709a\U000bc31e\U00080262\U00034f00\U00059941\U0002dd09\U00074f6d\U0009ef7a'

Run Code Online (Sandbox Code Playgroud)

有人可以开导我吗？

python unicode normalization unicode-normalization python-unicode

blz*_*blz

2015 09-19

3
推荐指数

1
解决办法

476
查看次数

Unicode NFC规范化可以增加字符串的长度吗？

如果我将Unicode规范化表单C应用于字符串,字符串中的代码点数量是否会增加？

unicode normalization utf unicode-normalization

Dan*_*ien

2015 09-19

3
推荐指数

1
解决办法

415
查看次数

此Unicode NFC转换是否正确？

我正在开发一个C项目,需要生成"不区分大小写"的规范化形式的Unicode文本.我选择将规范化形式定义为首先转换为NFD规范化,然后应用Unicode案例折叠算法,最后将结果转换为NFC规范化形式NFC.

我依靠ICU的C API来实现其Unicode表示和实用功能,使用ICU unorm_normalize()和u_strFoldCase()函数实现我的方案相当简单.但是我的一个测试失败了,我不明白为什么.ICU似乎正在产生一种与我预期不同的NFC形式.

输入序列由以下BMP代码点组成:

U+0020, U+1EA5, U+0328, U+1EC4, U+031C

Run Code Online (Sandbox Code Playgroud)

通过调试器,我确定ICU和我同意案例折叠后的中间结果:

U+0020 U+0061 U+0328 U+0302 U+0301 U+0065 U+031C U+0302 U+0303

Run Code Online (Sandbox Code Playgroud)

特别要注意的是,早期转换为形成NFD将字符U + 031C移动到U + 1EC4分解的中间,根据所涉及字符的相对CCC编号.这是我试图测试的一部分.

现在好的部分:根据ICU,折叠字符序列的NFC标准化是

U+0020 U+0105 U+0302 U+0301 U+1ec5 U+031C

Run Code Online (Sandbox Code Playgroud)

而我认为它应该是

U+0020 U+0105 U+0302 U+0301 U+0065 U+031C U+0302 U+0303

Run Code Online (Sandbox Code Playgroud)

因为三个尾随组合字符已经按规范顺序排列,并且没有U + 0065和U + 031C的规范组合.

那么,有两个问题:

哪种NFC形式正确？
如果ICU是正确的那么为什么？

unicode normalization icu unicode-normalization

Joh*_*ger

2015 09-19

3
推荐指数

1
解决办法

447
查看次数

获取拉丁字符的所有unicode变体

例如，对于字符"a"，我想获取一个字符串（字符列表），例如"aàáâãäå???"（不确定示例列表是否完整...）（基本上是所有带有name的unicode字符"Latin Small Letter A with *"）。

有没有通用的方法可以做到这一点？

我要求使用Python，但是如果答案更通用，那也很好，尽管在任何情况下我都希望Python代码片段。Python> = 3.5很好。但是我想您需要访问Unicode数据库，例如Python模块unicodedata，我比其他外部数据源更喜欢它。

我可以想象这样的解决方案：

def get_variations(char):
   import unicodedata
   name = unicodedata.name(char)
   chars = char
   for variation in ["WITH CEDILLA", "WITH MACRON", ...]:
      try: 
          chars += unicodedata.lookup("%s %s" % (name, variation))
      except KeyError:
          pass
   return chars

Run Code Online (Sandbox Code Playgroud)

python unicode unicode-normalization python-3.x

Alb*_*ert

2019 07-24

3
推荐指数

1
解决办法

121
查看次数