标签: codepoint

实际使用中最常见的非BMP Unicode字符是什么？

根据您的经验,到目前为止,哪些Unicode字符,代码点,BMP(基本多语言平面)之外的范围是最常见的？这些是需要UTF-8中的4个字节或UTF-16中的代理项.

我希望答案是在名称中使用的中文和日文字符,但不包括在最广泛的CJK多字节字符集中,但在我最常用的项目上,英文维基词典,我们发现哥特字母是到目前为止更为常见.

UPDATE

我写了几个软件工具来扫描整个维基百科上的非BMP字符,我惊讶地发现,即使在日语维基百科中,哥特字母也是最常见的.在中文维基百科中也是如此,但它也有许多中文字符被使用多达50或70次,包括"",""和"".

unicode codepoint cjk surrogate-pairs astral-plane

hip*_*ail

2013 05-30

101
推荐指数

3
解决办法

2万
查看次数

为什么红心表情符号需要两个代码点,但其他颜色的心脏需要一个？

似乎红心表情符号(❤️)"\ u2764\uFE0F"需要两个Unicode代码点,特别是重黑心,然后是变体选择器.但是,蓝色,绿色,黄色和紫色都有自己的单一代码点.

为什么红色如此不同？

unicode codepoint emoji

New*_*ang

2018 07-16

72
推荐指数

2
解决办法

5510
查看次数

为什么'U +'用于指定Unicode代码点？

为什么Unicode代码点显示为？U+<codepoint>

例如,U+2202表示字符∂.

为什么不U-(破折号或连字符)或其他什么？

unicode codepoint

Sen*_*ran

2015 05-04

69
推荐指数

3
解决办法

1万
查看次数

使用Python获取角色的unicode代码点

在Python API中,有没有办法提取单个字符的unicode代码点？

编辑:如果重要,我正在使用Python 2.7.

unicode codepoint python-2.7

SK9*_*SK9

2018 12-27

44
推荐指数

5
解决办法

4万
查看次数

String.codePointAt究竟做了什么？

最近我遇到了Java中的StringPointAt方法.我还发现了一些其他的代码点方法:codePointBefore,codePointCount等他们肯定有事情做Unicode的,但我不明白.

现在我想知道何时以及如何使用codePointAt和类似的方法.

java string unicode codepoint

Mic*_*ael

2016 05-03

34
推荐指数

2
解决办法

2万
查看次数

如何将unicode字符串输出到RTF(使用C#)

我正在尝试将unicode字符串输出为RTF格式.(使用c#和winforms)

来自维基百科:

如果需要Unicode转义,则使用控制字\ u,然后使用16位带符号十进制整数,给出Unicode代码点编号.为了没有Unicode支持的程序的好处,必须在指定的代码页中跟随此字符的最近表示.例如,\ u1576？会给出阿拉伯字母beh,指明没有Unicode支持的旧程序应该将其作为问号呈现.

我不知道如何将Unicode字符转换为Unicode代码点("\ u1576").转换为UTF 8,UTF 16和类似很容易,但我不知道如何转换为codepoint.

我使用它的场景:

我把现有的RTF文件读成字符串(我正在阅读模板)
string.replace #TOKEN #with MyUnicodeString(模板填充数据)
将结果写入另一个RTF文件.

当Unicode字符到达时出现问题

c# unicode rtf codepoint

Emi*_*mir

2015 12-18

20
推荐指数

2
解决办法

2万
查看次数

codePointAt和charCodeAt之间的区别

String.prototype.codePointAt()和String.prototype.charCodeAt()JavaScript有什么区别？

'A'.codePointAt(); // 65
'A'.charCodeAt();  // 65

Run Code Online (Sandbox Code Playgroud)

javascript string codepoint

Sta*_*rov

2017 07-05

19
推荐指数

2
解决办法

4982
查看次数

什么是超长表格/编码？

阅读关于UTF-8的维基百科文章,我一直想知道这个术语是否过长.该术语使用了不同的时间,但该文章没有提供其含义的定义或参考.

我想知道是否有人可以解释这个术语及其目的.

unicode sequences utf-8 codepoint character-encoding

nEA*_*nam

2011 08-21

17
推荐指数

2
解决办法

4104
查看次数

将JavaScript字符串拆分为代码点数组？(考虑到"代理对"而不是"字形群")

将JavaScript字符串拆分为"字符"可以简单地完成,但如果您关心Unicode(并且您应该关心Unicode)则会出现问题.

JavaScript本身将字符视为16位实体(UCS-2或UTF-16),但这不允许BMP(基本多语言平面)之外的Unicode字符.

为了处理BMP之外的Unicode字符,JavaScript必须考虑" 代理对 ",它本身并不是这样做的.

我正在寻找如何通过codepoint拆分js字符串,无论代码点是否需要一个或两个JavaScript"字符"(代码单元).

根据您的需要,按代码点拆分可能还不够,您可能希望拆分" 字形集群 ",其中集群是基本代码点,后跟所有非间距修改符代码点,例如组合重音符号和变音符号.

出于这个问题的目的,我不需要通过字形集群进行拆分.

javascript string unicode codepoint surrogate-pairs

hip*_*ail

2017 05-23

15
推荐指数

3
解决办法

2872
查看次数

所有 Unicode 表情符号 ZWJ 序列都有效吗？

创建表情符号字体时，任何顺序都ZERO WIDTH JOINER有效吗？

\n\n

例如：我可以用\xe2\x80\x8d\xe2\x98\x85\xe2\x80\x8d( Waving White Flag+ zwj+ Black Star+ zwj+ Green Square) 来代表一面带有绿色星星的白旗吗？然后渲染它，比如世界语旗帜？

unicode fonts codepoint emoji

Ale*_*der

2023 02-13

11
推荐指数

1
解决办法

1533
查看次数

标签统计

codepoint ×10

unicode ×9

string ×3

emoji ×2

javascript ×2

surrogate-pairs ×2

astral-plane ×1

c# ×1

character-encoding ×1

cjk ×1

fonts ×1

java ×1

python-2.7 ×1

rtf ×1

sequences ×1

utf-8 ×1

标签 统计

标签统计