标签: codepoint

实际使用中最常见的非BMP Unicode字符是什么?

根据您的经验,到目前为止,哪些Unicode字符,代码点,BMP(基本多语言平面)之外的范围是最常见的?这些是需要UTF-8中的4个字节或UTF-16中的代理项.

我希望答案是在名称中使用的中文和日文字符,但不包括在最广泛的CJK多字节字符集中,但在我最常用的项目上,英文维基词典,我们发现哥特字母是到目前为止更为常见.

UPDATE

我写了几个软件工具来扫描整个维基百科上的非BMP字符,我惊讶地发现,即使在日语维基百科中,哥特字母也是最常见的.在中文维基百科中也是如此,但它也有许多中文字符被使用多达50或70次,包括"",""和"".

unicode codepoint cjk surrogate-pairs astral-plane

101
推荐指数
3
解决办法
2万
查看次数

为什么红心表情符号需要两个代码点,但其他颜色的心脏需要一个?

似乎红心表情符号(❤️)"\ u2764\uFE0F"需要两个Unicode代码点,特别是重黑心,然后是变体选择器.但是,蓝色,绿色,黄色紫色都有自己的单一代码点.

为什么红色如此不同?

unicode codepoint emoji

72
推荐指数
2
解决办法
5510
查看次数

为什么'U +'用于指定Unicode代码点?

为什么Unicode代码点显示为?U+<codepoint>

例如,U+2202表示字符.

为什么不U-(破折号或连字符)或其他什么?

unicode codepoint

69
推荐指数
3
解决办法
1万
查看次数

使用Python获取角色的unicode代码点

在Python API中,有没有办法提取单个字符的unicode代码点?

编辑:如果重要,我正在使用Python 2.7.

unicode codepoint python-2.7

44
推荐指数
5
解决办法
4万
查看次数

String.codePointAt究竟做了什么?

最近我遇到了Java中的StringPointAt方法.我还发现了一些其他的代码点方法:codePointBefore,codePointCount等他们肯定有事情做Unicode的,但我不明白.

现在我想知道何时以及如何使用codePointAt和类似的方法.

java string unicode codepoint

34
推荐指数
2
解决办法
2万
查看次数

如何将unicode字符串输出到RTF(使用C#)

我正在尝试将unicode字符串输出为RTF格式.(使用c#和winforms)

来自维基百科:

如果需要Unicode转义,则使用控制字\ u,然后使用16位带符号十进制整数,给出Unicode代码点编号.为了没有Unicode支持的程序的好处,必须在指定的代码页中跟随此字符的最近表示.例如,\ u1576?会给出阿拉伯字母beh,指明没有Unicode支持的旧程序应该将其作为问号呈现.

我不知道如何将Unicode字符转换为Unicode代码点("\ u1576").转换为UTF 8,UTF 16和类似很容易,但我不知道如何转换为codepoint.

我使用它的场景:

  • 我把现有的RTF文件读成字符串(我正在阅读模板)
  • string.replace #TOKEN #with MyUnicodeString(模板填充数据)
  • 将结果写入另一个RTF文件.

当Unicode字符到达时出现问题

c# unicode rtf codepoint

20
推荐指数
2
解决办法
2万
查看次数

codePointAt和charCodeAt之间的区别

String.prototype.codePointAt()String.prototype.charCodeAt()JavaScript有什么区别?

'A'.codePointAt(); // 65
'A'.charCodeAt();  // 65
Run Code Online (Sandbox Code Playgroud)

javascript string codepoint

19
推荐指数
2
解决办法
4982
查看次数

什么是超长表格/编码?

阅读关于UTF-8维基百科文章,我一直想知道这个术语是否过长.该术语使用了不同的时间,但该文章没有提供其含义的定义或参考.

我想知道是否有人可以解释这个术语及其目的.

unicode sequences utf-8 codepoint character-encoding

17
推荐指数
2
解决办法
4104
查看次数

将JavaScript字符串拆分为代码点数组?(考虑到"代理对"而不是"字形群")

将JavaScript字符串拆分为"字符"可以简单地完成,但如果您关心Unicode(并且您应该关心Unicode)则会出现问题.

JavaScript本身将字符视为16位实体(UCS-2或UTF-16),但这不允许BMP(基本多语言平面)之外的Unicode字符.

为了处理BMP之外的Unicode字符,JavaScript必须考虑" 代理对 ",它本身并不是这样做的.

我正在寻找如何通过codepoint拆分js字符串,无论代码点是否需要一个或两个JavaScript"字符"(代码单元).

根据您的需要,按代码点拆分可能还不够,您可能希望拆分" 字形集群 ",其中集群是基本代码点,后跟所有非间距修改代码点,例如组合重音符号和变音符号.

出于这个问题的目的,我不需要通过字形集群进行拆分.

javascript string unicode codepoint surrogate-pairs

15
推荐指数
3
解决办法
2872
查看次数

所有 Unicode 表情符号 ZWJ 序列都有效吗?

创建表情符号字体时,任何顺序都ZERO WIDTH JOINER有效吗?

\n\n

例如:我可以用\xe2\x80\x8d\xe2\x98\x85\xe2\x80\x8d( Waving White Flag+ zwj+ Black Star+ zwj+ Green Square) 来代表一面带有绿色星星的白旗吗?然后渲染它,比如世界语旗帜

\n

unicode fonts codepoint emoji

11
推荐指数
1
解决办法
1533
查看次数