根据您的经验,到目前为止,哪些Unicode字符,代码点,BMP(基本多语言平面)之外的范围是最常见的?这些是需要UTF-8中的4个字节或UTF-16中的代理项.
我希望答案是在名称中使用的中文和日文字符,但不包括在最广泛的CJK多字节字符集中,但在我最常用的项目上,英文维基词典,我们发现哥特字母是到目前为止更为常见.
UPDATE
我写了几个软件工具来扫描整个维基百科上的非BMP字符,我惊讶地发现,即使在日语维基百科中,哥特字母也是最常见的.在中文维基百科中也是如此,但它也有许多中文字符被使用多达50或70次,包括"",""和"".
为什么Unicode代码点显示为?U+<codepoint>
例如,U+2202表示字符∂.
为什么不U-(破折号或连字符)或其他什么?
在Python API中,有没有办法提取单个字符的unicode代码点?
编辑:如果重要,我正在使用Python 2.7.
最近我遇到了Java中的StringPointAt方法.我还发现了一些其他的代码点方法:codePointBefore,codePointCount等他们肯定有事情做Unicode的,但我不明白.
现在我想知道何时以及如何使用codePointAt和类似的方法.
我正在尝试将unicode字符串输出为RTF格式.(使用c#和winforms)
如果需要Unicode转义,则使用控制字\ u,然后使用16位带符号十进制整数,给出Unicode代码点编号.为了没有Unicode支持的程序的好处,必须在指定的代码页中跟随此字符的最近表示.例如,\ u1576?会给出阿拉伯字母beh,指明没有Unicode支持的旧程序应该将其作为问号呈现.
我不知道如何将Unicode字符转换为Unicode代码点("\ u1576").转换为UTF 8,UTF 16和类似很容易,但我不知道如何转换为codepoint.
我使用它的场景:
当Unicode字符到达时出现问题
String.prototype.codePointAt()和String.prototype.charCodeAt()JavaScript有什么区别?
'A'.codePointAt(); // 65
'A'.charCodeAt(); // 65
Run Code Online (Sandbox Code Playgroud) 将JavaScript字符串拆分为"字符"可以简单地完成,但如果您关心Unicode(并且您应该关心Unicode)则会出现问题.
JavaScript本身将字符视为16位实体(UCS-2或UTF-16),但这不允许BMP(基本多语言平面)之外的Unicode字符.
为了处理BMP之外的Unicode字符,JavaScript必须考虑" 代理对 ",它本身并不是这样做的.
我正在寻找如何通过codepoint拆分js字符串,无论代码点是否需要一个或两个JavaScript"字符"(代码单元).
根据您的需要,按代码点拆分可能还不够,您可能希望拆分" 字形集群 ",其中集群是基本代码点,后跟所有非间距修改符代码点,例如组合重音符号和变音符号.
出于这个问题的目的,我不需要通过字形集群进行拆分.
创建表情符号字体时,任何顺序都ZERO WIDTH JOINER有效吗?
例如:我可以用\xe2\x80\x8d\xe2\x98\x85\xe2\x80\x8d( Waving White Flag+ zwj+ Black Star+ zwj+ Green Square) 来代表一面带有绿色星星的白旗吗?然后渲染它,比如世界语旗帜?
codepoint ×10
unicode ×9
string ×3
emoji ×2
javascript ×2
astral-plane ×1
c# ×1
cjk ×1
fonts ×1
java ×1
python-2.7 ×1
rtf ×1
sequences ×1
utf-8 ×1