标签: codepoint

所有 Unicode 表情符号 ZWJ 序列都有效吗?

创建表情符号字体时,任何顺序都ZERO WIDTH JOINER有效吗?

\n\n

例如:我可以用\xe2\x80\x8d\xe2\x98\x85\xe2\x80\x8d( Waving White Flag+ zwj+ Black Star+ zwj+ Green Square) 来代表一面带有绿色星星的白旗吗?然后渲染它,比如世界语旗帜

\n

unicode fonts codepoint emoji

11
推荐指数
1
解决办法
1533
查看次数

在SQL Server nvarchar(UCS-2)列中存储C#字符串(UTF-16)会产生什么后果?

似乎SQL Server 对字段使用Unicode UCS-2,一个2字节的固定长度字符编码nchar/nvarchar.同时,C#对其字符串使用Unicode UTF-16编码(注意:有些人不认为UCS-2是Unicode,但它在Unicode子集0-0xFFFF中编码与UTF-16相同的所有代码点,并且就SQL Server而言,就字符串而言,它本身支持的"Unicode"最接近它.)

虽然UCS-2在基本多语言平面(BMP)中对与UTF-16相同的基本代码点进行编码,但它不保留UTF-16允许代理对的某些位模式.

如果我将C#字符串写入SQL Server nvarchar(UCS-2)字段并将其读回,这是否会返回相同的结果?

看来尽管UTF-16是UCS-2的意义上的超集UTF-16编码更多的代码点(例如上述0xFFFF)时,它实际上是UCS-2的2字节级的子集,因为它是限制性更强.

为了回答我自己的问题,我怀疑如果我的C#字符串包含高于0xFFFF的代码点(由字符对表示),这些将在数据库中存储和检索得很好,但如果我试图在数据库中操作它们(例如也许调用TOUPPER或试图删除所有其他字符),然后我可能会遇到一些问题,以后显示字符串...除非SQL Server具有确认代理对并有效地将nchar/nvarchar字符串视为UTF-16的函数.

sql-server ucs2 utf-16 codepoint character-encoding

9
推荐指数
1
解决办法
2864
查看次数

写出更好的自然类型(比我的)

我在这里添加了对这个问题的答案:在C#中进行排序List<String>,它需要一个自然排序顺序,一个处理嵌入数字的顺序.

然而,我的实现是天真的,并且代替所有关于应用程序如何通过假设(土耳其测试任何人?)正确处理Unicode的帖子,我想我会请求帮助编写更好的实现.或者,如果有.NET的内置方法,请告诉我:)

我对该问题中答案的实现只是通过字符串,逐个字符地进行比较,直到遇到两个数字.然后它从两个字符串中提取连续的数字,这可能导致长度变化,用前导零填充最短的数字,然后进行比较.

但是,它存在问题.

例如,如果你在字符串x中有两个代码点,它们共同构成字符È,但在另一个字符串中你只有一个代码点,即那个字符.

我的算法会失败,因为它会将变音符号码视为单个字符,并将其与其他字符串中的È进行比较.

任何人都可以指导我如何妥善处理这个问题?我希望支持指定一个CultureInfo处理语言问题的对象,例如在德国比较"ss"和"ß",以及类似的东西.

我想我需要让我的代码枚举"真实字符"(我不知道真正的术语)而不是单个代码点.

什么是正确的方法?

此外,如果"自然"意味着"人类期望它的工作方式",我会在思考时添加以下内容:

  • 日期和时间怎么样?
  • 浮点值怎么样?
  • 还有其他被认为是"自然"的序列吗?
    • 这应该延伸多远?(Eeny,meeny,miny,moe)

.net unicode natural-sort codepoint

8
推荐指数
1
解决办法
687
查看次数

从QChar检索Unicode代码点> U + FFFF

我有一个应用程序,应该处理各种字符,并在某些时候显示有关它们的信息.我在QChar,QString等中使用Qt及其固有的Unicode支持.

现在我需要QChar的代码点来查找http://unicode.org/Public/UNIDATA/UnicodeData.txt中的一些数据,但QChar的unicode()方法只返回一个ushort(unsigned short),这通常是是0到65535(或0xFFFF)之间的数字.有些代码点> 0xFFFF的字符,所以如何获取这些字符?是否有一些技巧我缺少或目前Qt/QChar不支持?

unicode qt codepoint astral-plane qchar

7
推荐指数
1
解决办法
1617
查看次数

如何将Unicode代码点(\ uXXXX)转换为Perl中的字符?

我有一些Unicode代码点(\ u5315\u4e03\u58ec\u4e8c\u4e0a\u53b6\u4e4b),我必须转换成他们所代表的实际字符.

最简单的方法是什么?

unicode perl codepoint

6
推荐指数
2
解决办法
4238
查看次数

6
推荐指数
1
解决办法
3670
查看次数

使用Javascript查找Unicode字符名称

当用户为其输入数字时,我需要找出Unicode字符的名称.一个例子是输入0041并得到"Latin Capital Letter A"作为结果.

javascript unicode character codepoint

6
推荐指数
1
解决办法
1924
查看次数

Java unicode在哪里可以找到示例N字节的unicode字符

我正在寻找样本1字节,2字节,3字节,4字节,5字节和6字节的unicode字符.任何指向所有不同unicode字符的引用的链接以及它们有多大(按字节顺序)都将非常感激.我希望这个参考也有代码点\uXXXXX.

java unicode codepoint sample-data

6
推荐指数
3
解决办法
7191
查看次数

这些 Unicode 字符(代码点)在此正则表达式中意味着什么?

我有以下正则表达式:\n我想出了大部分部分,如下所示:

\n\n
\nValidationExpression="^[\u0020\u0027\u002C\u002D\u0030-\u0039\u0041-\u005A\u005F\u0061-\u007A\u00C0-\u00FF\ xc2\xb0./]{1,256}$"\n\nu0020 : 空格\nu0027 : 撇号\nu002C : 逗号\nu002D : 连字符/减号\nu0030-\\u0039\\ : 0-9\nu0041-\\u005A : A - Z\nu005F : 下划线\nu0061-\\u007A\\ : a - z\n\nu00C0-\\u00FF\xc2\xb0./ : ??\n
\n\n

需要帮助理解验证表达式的最后部分:

\n\n
u00C0-\\u00FF\xc2\xb0./
\n\n

任何人都知道这是什么意思?

\n

regex unicode diacritics codepoint

5
推荐指数
1
解决办法
2万
查看次数

为什么Unicode中有重复的字符?

我可以在Unicode中看到一些重复的字符.例如,字符"C"可以由代码点U + 0043和U + 0421表示.为什么会这样?

unicode codepoint

5
推荐指数
4
解决办法
1444
查看次数