Sae*_*ati 20 sql-server unicode
我只是不明白。请参阅此 SQL 查询:
select nchar(65217) -- ?
select nchar(65218) -- ?
select nchar(65219) -- ?
select nchar(65220) -- ?
if nchar(65217) = nchar(65218)
print 'equal'
if nchar(65217) = nchar(65219)
print 'equal'
if nchar(65217) = nchar(65220)
print 'equal'
Run Code Online (Sandbox Code Playgroud)
基于传递关系,这意味着 SQL Server 认为它们都是同一个字符。
但是,在其他环境中,例如 C#,它们并不相同。
我感到困惑的是:
这当然会导致巨大的问题,因为我正在开发一个文本处理应用程序,数据几乎来自任何地方,我需要在处理之前对文本进行规范化。
如果我知道差异的原因,我可能会找到处理它的解决方案。谢谢你。
Dan*_*man 29
SQL Server 中的所有字符数据都与排序规则相关联,排序规则确定可以存储的字符域以及用于比较和排序数据的规则。排序规则适用于 Unicode 和非 Unicode 数据。
SQL Server 包括 3 大类排序规则:二进制、旧版和 Windows。二进制类别(_BIN
后缀)中的排序规则使用底层代码点进行比较,因此如果代码点不同而不管字符如何,相等比较将返回不相等。Legacy(SQL_
前缀)和 Windows 排序规则为更自然的字典规则提供排序和比较语义。这允许比较考虑大小写、重音、宽度和假名。Windows 排序word-sort
规则提供了与 Windows 操作系统密切相关的更强大的规则,而旧排序规则仅考虑单个字符。
下面的示例说明了 Windows 和带有 Teth 字符的二进制排序规则之间的区别:
CREATE TABLE dbo.WindowsColationExample
(
Character1 nchar(1) COLLATE Arabic_100_CI_AS_SC
, Character2 nchar(1) COLLATE Arabic_100_CI_AS_SC
, Character3 nchar(1) COLLATE Arabic_100_CI_AS_SC
, Character4 nchar(1) COLLATE Arabic_100_CI_AS_SC
);
CREATE TABLE dbo.BinaryColationExample
(
Character1 nchar(1) COLLATE Arabic_100_BIN
, Character2 nchar(1) COLLATE Arabic_100_BIN
, Character3 nchar(1) COLLATE Arabic_100_BIN
, Character4 nchar(1) COLLATE Arabic_100_BIN
);
INSERT INTO dbo.BinaryColationExample
VALUES ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );
INSERT INTO dbo.WindowsColationExample
VALUES ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );
--all characters compare not equal
SELECT *
FROM dbo.BinaryColationExample
WHERE
character1 = character2
OR character1 = character3
OR character1 = character4
OR character2 = character3
OR character2 = character4
OR character3 = character4;
--all characters compare equal
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character2;
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character3;
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character4;
SELECT *
FROM dbo.WindowsColationExample
WHERE character2 = character3;
SELECT *
FROM dbo.WindowsColationExample
WHERE character2 = character4;
SELECT *
FROM dbo.WindowsColationExample
WHERE character3 = character4;
Run Code Online (Sandbox Code Playgroud)
http://en.wikipedia.org/wiki/Duplicate_characters_in_Unicode中概述了 Unicode 可能包含相同字形的不同代码点的原因 。我总结一下,这可能是为了遗留兼容性或字符在规范上不等效。请注意,Teth 字符?
用于不同的语言 ( http://en.wikipedia.org/wiki/Teth )。
Mar*_*son 15
这与COLLATION
您的数据库有关(更多信息在 BOL 中)。
我不完全确定您遇到问题的特定字符的语言(我猜测是基于此线程的波斯语),但是如果您在相等运算符中指定正确的排序规则,那么您会得到准确的结果。
if nchar(65217) COLLATE Persian_100_BIN = nchar(65218) COLLATE Persian_100_BIN
print 'equal'; -- nothing returned
if nchar(65217) COLLATE Persian_100_BIN = nchar(65217) COLLATE Persian_100_BIN
print 'equal'; -- prints 'equal'
if nchar(65217) COLLATE Latin1_General_CI_AI = nchar(65220) COLLATE Latin1_General_CI_AI
print 'equal'; -- prints 'equal'
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
3422 次 |
最近记录: |