在mysql 5.1中选择unicode字符u2028

jel*_*han 9 mysql unicode utf-8

我试图在MySQL 5.1中选择unicdode character/u2028.MySQL 5.1确实支持utf8和ucs2.

在较新版本的MySQL中,我可以选择char只是使用utf16或utf32排序规则:

SELECT char(0x2028 using utf16);
SELECT char(0x00002028 using utf32);
Run Code Online (Sandbox Code Playgroud)

但MySQL 5.1不支持utf16和utf32.我怎么能选择unicode字符呢?

也许关于我的用例的几句话:我有一个第三方应用程序,它将数据存储在mysql数据库中,并使用JavaScript作为用户界面.该应用程序不处理问题unicode字符/ u2028和/ u2029是有效的JSON但会破坏JavaScript代码.(有关详细信息,请参阅http://timelessrepo.com/json-isnt-a-javascript-subset)所以我想知道有多少数据受到该问题的影响,并且可能使用MySQL上的替换来修复它.


为了证明这个问题:

CREATE TABLE IF NOT EXISTS `test` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `string` varchar(100) CHARACTER SET utf8 NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB  DEFAULT CHARSET=utf8 AUTO_INCREMENT=3 ;

INSERT INTO `test` (`id`, `string`) VALUES
(1, 'without U+2028'),
(2, 'with U+2028 at this "?    "point');

SELECT * FROM test WHERE string LIKE CONCAT("%", char(0x2028 using utf16), "%");
// returns row 2 as expected

SELECT * FROM test WHERE string LIKE CONCAT("%", char(??? using utf8), "%");
// U+2028 in utf8 is 0xE2 0x80 0xA8 isn't it?
// But how to parse this to char function?
Run Code Online (Sandbox Code Playgroud)

Tim*_*ers 8

unicode字符U + 2028可以UTF-8编码为十六进制e280a8.所以答案是使用MySQL中的UNHEX函数来查找它.

SELECT * FROM test WHERE string LIKE CONCAT("%", UNHEX('e280a8'), "%");
Run Code Online (Sandbox Code Playgroud)

MySQL 5.1只能处理UTF-8中长达三个字节的字符.因此,使用UNHEX搜索U + 2028会起作用,但搜索U + 1F600不会占用四个字节.

使用UNHEX('e280a9')搜索U + 2029.

  • 你从哪里得到/计算 U+2028 和 e280a8 之间的映射?我还有其他角色需要处理。 (2认同)