在javascript中捕获表情符号

neu*_*ino 2 javascript parsing emoji

我必须在javascript中编写一个可以检测表情符号的模块,并用带有图像链接的div标签替换每个模块.

(表情符号是形式的字符串:) :-) etc)

问题是我有几百个,并试图写一个正则表达式来捕获所有这些并不是一个好主意.

有没有办法做到这一点,因为我有一个散列图,其中键是表情符号字符串,值是十六进制值.(所有表情符号都在一定范围内)

谢谢!

编辑:所以也许我说的问题的方式不明确.想象一下,你有一个包含100000个单词的字典,每个单词有4-5个字符.和一串线,每行包含100 - 150个字符.你怎么能找到这些单词?

ric*_*ici 5

遗憾的是,Javascript字符串是16位无符号整数代码点的序列,通常表示Unicode字符串的UTF-16编码.因此,BMP之外的Unicode字符(起始于的代码点U+10000)表示为代理对,每个代理对都是两个"字符"长.这在正则表达式中可见; 如果你想匹配,例如,U+1F623("PERSEVERING FACE"),你需要匹配\uD83D\uDE23.

虽然烦人,但这并非完全不切实际.范围仍然很容易匹配.例如,假设您认为表情符号是范围U+1F300...U+1F64F,即http://www.unicode.org/Public/UNIDATA/EmojiSources.txt中表情符号转录数据中列出的大部分但不是全部字符,那么您可以使用正则表达式:

/\uD83C[\uDF00-\uDFFF]|\uD83D[\uDC00-\uDE4F]/
Run Code Online (Sandbox Code Playgroud)

要计算这些代码,您需要了解从非BMP Unicode代码点到两个代理项字符的映射.它并不复杂:)首先,你U+10000从Unicode代码点中减去(UTF-16的设计者选择避免在已经适合16位的代码点上浪费代码空间).这会留下一个20位的数字,因为最大的有效Unicode代码点是U+10FFFF.现在,您需要将该20位数字拆分为两个10位块.添加高阶10位U+D800以形成第一代理代码,并且添加低阶10位U+DC00以形成第二代理.

使用PERSEVERING FACE示例:

U+1F623 => 0F623       (subtract 0x10000)
        => 0000 1111 0110 0010 0011  (in binary)
        => 00 0011 1101, 10 0010 0011 (two 10-bit chunks)
        =>  03D,  223  (back to hex)
        => D83D, DE23  (add D800 to first and DC00 to second) 
Run Code Online (Sandbox Code Playgroud)

让你的计算机进行这些计算的"简单"方法,如果你有bashiconv实用程序,是:

printf $'\U1F623\U1F3A9' |
iconv -f utf8 -t utf16le | hexdump -e '8/2 "%04x " "\n"'
Run Code Online (Sandbox Code Playgroud)

(我将它分成两行进行显示,但您只需将其键入一行即可.您可以将任意数量的代码放入传递给的字符串中printf.)