neu*_*ino 2 javascript parsing emoji
我必须在javascript中编写一个可以检测表情符号的模块,并用带有图像链接的div标签替换每个模块.
(表情符号是形式的字符串:) :-) etc)
问题是我有几百个,并试图写一个正则表达式来捕获所有这些并不是一个好主意.
有没有办法做到这一点,因为我有一个散列图,其中键是表情符号字符串,值是十六进制值.(所有表情符号都在一定范围内)
谢谢!
编辑:所以也许我说的问题的方式不明确.想象一下,你有一个包含100000个单词的字典,每个单词有4-5个字符.和一串线,每行包含100 - 150个字符.你怎么能找到这些单词?
遗憾的是,Javascript字符串是16位无符号整数代码点的序列,通常表示Unicode字符串的UTF-16编码.因此,BMP之外的Unicode字符(起始于的代码点U+10000)表示为代理对,每个代理对都是两个"字符"长.这在正则表达式中可见; 如果你想匹配,例如,U+1F623("PERSEVERING FACE"),你需要匹配\uD83D\uDE23.
虽然烦人,但这并非完全不切实际.范围仍然很容易匹配.例如,假设您认为表情符号是范围U+1F300...U+1F64F,即http://www.unicode.org/Public/UNIDATA/EmojiSources.txt中表情符号转录数据中列出的大部分但不是全部字符,那么您可以使用正则表达式:
/\uD83C[\uDF00-\uDFFF]|\uD83D[\uDC00-\uDE4F]/
Run Code Online (Sandbox Code Playgroud)
要计算这些代码,您需要了解从非BMP Unicode代码点到两个代理项字符的映射.它并不复杂:)首先,你U+10000从Unicode代码点中减去(UTF-16的设计者选择避免在已经适合16位的代码点上浪费代码空间).这会留下一个20位的数字,因为最大的有效Unicode代码点是U+10FFFF.现在,您需要将该20位数字拆分为两个10位块.添加高阶10位U+D800以形成第一代理代码,并且添加低阶10位U+DC00以形成第二代理.
使用PERSEVERING FACE示例:
U+1F623 => 0F623 (subtract 0x10000)
=> 0000 1111 0110 0010 0011 (in binary)
=> 00 0011 1101, 10 0010 0011 (two 10-bit chunks)
=> 03D, 223 (back to hex)
=> D83D, DE23 (add D800 to first and DC00 to second)
Run Code Online (Sandbox Code Playgroud)
让你的计算机进行这些计算的"简单"方法,如果你有bash和iconv实用程序,是:
printf $'\U1F623\U1F3A9' |
iconv -f utf8 -t utf16le | hexdump -e '8/2 "%04x " "\n"'
Run Code Online (Sandbox Code Playgroud)
(我将它分成两行进行显示,但您只需将其键入一行即可.您可以将任意数量的代码放入传递给的字符串中printf.)