Javascript在字符串和解析中查找表情符号

Mat*_*rce 5 javascript string emoji

经过TONS的研究,我发现了如何使用Twemoji库实时解析表情符号。

现在,我需要弄清楚如何识别某些文本中是否存在表情符号,如何抓住该表情符号的位置并执行解析功能。

一些示例文本可以是

It is a great day .
Run Code Online (Sandbox Code Playgroud)

需要在整个字符串中查找,并使用以下函数获取其十六进制代码,返回代理对并使用Twemoji库进行解析。

function entityForSymbolInContainer(selector) {
    var code = data.message.body.codePointAt(0);
    var codeHex = code.toString(16);
    while (codeHex.length < 4) {
        codeHex = "0" + codeHex;
    }

    return codeHex;
}

// Get emoji hex code
    var emoji = entityForSymbolInContainer(data.message.body);
// For given an HEX codepoint, returns UTF16 surrogate pairs
    var emoji = twemoji.convert.fromCodePoint(emoji);
// Given a generic string, it will replace all emoji with an <img> tag
    var emoji = twemoji.parse(emoji);
Run Code Online (Sandbox Code Playgroud)

我正在使用以下检查来查看文本中是否有表情符号。问题在于,对于一​​个简单的笑脸()并不会引起我的注意。但是,如果我输入“ shirt and tie”(衬衫和领带)(),则会提醒我。

var string = "It is a great day .";
var emojiRegex = /([\uE000-\uF8FF]|\uD83C[\uDF00-\uDFFF]|\uD83D[\uDC00-\uDDFF])/g;

if (string.match(emojiRegex)) {
    alert("emoji found");
}
Run Code Online (Sandbox Code Playgroud)

请帮助解决正则表达式无法提取表情符号的问题。之后,我应该能够在字符串中找到它。

谢谢!

小智 10

现在,通过 ES2018,我们可以在正则表达式匹配中使用 Unicode 属性转义:

\n
\\p{\xe2\x80\xa6}\n
Run Code Online (Sandbox Code Playgroud)\n

对于简单的表情符号来说,它是:

\n
"Be kind , smile".match(/\\p{Emoji}+/gu)\n
Run Code Online (Sandbox Code Playgroud)\n

对于包含用 ZERO WIDTH JOINER 粘合的字形的表情符号,如 \xe2\x80\x8d\xe2\x80\x8d\xe2\x80\x8d ,它可以是:

\n
"My Family \xe2\x80\x8d\xe2\x80\x8d\xe2\x80\x8d".match(/[\\p{Emoji}\\u200d]+/gu)\n
Run Code Online (Sandbox Code Playgroud)\n


jal*_*con 8

2021 年,实现这一目标的最佳方法是使用 ES6 带来的正则表达式中对 unicode 的支持。

\n

就像使用这个正则表达式一样简单:

\n

/(\\p{Emoji_Presentation}|\\p{Extended_Pictographic})/gu

\n

例如,这个简单的函数将用空格替换字符串中的所有表情符号:

\n
function removeEmojis(str) {\n    var emojiRE = /(\\p{Emoji_Presentation}|\\p{Extended_Pictographic})/gu;\n    return str.replace(emojiRE, \'\');\n}\n\nremoveEmojis(\'This \xe2\x9d\x8c hs some  emojis inside\'); //\'This  hs some  emojis inside\'\n
Run Code Online (Sandbox Code Playgroud)\n

它同时使用Emoji_Representation和属性,因此在搜索中Extended_Pictographic不会对数字#和进行计数,如 Unicode 标准所示*

\n

我们也可以使用这些属性的缩写,以获得更短的正则表达式:

\n

/(\\p{EPres}|\\p{ExtPict})/gu

\n

您可以在这里试驾:

\n

\r\n
\r\n
function removeEmojis(str) {\n    var emojiRE = /\\p{EPres}|\\p{ExtPict}/gu;\n    return str.replace(emojiRE, \'\');\n}\n\nvar testStr = \'This \xe2\x9d\x8c hs some  emojis inside\';\nconsole.log(\'Test string: \' + testStr);\nconsole.log(\'Result: \' + removeEmojis(testStr));
Run Code Online (Sandbox Code Playgroud)\r\n
\r\n
\r\n

\n

  • 这很好,但不包括使用零宽度连接符的表情符号。我最终使用: `/(\p{EPres}|\p{ExtPict})(\u200d(\p{EPres}|\p{ExtPict}))*/gu` (3认同)

小智 5

这篇文章给出了一个非常全面的正则表达式来匹配表情符号,并给出了很好的解释。他的正则表达式基于 lodash 库发布的正则表达式。

(?:[\u2700-\u27bf]|(?:\ud83c[\udde6-\uddff]){2}|[\ud800-\udbff][\udc00-\udfff]|[\u0023-\u0039]\ufe0f?\u20e3|\u3299|\u3297|\u303d|\u3030|\u24c2|\ud83c[\udd70-\udd71]|\ud83c[\udd7e-\udd7f]|\ud83c\udd8e|\ud83c[\udd91-\udd9a]|\ud83c[\udde6-\uddff]|[\ud83c[\ude01-\ude02]|\ud83c\ude1a|\ud83c\ude2f|[\ud83c[\ude32-\ude3a]|[\ud83c[\ude50-\ude51]|\u203c|\u2049|[\u25aa-\u25ab]|\u25b6|\u25c0|[\u25fb-\u25fe]|\u00a9|\u00ae|\u2122|\u2139|\ud83c\udc04|[\u2600-\u26FF]|\u2b05|\u2b06|\u2b07|\u2b1b|\u2b1c|\u2b50|\u2b55|\u231a|\u231b|\u2328|\u23cf|[\u23e9-\u23f3]|[\u23f8-\u23fa]|\ud83c\udccf|\u2934|\u2935|[\u2190-\u21ff])
Run Code Online (Sandbox Code Playgroud)

https://medium.com/@thekevinscott/emojis-in-javascript-f693d0eb79fb