Emojis的Python3 src编码

Sea*_*obo 7 python string unicode encoding

我想从python(3)src打印emojis

我正在研究一个分析Facebook消息历史的项目,在下载的原始htm数据文件中,我发现很多表情符号都显示为带有问号的框,就像无法显示该值时一样.如果我将这些符号复制粘贴到终端作为字符串,我得到的值如\U000fe328.这也是我通过BeautifulSoup运行htm文件并输出数据时得到的输出.

我用Google搜索了这个字符串(以及其他字符串),并且始终提出它们的唯一网站之一是iemoji.com,在上面的字符串本页的情况下,将字符串列为Python Src.我希望能够打印出这些字符串作为相应的表情符号(毕竟,它们在发送消息时始终是表情符号),然后环顾四周后,我在这个页面找到了src编码的映射,将上面的字符串映射到表情符号字符串名称.然后我发现这个表情符号字符串名称为Unicode列表,大部分似乎将表情符号名称映射到Unicode.如果我尝试打印出这些值,我会得到很好的输出.喜欢以下

>>> print(u'\U0001F624')

Run Code Online (Sandbox Code Playgroud)

有没有办法将这些"Python src"编码映射到它们的unicode值?如果不是因为原始src映射缺少unicode库中找到的大约50%的unicode值,那么链接这两个库将会起作用.如果我最终必须这样做,有没有一种很好的方法来找到给定表情符号的Python Src值?从我的测试表情符号作为字符串等于他们的Unicode,例如'' == u'\U0001F624',但我似乎无法得到任何关系\U000fe328

roe*_*and 2

这与Python无关。像这样的转义\\U000fe328仅包含代码点的十六进制表示,所以这个是U+0FE328(这是一个私人使用字符)。

\n\n

如今,许多表情符号都被分配给代码点,例如。是U+01F624 \xe2\x80\x94 FACE WITH LOOK OF TRIUMPH

\n\n

在分配这些符号之前,各种程序使用私人使用范围内的各种代码点来表示表情符号。Facebook 显然使用了私人使用字符U+0FE328。从这些代码点到标准代码点的映射是任意的。其中一些可能根本没有等效的标准。

\n\n

因此,您必须寻找一个表格,告诉您这些旧分配中的哪些对应于哪个标准代码点。

\n\n

GitHub 上的php-emoji似乎包含这些映射。但请注意,这是 PHP 代码,并且字符表示为 UTF-8(例如,上面的字符将是"\\xf3\\xbe\\x8c\\xa8")。

\n