Emojis的Python3 src编码

Question

Emojis的Python3 src编码

Sea*_*obo 7 python string unicode encoding

我想从python(3)src打印emojis

我正在研究一个分析Facebook消息历史的项目,在下载的原始htm数据文件中,我发现很多表情符号都显示为带有问号的框,就像无法显示该值时一样.如果我将这些符号复制粘贴到终端作为字符串,我得到的值如\U000fe328.这也是我通过BeautifulSoup运行htm文件并输出数据时得到的输出.

我用Google搜索了这个字符串(以及其他字符串),并且始终提出它们的唯一网站之一是iemoji.com,在上面的字符串本页的情况下,将字符串列为Python Src.我希望能够打印出这些字符串作为相应的表情符号(毕竟,它们在发送消息时始终是表情符号),然后环顾四周后,我在这个页面找到了src编码的映射,将上面的字符串映射到表情符号字符串名称.然后我发现这个表情符号字符串名称为Unicode列表,大部分似乎将表情符号名称映射到Unicode.如果我尝试打印出这些值,我会得到很好的输出.喜欢以下

>>> print(u'\U0001F624')

Run Code Online (Sandbox Code Playgroud)

有没有办法将这些"Python src"编码映射到它们的unicode值？如果不是因为原始src映射缺少unicode库中找到的大约50%的unicode值,那么链接这两个库将会起作用.如果我最终必须这样做,有没有一种很好的方法来找到给定表情符号的Python Src值？从我的测试表情符号作为字符串等于他们的Unicode,例如'' == u'\U0001F624',但我似乎无法得到任何关系\U000fe328

Answer 1

roe*_*and 2

这与Python无关。像这样的转义\\U000fe328仅包含代码点的十六进制表示，所以这个是U+0FE328（这是一个私人使用字符）。

\n\n

如今，许多表情符号都被分配给代码点，例如。是U+01F624 \xe2\x80\x94 FACE WITH LOOK OF TRIUMPH。

\n\n

在分配这些符号之前，各种程序使用私人使用范围内的各种代码点来表示表情符号。Facebook 显然使用了私人使用字符U+0FE328。从这些代码点到标准代码点的映射是任意的。其中一些可能根本没有等效的标准。

\n\n

因此，您必须寻找一个表格，告诉您这些旧分配中的哪些对应于哪个标准代码点。

\n\n

GitHub 上的php-emoji似乎包含这些映射。但请注意，这是 PHP 代码，并且字符表示为 UTF-8（例如，上面的字符将是"\\xf3\\xbe\\x8c\\xa8"）。

\n

归档时间：	9 年，4 月前
查看次数：	414 次
最近记录：	9 年，4 月前