Sea*_*obo 7 python string unicode encoding
我想从python(3)src打印emojis
我正在研究一个分析Facebook消息历史的项目,在下载的原始htm数据文件中,我发现很多表情符号都显示为带有问号的框,就像无法显示该值时一样.如果我将这些符号复制粘贴到终端作为字符串,我得到的值如\U000fe328
.这也是我通过BeautifulSoup运行htm文件并输出数据时得到的输出.
我用Google搜索了这个字符串(以及其他字符串),并且始终提出它们的唯一网站之一是iemoji.com,在上面的字符串本页的情况下,将字符串列为Python Src.我希望能够打印出这些字符串作为相应的表情符号(毕竟,它们在发送消息时始终是表情符号),然后环顾四周后,我在这个页面找到了src编码的映射,将上面的字符串映射到表情符号字符串名称.然后我发现这个表情符号字符串名称为Unicode列表,大部分似乎将表情符号名称映射到Unicode.如果我尝试打印出这些值,我会得到很好的输出.喜欢以下
>>> print(u'\U0001F624')
Run Code Online (Sandbox Code Playgroud)
有没有办法将这些"Python src"编码映射到它们的unicode值?如果不是因为原始src映射缺少unicode库中找到的大约50%的unicode值,那么链接这两个库将会起作用.如果我最终必须这样做,有没有一种很好的方法来找到给定表情符号的Python Src值?从我的测试表情符号作为字符串等于他们的Unicode,例如'' == u'\U0001F624'
,但我似乎无法得到任何关系\U000fe328
这与Python无关。像这样的转义\\U000fe328
仅包含代码点的十六进制表示,所以这个是U+0FE328
(这是一个私人使用字符)。
如今,许多表情符号都被分配给代码点,例如。是U+01F624 \xe2\x80\x94 FACE WITH LOOK OF TRIUMPH
。
在分配这些符号之前,各种程序使用私人使用范围内的各种代码点来表示表情符号。Facebook 显然使用了私人使用字符U+0FE328
。从这些代码点到标准代码点的映射是任意的。其中一些可能根本没有等效的标准。
因此,您必须寻找一个表格,告诉您这些旧分配中的哪些对应于哪个标准代码点。
\n\nGitHub 上的php-emoji似乎包含这些映射。但请注意,这是 PHP 代码,并且字符表示为 UTF-8(例如,上面的字符将是"\\xf3\\xbe\\x8c\\xa8"
)。
归档时间: |
|
查看次数: |
414 次 |
最近记录: |