将 HTML 实体转换为 Python 表情符号

Gan*_*ham 2 html python emoticons emoji

假设我有以下 HTML 表情符号实体:“ ;”

请注意,4 和 ; 之间实际上没有空格。它只是在那里,所以它不会显示为笑脸

表情符号的 Python 形式是:u"\U0001f604"

如何将所有 HTML 表情符号实体转换为其 Python 形式?


到目前为止我尝试过的事情:

  • 编码为utf-8
  • 使用 HTML 解析器取消转义文本,然后进行转换
  • 使用正则表达式(无法获得适用于所有 HTML 表情符号实体的东西 - 不像将 &#x 与 \U000 交换那么简单,因为这只适用于某些实体)

Rob*_*obᵩ 5

HTMLParser.unescape就是这样做的:

In [3]: HTMLParser.HTMLParser().unescape( '😄' )
Out[3]: u'\U0001f604'
Run Code Online (Sandbox Code Playgroud)