相关疑难解决方法(0)

编码字符串python的解码

我有一个html页面列表,其中可能包含某些编码字符.一些例子如下 -

<a href="mailto:lad%20at%20maestro%20dot%20com">
<em>ada&#x40;graphics.maestro.com</em>
<em>mel&#x40;graphics.maestro.com</em>
Run Code Online (Sandbox Code Playgroud)

我想解码(逃避,我不确定当前的术语)这些字符串 -

 <a href="mailto:lad at maestro dot com">
<em>ada@graphics.maestro.com</em>
<em>mel@graphics.maestro.com</em>
Run Code Online (Sandbox Code Playgroud)

请注意,HTML页面采用字符串格式.另外,我不想使用任何外部库,如BeautifulSoup或lxml,只有本机python库是可以的.

编辑 -

以下解决方案并不完美.HTML解析器unescaping与urllib2抛出一个

UnicodeDecodeError: 'ascii' codec can't decode byte 0x94 in position 31: ordinal not in range(128)
Run Code Online (Sandbox Code Playgroud)

在某些情况下出错.

python encode decode character-encoding

7
推荐指数
1
解决办法
2990
查看次数

标签 统计

character-encoding ×1

decode ×1

encode ×1

python ×1