相关疑难解决方法(0)

如何处理来自urllib.request.urlopen()的响应编码

我正在尝试使用正则表达式搜索网页,但我收到以下错误:

TypeError:不能在类字节对象上使用字符串模式

我理解为什么,urllib.request.urlopen()返回一个字节流,所以,至少我猜测,重新不知道要使用的编码.在这种情况下我该怎么办？有没有办法在urlrequest中指定编码方法,或者我需要自己重新编码字符串？如果是这样我想要做什么,我假设我应该从头信息或编码类型中读取编码,如果在html中指定,然后重新编码为它？

python regex encoding urllib

42
推荐指数

5
解决办法

8万
查看次数

urllib2开启者提供错误的字符集

当我打开网址并阅读它时,我无法识别它.但是,当我检查内容标题时,它表示它被编码为utf-8.因此我尝试将其转换为unicode并且它抱怨UnicodeDecodeError:'ascii'编解码器无法使用unicode()解码位置1中的字节0x8b:序号不在范围(128)中.

.encode("utf-8")产生UnicodeDecodeError:'ascii'编解码器无法解码位置1的字节0x8b:序数不在范围内(128)

.decode("utf-8")产生UnicodeDecodeError:'utf8'编解码器无法解码位置1的字节0x8b:无效的起始字节.

我已经尝试了所有我能想到的东西(我对编码不是很擅长)

如果我能让这个工作,我会很高兴.谢谢.

python urllib2 utf-8 character-encoding

4
推荐指数

1
解决办法

2903
查看次数

标签统计

character-encoding ×1