我正在使用
data=urllib2.urlopen(url).read()
Run Code Online (Sandbox Code Playgroud)
我想知道:
如何判断URL中的数据是否被gzip压缩?
如果数据被压缩,urllib2会自动解压缩数据吗?数据总是一个字符串吗?
我需要存储可以使用任何语言的网站内容.我需要能够在内容中搜索Unicode字符串.
我尝试过类似的东西:
import urllib2
req = urllib2.urlopen('http://lenta.ru')
content = req.read()
Run Code Online (Sandbox Code Playgroud)
内容是一个字节流,所以我可以在其中搜索Unicode字符串.
我需要一些方法,当我这样做urlopen,然后阅读使用标题中的charset解码内容并将其编码为UTF-8.