如何在python中下载任何(!)网页和正确的字符集？

问题

当使用python对网页进行屏幕抓取时,必须知道页面的字符编码.如果你得到的字符编码错误,你的输出就会搞砸了.

人们通常使用一些基本技术来检测编码.它们使用标题中的字符集或元标记中定义的字符集,或者使用编码检测器(不关心元标记或标题).通过仅使用这些技术,有时您将无法获得与浏览器相同的结果.

浏览器这样做:

元标记始终优先(或xml定义)
当元标记中没有定义字符集时,将使用标头中定义的编码
如果根本没有定义编码,那么就是编码检测的时间.

(嗯......至少这是我认为大多数浏览器都这样做的方式.文档非常缺乏.)

我正在寻找的是一个可以像浏览器一样决定页面字符集的库.我确信我不是第一个需要妥善解决这个问题的人.

解决方案(我还没试过......)

根据Beautiful Soup的文档.

美丽的汤按优先级顺序尝试以下编码,将您的文档转换为Unicode:

作为fromEncoding参数传递给汤构造函数的编码.
在文档本身中发现的编码:例如,在XML声明中或(对于HTML文档)的http-equiv META标记.如果Beautiful Soup在文档中找到这种编码,它会从头开始再次解析文档并尝试新编码.唯一的例外是如果您明确指定了编码,并且该编码实际上有效:那么它将忽略它在文档中找到的任何编码.
通过查看文件的前几个字节来嗅探编码.如果在此阶段检测到编码,则它将是UTF-*编码,EBCDIC或ASCII之一.
如果安装了chardet库,则会对其进行嗅探.
UTF-8
Windows的1252

python screen-scraping urllib urllib2 character-encoding

Tar*_*mán

2010 09-04

34
推荐指数

3
解决办法

1万
查看次数

AttributeError：“ HTTPResponse”对象没有属性“ split”

我正在尝试从Google财经获取一些信息，但出现此错误

AttributeError：“ HTTPResponse”对象没有属性“ split”

这是我的python代码：

import urllib.request
import urllib
from bs4 import BeautifulSoup

symbolsfile = open("Stocklist.txt")

symbolslist = symbolsfile.read()

thesymbolslist = symbolslist.split("\n")

i=0


while i<len (thesymbolslist):
    theurl = "http://www.google.com/finance/getprices?q=" + thesymbolslist[i] + "&i=10&p=25m&f=c"
    thepage = urllib.request.urlopen (theurl)
    print(thesymbolslist[i] + " price is " + thepage.split()[len(thepage.split())-1])
    i= i+1

Run Code Online (Sandbox Code Playgroud)

python python-3.x

Zep*_*pol

2016 05-22

0
推荐指数

1
解决办法

1万
查看次数