小编Ale*_* P.的帖子

刮一个编码为iso-8859-1而不是utf-8的网站:如何在我的数据库中存储正确的unicode?

我想用一个充满可怕问题的Python来抓一个网站,其中一个是顶部错误的编码:

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
Run Code Online (Sandbox Code Playgroud)

这是错误的,因为页面中出现如下所示:

Nell’ambito

代替

Nell'ambito(请注意’替换')

如果我理解正确,这是因为utf-8字节(可能是数据库编码)被解释为iso-8859-1字节(由元标记中的字符集强制).我在这个链接http://www.i18nqa.com/debug/utf8-debug.html找到了一些初步的解释

我正在使用BeautifulSoup来浏览页面,Google App Engine的urlfetch来发出请求,但是我需要的是了解在数据库中存储’通过对字符串进行编码来修复的字符串的正确方法'.

python unicode beautifulsoup utf-8

1
推荐指数
1
解决办法
2211
查看次数

标签 统计

beautifulsoup ×1

python ×1

unicode ×1

utf-8 ×1