小编bis*_*ark的帖子

HTML编码和lxml解析

我试图最终解决从尝试使用lxml抓取HTML时弹出的一些编码问题.以下是我遇到的三个示例HTML文档:

1.

<!DOCTYPE html>
<html lang='en'>
<head>
   <title>Unicode Chars: ? —’</title>
   <meta charset='utf-8'>
</head>
<body></body>
</html>
Run Code Online (Sandbox Code Playgroud)

2.

<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ko-KR" lang="ko-KR">
<head>
    <title>Unicode Chars: ? —’</title>
    <meta http-equiv="content-type" content="text/html; charset=utf-8" />
</head>
<body></body>
</html>
Run Code Online (Sandbox Code Playgroud)

3.

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html
PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <title>Unicode Chars: ? —’</title>
</head>
<body></body>
</html>
Run Code Online (Sandbox Code Playgroud)

我的基本脚本:

from lxml.html import fromstring
...

doc = fromstring(raw_html)
title = doc.xpath('//title/text()')[0]
print title
Run Code Online (Sandbox Code Playgroud)

结果是: …

python unicode lxml beautifulsoup web-scraping

9
推荐指数
1
解决办法
9995
查看次数

关注Heroku的外部数据库

是否可以将在EC2中运行的Postgres 9.1数据库配置为Heroku Postgres关注数据库的源?换一种说法:

$ heroku config:set MY_DATABASE_URL=postgres://my_user:my_pass@my_ec2_server:5432/my_db
$ heroku addons:add heroku-postgresql:ronin --follow MY_DATABASE_URL
Run Code Online (Sandbox Code Playgroud)

源数据库需要进行哪些设置才能实现此目的?

migration postgresql heroku

2
推荐指数
1
解决办法
584
查看次数